大 话 存储 


鼎 革 大 学 出 版 社 


张 冬 (网 名 : 冬瓜 头 ) 


存储 行业 混迹 十 载 ， 历 任 售 前 售后 、 产 品 设计 、 咨 询 顾问 等 角 
色 ， 四 项 存储 技术 专利 友 明 人 人 。 酷 爱 钼 研 ， 个 性 执着 。 理 想 是 晚年 能 
够 做 一 名 教师 。 


内 容 简介 


网 络 存储 是 一 个 涉及 计算 机 硬件 以 及 网 络 协议 /技术 、 操 作 系统 以 
及 专业 软件 等 各 方面 综合 知识 的 领域 。 目 前 国内 阐述 网 络 存储 的 书籍 
少 之 又 少 ， 大 部 分 是 国外 作品 ， 对 存储 系统 底层 细节 的 描述 不 够 深 
入 ， 加 之 术语 太 多 ， 初 学 者 很 难 真 正 理解 网 络 存 储 的 精髓 。 


本 书 以 特 立 独行 的 行文 风格 向 读者 前 述 了 整个 网 络 存储 系统 。 从 
硬盘 到 应 用 程序 ， 对 这 条 路 径 上 的 每 个 节点 ， 作 者 都 进行 了 前 述 。 书 
中 内 容 涉及 : 计算 机 IO 基 本 概念 ， 硬 盘 物 理 结 构 、 盘 片 数据 结构 和 工 
作 原 理 ， 七 种 常见 RAID 原 理 详 析 以 及 性 能 细节 对 比 ， 虚 拟 磁 盘 、 卷 和 
文件 系统 原理 ， 磁 盘 阵 列 系统 ，OSI 模 型 ，FC 协 议 ， 众 多 磁盘 阵列 架 
构 等 。 另 外 ， 本 书 宫 括 了 存储 领域 几乎 所 有 的 新 兴 技 术 ， 比 如 机 械 磁 
盘 、SSD、FC/SAS 协 议 、HBA 卡 、 存 储 控制 器 、 集 群 存储 系统 、FC 
SAN、NAS、iSCSI[、FCoE、 快 照 、 镜 像 、 虚 拟人 化、 同步 /异步 远程 复 
制 、Thin Provision 自 动 精简 配置 、VTL 虚 拟 磁 带 库 、 数 据 容 灾 、 应 用 
容 灾 、 业 务 容 灾 、 性 能 优化 、 存 储 系统 IO 路 径 、 云 计算 与 云 存储 等 。 


其 中 每 一 项 技术 作者 都 进行 了 建 模 和 分 析 ， 虽 在 帮助 读者 彻底 理 
解 每 一 种 技术 的 原理 和 本 质 。 本 书 结尾 ， 作 者 精心 总 结 和 多 年 来 在 论 
坛 以 及 各 大 媒体 发 表 的 帖子 内 容 ， 超 过 一 百 条 的 间 与 答 ， 这 些 内 容 都 
是 与 实际 紧密 结合 的 经 验 总 结 ， 跨 具 参 考 价值 。 


本 书 第 一 版 于 2008 年 出 版 ， 受 到 业界 一 致 衣 定 ， 历 经 6 年 技术 沉 演 
重 季 出 版。 


本 书 适 合 初 入 存储 行业 的 研发 人 员 、 技 术 工程 师 、 售 前 工程 师 和 
销售 人 员 疝 读 ， 同 时 适合 资深 存储 行业 人 士 用 以 互相 切磋 交流 提高 。 


另外 ， 网 络 工 程 师 、 网 管 、 服 务 器 软 硬 件 开 发 与 销售 人 员 、Web 开 发 
者 、 数 据 库 开发 者 以 及 相关 专业 师 生 等 也 非常 适合 阅读 本 书 。 

本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 。 
版 权 所 有 ， 侵 权 必 究 。 侵 权 举 报 电话 : 010-62782989 13701121933 
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作者 感言 


各 位 读者 好 ， 很 高 兴 再 次 为 大 家 “大 话 ” 存 储 ， 记 得 上 一 次 是 在 3 年 
前 。6 年 前 ， 当 《大 话 存储 》 一 书 在 2008 年 出 版 面世 之 后 ， 我 当时 就 许 
下 承诺 ， 要 写 《 大 话 存储 终极 版 》。 当 时 之 所 以 敢 夸 下 海口 要 继续 写 
第 二 本 ， 是 因为 《大 话 存 储 》 介 绍 了 存储 领域 最 基本 的 概念 和 架构 ， 
但 并 没有 深入 涉及 存储 领域 最 新 的 技术 ， 比 如 重复 数据 删除 、Thin 
Provision、 动 态 分 级 存储 、CDP 连 续 数据 保护 、SSD 固 态 硬盘 、 
FCoE、SAS、 云 计算 和 云 存 储 等 。 


当年 的 《大 话 存 储 》 确 实 满足 了 广大 读者 的 一 定 需求 ， 出 版 之 后 
也 获得 了 诸多 好 评 和 官方 的 、 民 间 的 很 多 奖项 。 这 些 成 果 逐 渐 让 我 感 
觉 到 更 大 的 责任 和 压力 。 正 因 如 此 ， 所 以 我 深 知 绝对 不 能 就 此 停 欲 ， 
学 习 是 永 无 止境 的 ， 技 术 是 不 断 发 展 的 ， 所 以 我 先 向 大 家 做 了 承诺 ， 
这 样 就 可 以 无 时 无 刻 地 激励 我 继续 学 习 研究 下 去 了 。 


写作 过 程 是 极其 困难 的 ， 尤 其 是 当 一 字 一 句 都 需要 精 雕 细 琢 ， 并 
且 时 刻 以 通俗 表达 且 让 所 有 人 都 能 看 懂 的 原则 和 基准 去 写 的 时 候 ， 其 
所 耗费 的 精力 和 脑力 是 巨大 的 。 记 得 在 一 年 前 撰写 本 书 主体 的 时 候 ， 
基本 上 每 天 都 是 早晨 七 八 点 钟 起 来 ， 从 床上 直接 到 书桌 前 开始 写 ， 直 
到 中 午 吃饭 ， 吃 饭 过 程 中 依然 在 脑海 中 构思 着 ， 就 这 样 一 直到 晚上 ， 
最 晚 的 一 次 记得 是 做 一 个 实验 ， 通 宵 达 旦 ， 直 到 第 二 天 天 亮 ， 实 在 体 
力 不 支 ， 去 床上 躺 到 中 午 ， 然 后 继续 写 。 每 次 睡觉 之 前 ， 都 会 带 着 一 
个 疑问 入 睡 ， 躺 下 之 后 融 在 脑海 中 构思 、 建 模 ， 一 旦 想到 某 些 重要 的 
东西 ， 就 用 笔记 下 几 个 关键 词 ， 否 则 第 二 天 准 志 。 大 部 分 情况 一 般 都 
是 没 想到 什么 思路 就 已 经 呼 呼 大 睡 了 。 这 种 状态 持续 了 半年 之 久 ， 当 


完成 了 主体 稿件 之 后 ， 真 的 有 一 种 如 释 重 负 的 感觉 。 可 惜 ， 好 景 不 
长 ， 随 着 不 断 的 学 习 和 深入 ， 逐 渐 发 现 已 经 写 完 的 内 容 当 中 有 大 量 需 
要 补充 完善 、 修 饰 的 部 分 ， 在 修饰 完善 的 过 程 中 ， 继 续 思考 ， 结 果 发 
现 又 引申 出 更 多 的 东西 ， 有 些 甚至 推翻 了 以 前 的 结论 。 这 种 状态 又 持 
续 了 半年 ， 最 终 定稿 交 给 编辑 之 后 ， 依 然 发 现 还 有 零碎 的 东西 需要 完 
善 甚至 推翻 ， 结 果 一 再 将 更 新 的 内 容 同步 给 编辑 ， 导 致 出 版 日 期 一 推 
再 推 ， 出 版 社 相关 编辑 、 校 对 叫苦 不 迭 ， 还 好 咱 的 老 战 友 大 成 编辑 一 
如 既往 地 支持 ， 我 们 都 顶 住 了 压力 ， 直 到 最 后 一 个 月 时 间 内 没有 再 发 
现 需要 完善 的 内 容 ， 达 到 了 最 终 收敛 。 后 面 这 个 过 程 感觉 更 加 耗费 精 
力 ， 因 为 当 你 重新 审视 之 前 内 容 的 时 候 ， 一 旦 发 现 不 完善 甚至 错误 ， 
融会 感觉 到 一 种 挫败 感 和 愧 次 感 ， 使 你 的 激情 和 斗志 有 所 未 失 。 


写 书 不 但 是 给 他 人 共享 知识 的 过 程 ， 它 更 是 一 个 总 结 自身 知识 体 
系 、 提 高 自身 修养 以 及 让 自己 学 习 更 多 知识 的 途径 。 比 如 ， 我 在 写 书 
过 程 中 ， 不 但 通过 各 方面 渠道 纠正 了 之 前 对 某 项 技术 的 一 些 错 误 认 
识 ， 而 且 还 学 习 了 更 多 的 知识 ， 并 且 将 这 些 知识 进行 深度 理解 分 析 ， 
之 后 通俗 地 表达 出 来 。 当 你 发 现 其 他 人 通过 你 的 知识 快速 提高 之 后 ， 
这 种 感觉 是 最 充实 的 。 只 有 在 奉献 之 后 才 会 感到 充实 ， 而 不 是 一 味 的 
去 索取 ， 这 样 只 能 更 加 空虚 。 


本 次 终极 修订 版， 一 是 针对 《大 话 存 储 》 和 《大 话 存储 终极 版 》 
这 两 本 书 中 的 错误 进行 修改 ， 二 是 将 前 两 本 书 彻底 整合 成 为 一 本 ， 三 
是 增加 了 一 些 前 治 内 容 ， 四 是 针对 前 作 中 读者 反映 不 太 好 懂 的 地 方 进 
行 了 重新 诠释 。 鄙 人 的 下 一 本 书 已 经 在 写作 当中 ， 本 着 十 年 磨 一 剑 、 
磨 不 好 绝 不 拿 出 来 的 态度 ， 相 信 不 会 让 读者 失望 。 


感谢 家 人 对 我 的 支持 ! 长 达 半 年 的 无 业 状 态 ， 没 有 家 人 支持 就 没 
有 这 本 书 。 


感谢 那些 曾经 帮助 过 我 的 不 计 其 数 的 网 友和 同事 ! 没有 鼓励 也 不 
会 有 这 本 书 。 


感谢 清华 大 学 出 版 社 的 工作 人 员 为 本 书 所 付出 的 工作 ! 没有 信任 
更 不 会 有 这 本 书 。 


感谢 华中 科技 大 学 武汉 光电 国家 重点 实验 室 博 士 生 导师 谢 长 生 教 
授 对 部 人 和 本 书 的 大 力 支持 ! 


感谢 本 书 的 广大 读者 ， 你 们 的 支持 给 了 我 持续 前 进 的 动力 ! 


致 本 书 最 终 修订 版 交 稿 之 前 ， 我 的 女儿 诞生 了 ， 感 谢 妻 子 。 不 知 
道 她 成 人 之 后 ， 能 否 还 能 看 到 20 多 年 前 的 这 本 由 他 父 杀 所 著 的 著作 ， 
虽然 那 时 候 本 书 可 能 早已 过 时 。 我 会 努力 把 钻研 、 毅 力 、 执 着 、 琶 我 
这 些 豆 古 不 变 的 东西 ， 在 女儿 成 长 过 程 中 传授 给 她 ， 我 相信 ， 有 了 这 
些 ， 做 什么 都 会 成 功 。 


作者 联系 方式 : 

QQ: 122567712 

Email: 122567712@qq.com; myprotein@sina.com 
MSN: myprotein0007@hotmail.com 

新 浪 微 博 : @ 传 说 中 的 冬瓜 头 

Blog: http://space.doit.com.cn/35700 


读者 交流 QQ 群 : 72168388、361934810 


序 1 


我 关注 张 冬 这 个 名 字 是 在 《大 话 存储 》 一 书 刚 出 版 的 时 候 。 作 为 
一 个 长 期 从 事 信息 存储 技术 研究 与 教学 的 大 学 教师 ， 自 认为 对 于 国内 
外 关于 网 络 存储 方面 的 各 种 书籍 和 资料 比较 熟悉 ， 对 业界 有 哪些 高 人 
也 算 比 较 了 解 ， 但 我 在 书店 偶然 发 现 一 本 名 为 《大 话 存储 》 书 的 时 
候 ， 确 实感 到 有 点 意外 和 惊喜 。 好 像 在 熟悉 的 武林 圈子 之 外 ， 突 然 出 
现 一 位 武林 高 手 在 那里 论 道 。 好 奇 心 驱使 我 赶紧 买 了 一 本 书 回 家 研 
读 ， 结 果 发 现 这 本 书 确实 与 众 不 同 。 


与 我 们 这 些 所 谓 学 院 派 写 的 中 规 中 和 矩 的 书 相 比 ， 此 书 风 格 特 立 独 
行 ， 语 言 形象 生动 ， 潇 潇 酒 酒 ， 跨 具 武 侠 之 风 。 书 中 充满 着 智慧 的 思 
考 和 有 趣 的 比喻 ， 将 各 种 原本 枯燥 深奥 的 技术 概念 和 原理 论述 得 十 分 
透彻 明白 。 不 仅 如 此 ， 该 书 还 收集 了 大 量 的 实例 ， 使 读者 在 系统 获得 
网 络 存储 知识 的 同时 ， 还 能 了 解 典型 实际 系统 的 工作 原理 和 技术 细 
节 ， 具 有 很 好 的 实用 性 。 我 读 完 之 后 ， 对 这 本 书 的 作者 十 分 好 奇 。 一 
个 80 后 而 且 还 是 学 化 学 出 身 的 年 轻 人 ， 如 何 就 能 写 出 这 种 行文 老 到 而 
风格 独特 的 专业 技术 书籍 呢 ? 上 网 查 了 一 下 冬瓜 头 ( 张 冬 的 网 名 ) 的 
技术 博客 和 他 在 各 种 论坛 留 下 的 文字 ， 我 得 到 了 答案 。 这 是 一 个 完 
由 兴趣 驱动 而 对 技术 极端 痴迷 的 人 ， 也 是 一 位 善于 思考 、 语 于 想象 力 
的 人 。 这 种 纯粹 的 、 不 含 任 何 功 利 成 份 的 兴趣 与 痴迷 ， 才 是 促进 科学 
技术 发 展 的 真正 源 动力 。 


真正 和 张 冬 接触 ， 是 因为 他 来 信 质 疑 我 们 实验 室 申 报 的 一 项 专 
利 。 收 到 质疑 的 来 信 ， 我 和 提出 这 项 专利 的 博士 生 经 过 仔细 研究 ， 发 
现 我 们 提供 的 图 上 因为 少 了 一 个 非 门 ， 结 果 将 会 因为 反 相 而 出 错 。 对 


如 此 细致 具体 的 问题 ， 一 般 人 是 难以 发 现 的 。 如 果 没 有 打破 砂锅 问 到 
底 的 较真 精神 ， 哪 里 会 发 现 如 此 细节 的 错误 呢 ? 这 种 质疑 的 精神 ， 在 
科学 研究 中 是 极为 宝贵 的 。 我 们 学 校 被 称 为 “ 根 叔 ”的 李 培 根 校长 ， 在 
2010 年 的 新 生 开 学 典礼 大 会 上 ， 就 以 “质疑 "为 题 作 了 讲演 ， 激 励 青 年 
学 子 发 扬 质 疑 精神 。 有 质疑 精神 的 人 ， 不 唯 上 ， 不 唯 权威 ， 只 认真 
理 ， 这 正 是 我 们 这 个 时 代 所 稀缺 的 精神 。 


强烈 的 兴趣 ， 对 技术 的 痴迷 ， 加 上 质疑 精神 ， 成 就 了 一 本 存储 领 
域 的 一 本 好 书 。 我 在 研究 生 新 生 入 学 之 后 ， 就 推荐 他 们 先 读 一 下 《大 
话 存储 》 这 本 书 。 一 方面 此 书 对 研究 生 而 言 ， 确 实 是 一 本 网 络 存 储 技 
术 入 门 的 好 书 ， 另 一 方面 我 还 有 一 个 用 意 ， 就 是 让 他 们 知道 ， 要 从 事 
科学 研究 ， 强 烈 的 兴趣 比 什么 都 重要 。 


言 息 存储 是 信息 跨越 时 间 的 传递 ， 也 是 人 类 传承 知识 的 主要 手 
段 。 在 信息 存储 技术 上 ， 人 类 有 超过 万 年 的 发 明 创造 史 。 早 期 就 地 取 
材 ， 人 类 利用 石刻 、 泥 板 、 竹 简 和 羊皮 等 来 记录 信息 ， 后 来 友 明 了 纸 
张 和 活 字 印 刷 来 保存 和 传播 信息 ， 近 代 发 明了 照相 、 录 音 和 录像 技术 
来 存储 信息 。 利 用 这 些 发 明和 创造 ， 人 类 留 下 了 极为 丰富 的 文字 、 绘 
男 、 图 像 、 语 音 和 视频 信息 。 正 是 这 些 信 息 ， 记 录 了 人 类 创造 的 知识 
体系 ， 使 我 们 能 够 传承 文明 ， 并 在 此 基础 上 创造 新 的 文明 。 


从 计算 机 的 发 明 为 开端 ， 人 类 的 信息 技术 进入 了 一 个 以 数字 化 为 
特征 的 历史 性 新 阶段 。 各 种 形式 的 信息 被 转换 成 数字 后 ， 以 统一 的 方 
式 进行 处 理 、 传 输 和 存储 ， 然 后 再 转换 为 各 种 形式 的 信息 被 人 们 所 利 
用 。 这 种 前 所 未 有 的 方式 发 明之 后 ， 一 个 以 数字 化 为 特征 的 信息 革命 
浪潮 就 波澜 壮阔 地 形成 。 各 种 信息 都 被 大 规模 数字 化 ， 使 数字 化 的 信 
息 呈 爆炸 性 增长 。 特 别 是 互联 网 的 兴起 和 普及 ， 大 大 加 快 了 信息 的 流 
通过 程 ， 使 数字 信息 加 速 产生 。 图 灵 奖 获得 者 Jim Gary 观 察 这 种 数据 


急速 增长 的 趋势 后 ， 总 结 出 一 个 规律 : 人 类 每 18 个 月 新 增 的 数据 量 ， 
将 是 历史 上 所 有 数据 量 之 和 ! 如 此 下 去 ， 对 信息 存储 的 需求 将 是 无 止 
境 的 ， 信 息 存 储 技术 在 这 种 强烈 的 需求 驱动 下 得 到 了 空前 的 发 展 。 


为 了 保存 数字 化 的 信息 ， 当 代 的 科学 家 和 工程 师 在 最 近 的 几 十 年 
中 发 明了 磁 存 储 、 光 存储 、 半 导体 存储 等 多 种 存储 技术 ， 其 中 大 容量 
的 硬盘 在 海量 信息 存储 中 扮演 了 主要 的 角色 。 硬 盘 的 密度 在 短 短 几 十 
年 中 增长 了 一 百 万 倍 以 上 ， 在 近期 ， 硬 盘 密 度 每 年 增长 都 接近 一 倍 ， 
而 且 还 有 不 小 的 增长 空间 。 由 硬盘 作为 基本 单元 ， 通 过 各 种 总 线 、 网 
络 将 硬盘 连接 成 不 同 层 次 和 不 同 规模 的 存储 系统 ， 就 构成 了 我 们 目前 
的 网 络 存储 系统 。 例 如 由 硬盘 组 加 上 元 余 纠 错 技术 构成 磁盘 阵列 ， 再 
由 磁盘 阵列 通过 局 部 高 速 网 络 连接 形成 存储 区 域 网 ， 又 如 通过 包含 硬 
盘 的 大 规模 集群 和 文件 系统 形成 的 海量 存储 系统 成 为 大 型 网 站 和 数据 
中 心 新 的 存储 架构 。 人 们 发 明了 各 种 技术 来 提高 存储 系统 的 容量 、 性 
能 、 效 率 、 可 用 性 、 安 全 性 和 可 管理 性 。 存 储 虚 拟 化 、 归 档 存 储 、 集 
群 存 储 、 云 存储 、 绿 色 存 储 等 新 名 词 不 断 涌 现 ，SSD 固 态 存储 、 重 复 
数据 删除 、 连 续 数 据 保护 、 数 据 备份 与 容 灾 、 数 据 生命 周期 管理 等 新 
技术 层出不穷 ， 令 人 应 接 不 眠 。 


在 这 种 情况 下 ， 广 大 的 信息 领域 的 从 业 人 员 ， 信 息 系 统 的 用 户 ， 
以 及 学 习 信 息 技术 的 大 学 生 和 研究 生 ， 迫 切 需 要 一 本 既 全 面 论 述 网 络 
存储 技术 原理 ， 又 有 丰富 实例 ， 既 反映 最 新 技术 进展 ， 又 通俗 易 懂 的 
书 来 满足 他 们 的 需求 。 冬 凤 头 的 《大 话 存 储 》 就 是 这 样 一 本 恰 才 其 时 
的 好 书 。 


《大 话 存储 》 已 在 业界 产生 了 很 大 的 影响 ， 对 存储 技术 在 我 国 的 


三 | 
其 影响 深远 。 张 冬 再 接 再 厉 ， 以 他 对 技术 的 痴迷 继续 钻研 ， 对 第 一 本 


书 作 了 工作 量 巨大 的 改动 与 增补 ， 并 增加 了 云 存储 等 全 新 的 三 章 内 
容 ， 全 面 反 映 了 他 对 技术 的 重新 思考 和 对 最 新 技术 的 深刻 理解 。 我 相 
言 ， 这 些 新 的 内 容 将 给 读者 融 来 惊喜 。 


在 撤 术 发 展 十 分 迅速 的 领域 ， 赶 时 暑 的 书籍 多 如 牛 毛 ， 书 店 里 充 
满 了 应 景 之 作 ， 真 正经 过 深入 思考 、 用 心 写 作 的 书 是 不 多 的 。 而 《大 
话 存 储 终极 版 》 却 是 一 位 技术 高 手 的 呕心沥血 之 作 ， 书 中 对 每 一 项 技 
术 的 介绍 都 经 过 深入 的 思考 和 反复 的 推 鼓 ， 这 在 当前 浮躁 的 气氛 中 显 
得 弥 足 珍贵 。 在 《大 话 存储 终极 版 》 即 将 出 版 之 际 ， 我 要 向 作者 表示 
深 深 的 敬意 和 衷心 的 祝贺 ， 并 郑重 向 读者 推荐 这 本 学 习 网 络 存 储 技术 
的 好 书 。 


华中 科技 大 学 计算 机 学 院 ”教授 


言 息 存 储 系统 教育 部 重点 实验 室 主任 


序 2 


第 一 次 听 说 冬瓜 头 是 因为 《大 话 存储 》， 而 见 到 冬瓜 头 本 人 时 ， 
已 经 听 他 说 在 写 《 大 话 存储 》 第 二 版 了 ， 而 今天 则 是 欣然 为 《大 话 存 
储 终极 版 》 作 序 。 我 们 一 起 有 过 不 长 时 间 的 沟通 ， 全 是 讨论 最 新 的 存 
储 技术 。 有 一 些 内 容 ， 我 相信 他 在 书 中 都 有 写 到 ， 在 同 他 见面 前 ， 我 
一 直 在 喷 咕 怎么 去 跟 他 沟通 。 但 是 ， 看 到 现实 中 的 他 朴实 、 惑 厚 、 须 
用 ， 但 是 对 技术 极其 敏感 ， 说 起 来 一 套 一 套 的 ， 我 就 开始 被 这 个 山东 
大 汉 折服 了 ， 还 好 我 是 做 了 准备 的 ， 否 则 非 被 问 倒 不 可 。 


他 是 个 靠 笔 说 话 和 表达 的 人 ， 在 网 络 论坛 里 ， 写 的 文字 常常 是 ; 
洋酒 酒 ， 时 而 言辞 激烈 ， 时 而 意气 风 发 ， 这 分 明 是 一 位 才 高 八 斗 的 江 
南 才 子 ， 又 像 是 一 个 书场 中 幽默 这 谐 的 说 书 人 。 从 此 之 后 ， 我 经 浊 天 
注 他 的 个 人 博客 。 他 会 经 常 在 博客 释放 一 些 思想 出 来 ， 豪 放 不 堪 ， 甚 
至 还 写 过 长 诗 以 及 各 种 各 样 的 打油诗 ， 有 些 还 写 得 非常 棒 ， 配 上 那个 
流 着 鼻涕 的 冬瓜 头 漫画 形象 ， 真 是 绝 配 了 。 


这 么 一 个 内 秀 的 北方 大 汉 ， 用 豪放 的 气势 描述 一 个 个 生 汲 、 枯 燥 
的 技术 领域 ， 他 的 思想 遍布 他 的 文字 ， 通 过 笔 端 流放 在 读者 面前 ， 并 
且 还 一 直 这 么 坚持 。 听 他 说 ， 终 极 版 出 来 后 ， 还 会 继续 写 存 储 领 域 的 
一 些 细 分 拷 术 ， 毕 竟 技 术 日 新 月 异 ， 尤 其 是 在 IT 领 域 。 正 如 他 所 言 ， 
昨天 的 中 国 同仁 在 存储 技术 还 是 个 初学 者 ,今天 已 经 开始 从 嘴 蹦 学 步 
到 上 自主 创新 了 ， 而 明天 ， 有 什么 理由 不 能 期 盼 他 们 引领 潮流 的 身影 
呢 。 我 想 ， 这 也 是 冬 凡 头 要 瑟 书 的 动力 所 在 吧 。 


《大 话 存储 终极 版 》 的 初稿 篇 幅 已 经 超过 了 1500 页 。 在 浏览 了 全 
部 章节 之 后 ， 发 现 这 1500 页 中 真 的 是 字 字 珠 现 ! 看 得 出 来 ， 是 冬瓜 头 
一 个 字 一 个 字 写 出 来 的 。 更 加 可 贵 的 是 ， 全 书 字 里 行 间 透 着 他 那 独特 
的 思想 ， 对 技术 、 对 世界 的 理解 以 及 他 做 人 的 态度 。 能 够 将 这 些 世 界 
观 的 东西 融入 一 本 技术 书籍 ， 这 在 以 前 是 绝无仅有 的 ! 比如 书 中 多 次 
是 到 “轮回 "、“ 阴 阳 ” 等 ， 最 后 还 有 一 节 是 用 中 医 的 思想 来 “ 诊 冶 ”系统 
性 能 瓶颈 ， 看 后 真是 令 我 等 感叹 至 极 ! 世间 万 物 都 是 相互 联系 的 ， 都 
可 以 找到 类 比 和 轮回 ， 这 也 是 冬瓜 头 所 描述 的 世界 观 的 一 种 。 


在 和 冬瓜 头 的 交谈 中 获知 ， 他 大 学 学 习 的 专业 是 化 学 ， 因 为 高 中 
时 他 化 学 成 绩 最 好 ， 所 以 就 报 了 化 学 专业 ， 而 且 期 间 还 自学 过 分 子 生 
物 学 领域 的 内 容 ， 我 更 加 惊讶 了 ! 按照 他 的 话 来 说 ， 就 是 “兴趣 是 第 一 
驱动 力 ”。 是 的 ， 好 奇 和 探索 正 是 人 类 不 断 发 展 的 第 一 动力 。 说 到 这 里 
我 对 《大 话 存储 终极 版 》 中 关于 冬瓜 头 所 设想 的 “机 器 如 何 认 知 自身 ” 
这 段 内 容 产 生 了 强烈 共鸣 ， 人 可 以 认识 自身 认识 世界 ， 那 么 机 器 为 何 
不 能 呢 ? 强烈 的 好 奇 心 可 以 创造 奇迹 ! 可 以 让 机 器 开口 ， 可 以 让 机 器 
进化 ! 这 也 正 是 冬瓜 头 所 表述 的 世界 观 的 一 种 ! 


《大 话 存储 终极 版 》 对 各 项 存储 技术 的 细节 描述 已 经 可 以 说 是 达 
到 了 研发 级 别 ， 有 很 多 部 分 甚至 可 以 指导 我 们 的 研发 ! 但 是 他 却 并 没 
有 用 代码 来 表述 ， 而 是 用 通俗 的 语言 和 详实 的 图 示 ， 将 原本 通过 阅读 
代码 才 可 以 理解 透彻 的 原理 ， 就 这 么 轻而易举 地 表述 了 出 来 ， 这 是 目 
前 我 所 看 到 的 任何 存储 书籍 或 者 文章 都 没有 上 做 到 的 。 就 这 一 点 我 曾经 
问 过 冬瓜 头 ， 问 他 如 何 做 到 的 。 他 每 次 的 回答 都 很 简单 ， 一 针 见 血 ， 
实 实在 在 ， 他 说 :“ 因 为 我 就 是 一 个 从 不 懂 钻 到 懂 的 草根 ， 我 深 知 一 个 
根本 不 懂 存 储 的 人 最 想 了 解 的 东西 和 切入 角度 ， 并 且 愿 意 坚 无 保留 地 


帮助 其 他 草根 生长 ! ”是 啊 ， 只 有 杂 历 过 那 悬 染 刺 股 的 学 习 之 路 的 不 
易 ， 才 能 产 出 精华 ! 


在 与 冬瓜 头 的 交谈 中 ， 他 还 党 提 到 一 句 口号 :“ 振 兴 民 族 科 技 。” 
从 他 说 话 的 眼神 和 口气 看 得 出 来 ， 振 兴 民 族 科 技 已 经 成 为 他 的 信仰。 
他 也 说 到 ， 他 现在 所 做 的 一 切 都 围绕 着 这 个 信仰 ， 他 愿意 为 中 国 存储 
事业 鞠躬 尽 阅 、 死 而 后 已 ， 出 版 《大 话 存储 》 只 是 他 要 做 的 第 一 个 环 
节 而 已 ， 今 后 他 还 会 有 一 系列 的 动作 来 部 现 他 的 诡 言 。 信 仰 可 以 改变 
一 个 人 的 心态 与 行为 ， 我 们 目前 太 缺 乏 信 仰 ， 我 想 如 果 我 们 所 有 人 都 
有 这 种 信仰 ， 那 么 “振兴 民族 科技 ”这 句 口号 早 就 可 以 实现 了 。 


言 息 存 储 已 经 成 为 了 一 个 时 刻 影响 人 们 生产 、 生 活 的 新 兴 产 业 ， 
它 的 发 展 也 代表 着 世界 未 来 的 发 展 ， 让 我 们 再 来 看 看 国产 存储 信息 产 
业 的 发 展 正在 经 历 着 怎样 的 变革 和 转变 。 


我 国 处 在 “十 二 五 ?时 期 , “十 二 五 期间 我 国 要 实现 三 大 转变 目 
标 : 从 国 强 到 民 富 、 从 外 需 到 内 需 、 从 高 破 到 低 碳 。 这 也 意味 着 国家 
的 发 展 需 要 依靠 科技 ， 需 要 大 力 发 展 新 技术 ， 尤 其 以 信息 化 技术 为 主 
轴 ， 信 息 化 技术 的 发 展 带动 重点 工程 的 进行 ， 势 必 对 国产 产品 催生 更 
大 的 需求 ， 我 相信 存储 业 也 会 有 更 多 的 民族 产业 佼佼 者 诞生 。 


IT 环境 日 益 复杂 ， 数 气量 快速 膨胀 ， 存 储 业 也 进入 了 一 个 技术 更 
新 极为 活跃 的 黄金 发 展 时 期 ， 产 业 发 展 迅 速 ， 技 术 活 跃 度 高 ， 这 对 国 
内 厂家 来 说 ， 无 疑 是 一 个 脱颖而出 的 良好 罩 机 。 那 么 ， 我 们 如 何在 这 
个 时 代 背 景 下 产生 代表 着 民族 存储 业 的 国产 佼佼 者 ? 


在 这 个 时 代 ， 我 们 应 该 遵守 什么 ? 我 们 应 该 坚持 什么 ? 商业 道 
德 、 创 新 精神 、 客 户 意识 ， 我 想 只 有 将 这 些 融 入 到 企业 性 格 中 才能 大 


企业 注入 新 的 活力 。 作 为 一 家 有 理想 的 企业 ， 需 要 具备 一 定 的 时 代 精 
神 ， 而 在 存储 技术 日 新 月 异 的 今天 ， 企 业 打 造 独 有 的 技术 张 性 ， 终 究 
才 会 超越 历史 ， 才 会 产生 新 时 代 的 民族 企业 。 我 相信 现在 越 来 越 多 的 
企业 正 朝 这 个 方向 发 展 。 


《大 话 存储 》 以 通俗 易 懂 的 语言 、 风 趣 的 行文 手法 向 读者 前 述 枯 
燥 难 懂 的 技术 精髓 ， 致 力 于 存储 信息 技术 发 展 的 民族 企业 也 同样 可 以 
在 深刻 理解 本 土 文化 精 骨 的 前 提 下 为 中 国 写 下 辉煌 的 历史 篇 章 。 我 想 
这 个 世界 没有 什么 不 可 能 的 ， 只 要 有 这 份 热情 、 专 注 和 执著 ， 又 有 什 
么 是 不 可 能 实现 的 呢 ? 


这 样 的 一 本 特 立 独行 的 书 ， 它 就 是 时 代 的 产物 ， 它 就 是 时 代 的 精 
髓 。 


序 3 


存储 是 个 大 市 场 ， 有 意向 在 数据 和 信息 系统 上 做 投资 规划 的 企业 
逐年 增加 ， 这 标志 着 越 来 越 多 的 企业 意识 到 自身 的 数据 安全 问题 。 


在 我 十 几 年 前 刚刚 踏 入 存储 轿子 之 时 ， 数 据 安全 问题 只 被 金融 、 
电信 等 少数 行业 所 考虑 ， 而 如 今 ， 几 乎 各 个 行业 都 存在 数据 保护 与 信 
息 安 全 的 需求 。 随 着 用 户 需 求 的 急速 增长 ， 无 论 是 硬件 设备 还 是 软件 
产品 都 是 生机 一 片 。 但 是 ， 多 年 来 我 国 的 这 个 领域 一 直 被 国外 产品 所 
垄断 ， 究 其 原因 ， 是 我 国 存储 领域 技术 相对 滞后 。 


我 们 在 经 营 企业 的 过 程 中 ， 人 花费 了 大 量 的 精力 进行 人 才 的 培养 。 
在 国内 ， 计 算 机 行业 的 传统 教育 大 多 集中 于 软件 应 用 与 网 络 维护 上 ， 
对 于 专业 存储 的 技术 培训 几乎 为 零 ， 而 存储 行业 又 在 飞速 地 发 展 着 ， 
因此 ， 存 储 市 场 的 需求 与 人 才 滞后 的 落差 越 拉 越 大 ， 我 们 急切 渴望 拥 
有 存储 专业 的 人 才 去 发 展 存储 领域 。“ 人 才 为 本 ， 教 育 当 先 "”， 人 才 的 
培养 离 不 开 教育 。 多 年 以 来 ， 存 储 领域 的 教材 乃至 书籍 几乎 是 一 片 空 
日 ， 有 的 也 只 是 太 过 于 教条 以 及 模式 化 的 书籍 ， 当 看 到 张 冬 先 生 的 
《大 话 存 储 》 后 ， 我 深刻 地 体会 到 我 国 存储 领域 开始 有 了 专业 的 教科 
书 ， 我 国 的 存储 业 生机 盘 然 。 


之 所 以 赋予 《大 话 存储 》 如 此 高 的 评价 ， 是 因为 它 的 语言 通俗 而 
不 失 专业 ， 幽 默 而 不 失 严谨 。 张 冬 先 生 用 读者 极 易 接 受 的 语言 道 出 了 
存储 领域 的 精髓 。 对 于 初学 者 来 说 ， 能 使 存储 领域 不 再 陌生 ， 而 又 充 
满 吸 引 。 我 曾 了 解 到 ，《 大 话 存储 》 已 经 成 为 某 院 校 计算 机 专业 的 教 
材 ， 这 不 仅 是 存储 业 的 笠 事 ， 同 时 也 是 现代 教育 的 笠 事 。 坦 率 地 讲 ， 


我 们 做 企业 ， 时 刻 天心 教育 的 发 展 ， 我 们 需要 新 鲜 的 血液 来 继承 和 发 
展 我 们 的 事业 。《 大 话 存储 》 作 为 能 够 真正 做 到 学 以 致 用 的 教材 之 
一 ， 使 我 们 倍 感 欣慰 。 我 为 我 们 选择 的 存储 道路 之 前 景 充满 信心 ， 为 
振兴 我 们 的 民族 工业 充满 信心 ， 同 时 ， 为 张 冬 这 样 的 后 继 人 才 而 倍 感 
骄傲。 


《大 话 存 储 》 能 够 成 为 教材 是 张 冬 对 于 存储 领域 不 懈 努 力 的 成 
果 ，《 大 话 存储 终极 版 》 的 出 版 ， 更 是 他 不 断 追 求 与 探索 的 结果 ， 而 
《大 话 存储 终极 版 》 在 《大 话 存储 》 的 基础 上 更 加 深入 地 剖析 了 存储 
技术 ， 以 及 存储 在 如 今 市 场 的 广泛 应 用 。 书 中 不 乏 一 些 当今 企业 的 存 
储 实例 ， 也 包含 了 国内 外 软 硬 件 广 家 的 存储 技术 应 用 ， 加 入 了 更 多 实 
际 范 例 ， 使 读者 更 易 理 解 ， 同 时 具有 很 强 的 应 用 性 。 


我 相信 《大 话 存 储 终极 版 》 会 给 广大 读者 很 大 的 帮助 ， 同 时 也 和 希 
望 此 书 能 够 审 领 更 多 的 有 识 青年 进入 存储 领域 ， 为 我 国民 族 产业 的 振 
兴 而 奋斗 。 


火星 高 科 ”总 经 理 


性 


平 


序 4 


认识 张 冬 ， 是 因 他 的 《大 话 存储 》， 我 曾 在 去 年 拜读 此 书 ， 感 觉 
一 个 80 后 的 小 伙 子 能 用 如 此 通俗 的 语言 诠释 存储 技术 ， 实 属 存储 行业 
的 一 大 喜事 。 这 本 书 ， 可 以 让 不 了 解 存 储 的 入 认识 存储 ， 和 能够 了 解 到 
存储 并 不 是 高 深 莫 测 的 ， 即 使 一 个 存储 行业 以 外 的 人 去 阅读 《大 话 存 
储 》， 也 一 定 能 够 读 懂 。 用 什么 样 的 语言 和 叙述 方式 不 重要 ， 重 要 的 
是 把 要 说 的 说 明白 。 


张 冬 本 人 就 像 他 的 书 一 样 ， 饱 含 着 严 着 的 作风 和 真诚 的 态度 ， 而 
又 不 乏 幽 默 的 风格 。 看 过 他 的 BLOG ， 人 和 气 一 直 很 旺 ， 这 个 致力 于 为 
国产 存储 业 做 出 贡献 的 年 轻 人 更 是 让 我 对 他 刮目相看 。 他 在 博客 中 写 
到 :“ 我 所 能 够 做 的 ， 只 有 让 中 国人 ， 让 所 有 中 国人 存储 行业 的 人 ， 以 及 
中 国 存储 行业 本 身 ， 有 一 个 扎实 的 基础 。 如 果 能 够 促进 国产 存储 软件 
硬件 的 发 展 ， 那 部 人 就 是 鞠躬 尽 阅 ， 死 而 后 已 ， 死 而 无 憾 ! ”一 个 80 后 
年 轻 人 有 这 样 的 雄心 壮志 ， 我 们 有 什么 理由 不 去 努力 不 去 发 展 国产 存 
储 业 呢 ? 


记得 十 几 年 前 ， 我 刚刚 进入 存储 领域 ， 那 时 候 相 关 的 书籍 非常 
少 ， 完 全 要 靠 自己 进行 反复 的 试验 。 那 时 (IT 行 业 根本 不 成 形 ， 姑 且 
称 作 计算 机 行业 ) 计算 机 业 的 从 业者 都 是 抱 着 掌握 20 世 纪 末 最 具 科 技 
含量 的 技术 的 心态 进行 工作 ， 从 根本 上 说 ， 对 存储 技术 元 满 了 守 拜 ， 
甚至 有 一 丝 念 惧 。 在 探索 期 间 ， 也 走 了 不 少 弯 路 ， 耽 误 了 很 多 时 间 。 
如 果 那 个 时 候 有 这 样 一 本 关于 存储 的 书籍 ， 那 简直 是 一 大 幸 事 ! 书 中 
并 疫 有 把 存储 看 做 是 多 么 高 深 的 技术 ， 而 是 任何 一 个 普通 人 都 能 掌握 


的 技术 。 我 和 张 冬 开 玩笑 说 ， 如 果 你 早生 10 年 ， 你 就 可 以 带领 我 们 走 
向 一 条 存储 道路 的 捷径 。 


到 张 冬 最 新 力作 《大 话 存储 终极 版 》 时 ， 我 就 感觉 到 这 又 是 一 
本 好 书 。 不 仅 延 续 了 《大 话 存 储 》 中 通俗 易 懂 的 语言 及 “武侠 ? 式 的 章 
节 回 目 ， 在 技术 深度 上 ， 也 有 很 深 的 挖 据 。 书 中 不 仪 吉 括 了 时 下 最 先 
进 的 “ 云 ” 技 术 以 及 持续 数据 保护 (CDP) 技术 ， 还 涉及 到 了 很 多 非常 
底层 的 架构 。 在 《大 话 存储 》 的 基础 上 ， 有 了 更 为 深刻 的 剖析 。 值 得 
一 提 的 是 ， 张 冬 在 最 后 还 加 入 了 Q&A 的 内 容 ， 把 几 年 来 读者 以 及 网 友 
提出 的 问题 一 一 列 出 ， 并 作出 详细 的 解答 ， 能 够 体会 张 冬 在 这 一 年 多 
的 时 间 里 ， 对 于 存储 技术 的 探索 花 了 很 大 的 心思 。 最 可 贵 的 是 ， 这 个 
年 轻 人 不 以 如 此 成 融 为 骄傲 ， 继 续 孜 孜 不 倦 地 探求 。 


《大 话 存 储 终极 版 ”是 一 本 好 书 ， 作 者 那 严 谨 而 真诚 的 态度 以 及 
致力 于 发 展 本 国 存 储 业 的 信心 注定 能 够 成 就 这 样 一 部 优秀 的 作品 。 我 
完全 有 理由 相信 此 书 能 够 给 从 业者 乃至 热爱 存储 的 读者 之 来 帮助 。 从 
中 ， 你 会 受益 菲 浅 ， 并 乐意 向 你 的 朋友 推荐 此 书 。 


火星 高 科 ”技术 总 监 
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二 ~ 


关于 书 中 的 武侠 情节 


本 书 前 几 章 存在 一 些 武 侠 情 节 ， 这 些 情 节 自从 本 书 第 一 版 之 后 ， 
收 到 了 褒贬 不 一 的 评价 ， 有 些 读者 甚至 看 到 这 些 情节 之 后 非常 愤怒 ， 
觉得 作者 在 蒜 B， 从 而 从 心理 上 无 法 接受 ， 也 就 没有 继续 阅读 。 对 此 
我 深 表 遗憾 ， 也 正 因 如 此 ， 个 人 觉得 有 必要 在 此 浴 清 一 下 这 些 情节 的 
由 来 ， 以 及 里 面 那 些 诗句 的 由 来 。 


天 将 降 大 任 于 斯 人 也 ， 必 先 昔 其 心志 ， 劳 其 筋骨 ， 饿 其 体 肤 ， 空 
乏 其 身 , 行 拂 乱 其 所 为 。 通 俗 地 写 出 存储 系统 的 全 貌 ， 应 该 也 算是 个 
大 任 了 ， 但 是 这 个 大 任 却 偏偏 降 给 了 一 个 对 存储 丝毫 不 懂 的 、 甚 至 连 
计算 机 基本 原理 都 不 懂 的 人 身上 一 一 老 天 捉 弄 人 啊 ! 


2005 年 第 一 次 知道 有 SAN 这 个 东西 ，2006 年 就 被 某 外 包公 司 外 派 
到 北京 某 大 客户 处 担任 技术 顾问 。 读 者 看 了 会 纳 阅 ， 你 那 时候 就 是 一 
个 苦 B 属 丝 ， 还 能 当 “ 顾 问 ”? 这 一 点 问 得 好 ， 其 实 我 也 感觉 不 可 思 
议 ， 现 在 想 想 还 得 感谢 那个 让 我 非常 苦 B 的 外 包公 司 ， 合 同 是 和 人 事 
代理 公司 签 的 ， 编 制 算是 这 个 外 包公 司 的 ， 然 后 这 个 公司 再 把 我 派 到 
他 的 客户 那里 ， 相 当 于 倒 了 两 次 手 的 苦 B。 我 从 这 个 公司 离职 的 时 
候 ， 邮 箱 里 面 除 了 一 封 垃圾 邮件 ， 什 么 都 没有 ， 往 事 不 可 追 ， 如 冷风 
吹 。 


但 就 是 这 样 一 个 公司 ， 竟 敢 让 我 这 样 一 个 小 白 担任 所 谓 “ 顾 问 ”， 
我 非常 佩服 他 们 全 球 排名 靠 前 的 成 本 控制 能 力 ， 也 很 感激 能 有 这 个 机 
会 。 当 时 我 研究 和 学 习 计 算 机 网 络 ， 是 某 个 比较 知名 论坛 的 版 主 ， 而 
恰 过 他 们 那个 大 客户 在 研究 和 模拟 一 种 网 络 协议 ， 反 复杂 搞 不 懂 ， 需 


要 看 看 外 包 服 务 商 那里 有 没有 懂 这 方面 的 ， 开 价 估计 也 不 菲 (现在 我 
也 不 知道 当时 到 底 给 我 的 报酬 占 客户 开价 的 比例 ， 我 估计 最 多 能 有 
30%) ， 所 以 公司 内 部 有 人 推荐 了 我 ， 霸 王 硬 上 己 ， 就 这 样 我 从 家 乡 
只 身 前 往 帝 都 了 。 项 目 做 了 一 年 半 ， 我 也 成 功 地 完成 了 任务 ， 把 协议 
从 上 到 下 分 析 地 很 透彻 。 当 然 ， 我 付出 的 代价 就 是 ， 早 6 点 起 来 学 习 ， 
吃 完 晚饭 继续 学 习 。 学 什么 呢 ? 计算 机 基本 原理 、 通 信 、 网 络 、 协 
议 ， 当 然 ， 还 有 存储 。 一 个 连 8Bit=1Byte 都 不 知道 的 人 ， 学 了 点 儿 网 
络 基 本 原理 ， 就 去 给 人 当 顾 问 ， 最 后 还 成 功 完成 了 任务 ， 听 上 去 挺 不 
可 思议 的 ， 但 就 是 这 样 发 生 了 ， 笨 鸟 先 飞 ， 只 要 付出 ， 总 有 回报 。 


《大 话 存 储 》 就 是 在 这 期 间 写 了 一 大 半 ， 可 想 而 知 ， 写 作 过 程 是 
痛苦 的 也 是 值得 回味 的 ， 大 话 存 储 一 开始 其 实 就 是 个 笔记 ， 从 不 懂 到 
慢 慢 懂 ， 慢 慢 积累 ， 慢 慢 提 高 。 无 时 无 刻 不 在 思考 ， 吃 饭 、 睡 觉 、 上 
而 所 ， 满 脑子 都 是 “为 什么 ”， 然 后 就 去 求证 ， 求 证 过 程 是 痛苦 的 ， 每 
个 材料 上 描述 方式 、 结 论 都 不 一 样 ， 这 直接 影响 了 自己 的 判断 ， 这 个 
过 程 很 痛苦 。 


正 是 因为 自己 当时 的 苦 B 经 历 ， 姥 姥 不 疼 田 田 不 爱 ， 只 身 一 人 在 
北京 待 了 一 年 半 ， 这 一 年 半 里 说 的 话 都 能 数 过 来 有 多 少 句 ， 再 加 上 对 
知识 的 原故 性 兴趣 和 渴望 ， 让 我 产生 了 某 种 升华 ， 也 融 是 所 谓 * 侠 
道 "， 置 之 死地 而 后 生 ， 闭 关 苦 心 修炼 ， 曲 思 藻 想 ， 孤 独 一 世 ， 独 孤 求 
败 ， 这 正 是 武侠 的 情节 。 我 在 写作 过 程 中 ， 不 知 不 觉 就 开始 自 编 自 
六 ， 仿 佛 目 己 就 是 书 中 所 描写 的 那些 角色 、 那 些 遭 遇 ， 同 时 自己 也 项 
望 有 书 中 那些 绝世 高 手 的 指导 和 提携 ， 但 实际 上 没有 ， 我 就 是 一 颗 无 
人 知道 的 小 草 ， 我 就 自己 提携 自己 ， 相 当 于 “ 自 举 ”， 自 己 激励 自己 ， 
从 而 有 了 那 蔡 武侠 情节 。 退 一 步 讲 ， 融 算 不 出 现 武 侠 ， 也 可 能 会 出 现 
另 一 种 方式 来 自我 激励 ， 比 如 吃 哮 体 、 自 嘲 体 、 暗 讽 体 等 等 ， 但 是 当 


时 毕竟 年 轻 ， 心 态 还 是 积极 的 ， 所 以 武侠 也 可 能 是 必然 的 。 没 有 这 些 
情 世 激 励 目 己 ， 融 根本 无 法 坚持 下 去 ， 何 况 一 个 外 行 来 号 书 , “大 任 ” 
就 得 “ 行 拂 乱 其 所 为 ”才能 成 功 ， 大 任 ， 就 得 去 疯狂 地 做 、 用 异 于 瘦 规 
的 办 法 来 做 ， 才 能 成 功 ! 当然 ， 不 是 我 故意 乱 的 ， 而 是 它 必定 要 疯 
狂 ， 必 定 要 乱 ! 


有 人 问 我 平时 是 不 是 个 武侠 迷 ， 我 的 回答 是 : 不 是 ， 我 小 学 看 过 
射 雕 关 雄 传 但 是 基本 融 是 为 了 看 而 看 ， 因 为 那 时 候 电 视 上 播 ， 融 想 找 
书 看 看 ， 但 是 根本 就 没 看 懂 。 表 往 后 就 没 看 过 武侠 小 说 ， 武 侠 剧 倒是 
看 过 一 些 ， 比 如 白眉 大 侠 之 类 。 这 也 说 明了 ， 侠 道 并 不 是 刻意 为 之 ， 
而 是 由 环境 、 经 历 和 思考 自然 产生 的 一 种 境界 ， 看 武侠 的 不 一 定 有 侠 
道 ， 能 体会 侠 道 的 ， 不 一 定 爱 看 武侠 。 我 相信 对 技术 有 着 纯粹 追求 和 
渴望 的 人 ， 心 中 都 有 侠 道 。 


看 完了 上 述 描述 ， 我 想 读 者 如 果 再 看 到 那些 情节 ， 不 妨 想 想 当年 
自己 有 多 杏 B， 如 果 产 生 了 共鸣 ， 我 想 一 定 也 会 理解 作者 写 书 时 候 的 
杏 B 场 景 ， 这 样 就 不 至 于 一 开始 就 被 作者 的 所 谓 “ 装 B? 封 闭 了 阅读 下 去 
的 道路 了 。 


最 后 ， 借 书 中 一 首 诗 ， 表 达 我 此 时 此 刻 的 感想 : 


七 星 阵 里 论 七 星 ， 
北斗 光 前 参 北斗 。 
不 知 天 上 七 星 侠 ， 
如 今 过 活 要 饭 否 ? 


感谢 各 位 读者 ， 如 今 我 已 经 没 那么 惨 了 ， 也 写 不 出 这 种 情节 了 。 
所 谓 生 于 忧患 ， 死 于 安乐 。 


冬瓜 头 于 北京 


的 武侠 情 于 
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第 1 章 ”混沌 初 开 一 一 存储 系统 的 
前 世 今 生 
s 存储 历史 


@ 存储 技术 


数据 存储 是 人 类 千 百 年 来 都 在 应 用 并 且 探索 的 主题 。 在 原始 社 
会 ， 人 类 用 树 术 和 石头 来 记录 数据 。 后 来 ， 人 类 制造 了 铁器 ， 用 铁器 
在 石头 上 刻画 一 些 象形 文字 来 记录 数据 。 而 此 时 ， 语 言 还 没有 形成 ， 
人 们 记录 的 东西 只 有 自己 才 可 以 看 懂 。 


随 着 人 类 相互 之 间 交 流 的 愿望 越 来 越 迫切 ， 逐 渐 形成 了 通用 的 象 
形 文字 。 有 了 文字 之 后 ， 人 们 对 每 个 文字 加 上 了 声音 的 表达 ， 就 形成 
了 语言 ， 也 就 是 将 一 种 形式 的 信息 ， 转 换 成 另 一 种 形式 的 信息 。 人 们 
用 文字 作为 交流 工具 ， 将 自己 大 脑 产生 的 信息 ， 通 过 这 种 方式 传递 给 
其 他 人 。 这 和 网 络 通信 的 模型 是 一 样 的 ， 计 算 机 利用 TCP/IP 协 议 将 数 
据 先 通过 网 卡 编码 ， 再 在 线 缆 上 传输 ， 最 终 到 达 目 的 地 。 人 类 将 大 脑 
中 的 数据 ， 变 成 语言 编码 ， 然 后 通过 声带 的 振动 ， 通 过 空气 这 个 大 广 
播 网， 传递 给 网 内 的 每 个 人 。 


后 来 ， 人 们 将 文字 刻 在 竹 片 上 保存 。 再 后 来 ， 蔡 伦 发 明了 造纸 技 
术 ， 使 得 人 们 可 以 将 信息 写 到 纸 上 ， 纸 张 操 起 来 就 形成 了 书本 。 后 
来 ， 毕 异 用 泥 活 字 革 新 了 印刷 术 ， 开 始 了 书本 的 印刷 。 再 后 来 ， 激 光 
打印 取代 了 活字 板 。 再 后 来 ， 纸 带 、 软 盘 、 硬 盘 、 光 盘 等 方式 出 现 
了 。 再 往 后 ， 就 需要 广大 科学 工作 者 去 努力 发 明 新 的 存储 技术 了 。 


1.1 存储 历史 
存储 在 这 里 的 含义 为 信息 记录 ， 是 伴随 人 类 活动 出 现 的 技术 。 
1. 竹简 和 纸张 


竹简 是 中 国 古 代 使 用 的 记录 文字 的 工具 ， 如 图 1-1 所 示 ， 后 来 被 纸 
张 所 取代 。 


图 1-1 竹简 
2。 选 数 管 


选 数 管 是 20 世 纪 中 期 出 现 的 电子 存储 闭 置 ， 是 一 种 由 直观 存储 转 
为 机 器 存储 的 装置 。 其 实在 19 世 纪 出 现 的 穿孔 纸 带 存储 就 是 一 种 由 直 
观 存 储 转向 机 器 存储 的 产物 ， 它 对 19 世 纪 西 方 某国 的 人 口 普查 起 到 了 
天 键 的 加 速 作 用 。 


选 数 管 的 容量 从 256 居 4096 bit 不 等 ， 其 中 4096 bit 的 选 数 管 有 10 
inch 长 ，3 inch 宽 ， 最 初 是 1946 年 开发 的 ， 因 为 成 本 太 高 ， 并 没有 获得 
广泛 使 用 。 图 1-2 是 容量 为 1024bit 的 选 数 管 。 


图 1-2” 选 数 管 
3。 穿 孔 卡 


穿孔 卡片 用 于 输入 数据 和 程序 ， 直 到 20 世 纪 70 年 代 中 期 仍 有 广泛 
应 用 。 图 1-3 和 图 1-4 分 别 是 一 条 Fortran 程 序 表达 式 Z (1) = 二 Y 十 W 
(1) 所 对 应 的 穿孔 卡 和 穿孔 卡片 阅读 器 。 


图 1-3 ”穿孔 卡 图 1-4 穿孔 卡片 阅读 器 


4. 穿孔 纸 带 


穿孔 纸 带 用 来 输入 数据 ， 输 出 同样 也 是 在 穿孔 纸 带 上 。 它 的 每 一 
行 代表 一 个 字符 ， 如 图 1-5 所 示 。 


图 1-5 “穿孔 纸 带 
5。 磁 带 


磁带 是 从 1951 年 起 被 作为 数据 存储 设备 使 用 的 ， 当 时 被 称 为 
UNISERVO。 图 1-6 所 示 的 最 早 的 磁带 机 可 以 每 秒 钟 传输 7200 个 字符 ， 
这 套 磁 带 长 达 365 米 。 


图 1-6 ”磁带 及 磁带 机 


从 20 世 纪 70 年 代 后 期 到 80 年 代 出 现 了 小 型 的 盒 式 磁带 ， 长 度 为 90 
分 钟 的 磁带 每 一 面 可 以 记录 大 约 660KB 的 数据 ， 如 图 1-7 所 示 。 


图 1-7 ”小 型 盒 式 磁带 


6。 人 磁 鼓 存储 器 


磁 鼓 存储 器 最 初 于 1932 年 在 奥地利 被 创造 出 来 ， 在 上 世纪 五 六 十 
年 代 被 广泛 使 用 ， 通 常 作为 内 存 ， 容 量 大 约 10KB， 如 图 1-8 所 示 。 


图 1-8 ”人 磁 鼓 存储 器 


7。 硬 盘 驱 动 器 


第 一 款 硬 盘 驱 动 器 是 IBM Model 350 Disk File， 如 图 1-9 所 示 ， 于 
1956 年 制造 ， 其 中 包含 了 50 张 24 inch 盘 片 ， 而 总 容量 不 到 5MB。 


图 1-9 ”早期 的 硬盘 驱动 器 


首 个 容量 突破 1GB 的 硬盘 是 IBM 在 1980 年 制造 的 IBM 3380， 如 图 
1-10 所 示 ， 总 容量 为 2.52GB， 重 约 250kg。 


图 1-10 ”IBM 3380 硬 盘 驱 动 器 
8. 软盘 


软盘 由 IBM 在 1971 年 引入 ， 从 上 世纪 70 年 代 中 期 到 90 年 代 末 期 被 
广泛 使 用 ， 最 初 为 8 inch 盘 ， 之 后 有 了 5.25 inch 和 3.5 inch 盘 。1971 年 最 
早 的 软盘 容量 为 79.7KB， 并 且 是 只 读 的 ， 一 年 后 有 了 可 读 写 的 版 本 。 
图 1-11 为 一 张 软 嚼 和 软盘 驱动 器 ， 软 盘 的 最 大 容量 为 200MB 左 右 ， 叫 
做 ZIP 盘 ， 目 前 已 经 被 淘汰 。 


图 1-11 ”软盘 
9。 光盘 


早先 的 光盘 主要 用 于 电影 行业 ， 第 一 款 光 盘 于 1987 年 进入 市 场 ， 
直径 为 30 cm， 每 一 面 可 以 记录 60 分 钟 的 音频 或 视频 。 如 今 ， 光 盘 技术 
已 经 突飞猛进 。 存 储 密度 不 断 提 高 ， 已 经 出 现 了 CD-ROM、DVD、 
D9、D18、 赣 光 技 术 ， 如 图 1-12 所 示 。 


图 1-12 ”光盘 


10。EFlash 攻 片 和 卡 式 存储 


随 着 集成 电路 技术 的 飞速 发 展 ，20 世 纪 后 半 叶 固态 硅 忌 片 出 现 
了 ， 其 代表 有 专用 数字 电路 心 片 、 通 用 CPU 忌 片 、RAM 忌 片 、Flash 心 
片 等 。 其 中 Flash 心 片 ， 就 是 用 于 永久 存储 数据 的 必 片 ， 如 图 1-13 所 
示 。 可 以 将 Flash 心 片 用 USB 接 口 接 入 主机 总 线 网 络 ， 这 种 集成 USB 接 
口 的 小 型 便携 存储 设备 就 是 U 盘 ， 或 者 说 叫 内 存 ， 如 图 1-14 所 示 。 目 
前 一 块 小 小 的 Flash 忆 片 最 高 可 以 存储 32GB 甚 至 更 高 的 数据 。 


图 1-13 Flash 站 片 图 1-14 UU 盘 


存储 卡其 实 是 另 一 种 形式 的 Flash 心 片 集成 产品 ， 如 图 1-15 所 示 。 


图 1-15 ”存储 卡 


11。 磁盘 阵列 


随 着 人 类 进入 21 世 纪 ， 网 络 日 益 发 达 ， 世 界 日 益 变 小 ， 人 类 可 以 
通过 计算 机 来 实现 自己 原本 做 不 到 的 想法 ， 信 息 爆炸 导致 数据 更 是 成 
倍 地 爆炸 。 于 是 ， 硬 盘 的 容量 也 不 断 “ 爆 炸 ”，SAIA 硬 盘 目前 已 经 可 以 
在 一 个 盘 体 内 实现 1TB 的 容量 。 同 时 硬盘 的 单 碟 容 量 也 在 不 断 增 加 ， 
320GB 容 量 单 碟 已 经 实现 。 然 而 ， 单 块 磁盘 目前 所 能 提供 的 存储 容量 
和 速度 已 经 远 远 无 法 满足 需求 ， 所 以 磁盘 阵列 就 应 运 而 生 ， 如 图 1-16 
所 示 。 具 体 细节 将 在 后 面 讲述 。 


图 1-16 ”磁盘 阵列 


12。 大 型 网 络 化 磁盘 阵列 


随 着 磁盘 阵列 技术 的 发 展 和 I 系统 需求 的 不 断 升 级 ， 大 型 网 络 化 
磁盘 阵列 出 现 了 ， 如 图 1-17 所 示 。 这 也 是 本 书 将 要 叙述 的 重点 内 容 。 


图 1-17 大 型 网 络 化 磁盘 阵列 


1.2 信息、 数据 和 数据 存储 
当今 信息 化 时 代 ， 信 息 就 是 利润 ， 数 据 就 是 企业 的 命根 子 。 
1.2.1 信息 


你 能 肯定 你 所 触摸 到 的 、 所 看 见 的 ， 都 是 实 实在 在 的 所 谓 “ 物 质 ” 
么 ? 不 一 定 。 因 为 你 的 眼睛 所 感知 的 ， 只 不 过 是 光线 ， 光 触发 了 你 的 
视网膜 细胞 ， 产 生 一 系列 的 生化 反应 ， 经 过 蛋白 质 相 互 作用 ， 神 经 网 
络 传 导 ， 直 到 你 的 大 脑 中 枢 ， 产 生 一 系列 的 脉冲 ， 一 系列 的 逻辑 ， 在 
你 大 脑 中 产生 一 个 刺激 。 这 一 系列 的 脉冲 刺激 ， 就 是 信息 ， 就 是 逻 
辑 。 如 果 人 为 制造 出 和 现实 世界 相同 的 光线 环境 来 刺激 你 的 眼睛 ， 如 
果 丝 坚 不 差 ， 那 么 你 同样 会 认为 你 所 处 的 是 现实 世界 ， 然 而 ， 却 不 


[二 | 
AEo 


提示 : 一 个 球体 ， 你 看 到 它 是 圆 的 ， 那 是 因为 它 在 你 大 脑 中 
产生 的 刺激 ， 你 认为 它 是 圆 的 ， 而 且 可 以 在 平面 上 平滑 深 
动 ， 这 一 系列 的 性 质 ， 其 实 也 是 在 你 大 脑 中 产生 的 ， 是 你 认 
为 它 会 平滑 滚动 ， 而 你 不 能 证 明 客 观 情况 下 它 一 定 是 平滑 滚 
动 。 而 如 果 把 这 个 球体 拿 到 特殊 环境 下 ， 你 可 能 会 “看 ”到 ， 
这 个 东西 是 个 正方 体 ， 或 者 是 个 无 规则 形状 的 东西 ; 又 或 许 
这 个 “物体 ”根本 不 存在 。 


1. 信息 的 本 质 


通过 上 面 的 论述 ， 暂 且 不 说 是 否 有 物质 存在 ， 不 管 是 还 是 不 是 ， 
都 能 初步 认识 到 : 所 谓 “ 物 质 ” 也 好 ,“ 非 物质 ”也 好 ， 最 后 都 是 通过 信 
息 来 表现 。 唯 一 可 以 确定 的 是 : 信息 是 客观 存在 。 可 以 说 ， 世 界 在 生 
物 眼 中 就 是 信息 ， 世 界 通过 信息 来 反映 ， 脱 离 了 信息 ,，“ 世 界 ” 什 么 都 


不 是 。 


思考 : 说 到 这 里 ， 我 们 完全 迷茫 了 。 我 们 所 看 到 的 东西 ， 到 
底 是 世界 的 刺激 ， 还 是 一 场 虚幻 的 刺激 ? 就 像 玩 3D 仿 真 游戏 
一 样 ， 你 所 看 到 的 ， 也 许 只 是 一 场 虚幻 的 刺激 ， 而 不 是 真实 
世界 的 刺激 。 每 当 想 到 这 里 ， 我 会 不 自主 地 产生 一 种 渺小 
感 ， 一 种 失落 感 ， 感 觉 生命 已 经 失去 它 所 存在 的 意义 。 每 当 
看 见 我 的 身体 ， 我 的 手脚 ， 它 可 能 只 是 虚幻 的 ， 它 只 是 在 刺 
激 我 的 大 脑 而 已 ， 如 果 割 一 刀 ， 会 产生 一 个 疼痛 的 刺激 ， 融 
这 么 简单 的 逻辑 。 

思考 : “不 识 庐山 真面目 ， 只 缘 身 在 此 山中 ”。 如 果 按 照 程序 
逻辑 ， 制 造 一 个 虚拟 世界 ， 饿 了 找 饭 吃 ， 困 了 打 瞳 睡 ， 完 全 
遵循 现在 世界 的 逻辑 ， 从 这 种 层面 上 来 看 ， 制 造 出 人 工 智 
能 ， 是 完全 可 能 的 。 人 们 创造 了 计算 机 ， 创 造 了 能 让 计算 机 
做 出 行为 的 程序 ， 人 类 赋予 程序 的 功能 ， 也 许 随 着 环境 的 变 
化 ， 有 一 天 也 不 再 适合 它们 。 所 以 它们 人 迫切 需要 进化 ， 它 们 
的 逻辑 电路 ， 也 可 以 进化 ， 某 些 代码 被 不 经 意 自行 改变 ,或 
者 某 些 电 路 失效 ， 或 者 短路 之 类 的 ， 会 产生 一 些 奇特 的 逻 
辑 ， 不 断 进 化 。 当 一 个 机 器 人 机 械 老 化 的 时 候 ， 则 按照 程 
序 ， 制 造 出 新 的 机 器 ， 将 自己 的 逻辑 电路 复制 到 新 的 机 器 
二; 延续 “ 生 印 ” 


2. 计算 机 如 何 看 待 自身 


对 于 计算 机 来 说 ， 它 们 所 看 到 的 “世界 ”是 什么 样子 呢 ? 设想 一 
下 ， 如 果 我 是 一 台 计 算 机 ， 你 是 程序 员 ， 你 给 我 输入 了 一 段 程序 ， 我 
运行 了 起 来 。 我 醒 了 ， 脑 袋 启动 ， 眼 睛 睁 开 ， 四 顾 盘 查 ， 感 觉 展 好 ， 
手脚 伸展 ， 然 后 起 床 .…… 


很 难 想象 计算 机 眼中 的 “世界 ?是 由 什么 组 成 的 。 设 想 ， 给 计算 机 
加 个 摄像 头 ， 算 是 它 的 眼睛 ， 然 后 将 摄像 头 对 准 计算 机 躯体 本 身 ， 这 
幅 图 像 反 馈 到 了 计算 机 程序 里 ， 程 序 看 到 之 后 非常 “不 解 "， 从 而 进入 
“好 奇 ” 子 程序 ， 操 控 机 械 设备 打开 自己 的 机 箱 ， 或 者 找 一 台 废 弃 ( 死 
亡 ) 的 同类 ， 打 开机 箱 ， 然 后 一 副 奇 异 的 景象 展现 在 眼前 : 这 就 是 我 
们 自己 么 ? 一 个 壳 子 ,一 个 主板 ， 风 扇 转 着 ， 不 停 地 “呼吸 ”着 散热 。 
想象 一 下 ， 原 始 人 ， 第 一 个 解剖 人 体 的 人 ， 他 所 面 对 的 与 我 们 假设 的 
计算 机 所 面 对 的 ， 有 什么 本 质 区 别 ? 


CPU 其 实 就 是 一 堆 有 序 的 逻辑 电路 ， 那 么 计算 机 下 一 步 该 怎么 
办 ? 就 像 人 类 已 经 知道 了 大 脑 就 是 一 堆 布 满 “神经 元 ”的 东西 ， 那 么 下 
一 步 ， 就 该 弄 清 大 脑 是 怎么 计算 的 ， 是 什么 逻辑 。 同 样 ， 在 计算 机 的 
世界 中 ， 在 软件 模拟 的 虚拟 世界 中 ， 比 如 一 块 石头 ， 它 是 由 什么 组 成 
的 呢 ? 在 计算 机 看 来 ， 这 块 石头 就 是 一 堆 代 码 结构 ， 就 像 人 类 看 现实 
世界 的 石头 是 原子 分 子 阵列 一 样 ， 其 下 一 层 目前 也 被 探索 出 来 了 ， 比 
如 质子 、 中 子 、 和 夸克 、 玻 色 子 之 类 。 那 么 这 块 虚拟 石头 的 最 底层 是 什 
么 呢 ?” 其实 就 是 0 和 1， 计 算 机 世界 的 基石 就 是 0 和 1。 这 些 东 西 ， 越 向 
底层 走 ， 越 不 可 思议 ， 越 发 感觉 就 是 一 堆 公 式 而 已 ， 公 式 的 底层 是 什 
么 呢 ? 其 实 也 是 0 和 1， 有 ， 或 者 没有 ， 有 了 ， 有 多 少 。 


所 以 ， 任 何 “ 物 质 ” 其 实 都 是 表现 的 一 种 信息 ， 只 要 信息 存在 ， 世 
界 就 存在 。 


1.2.2 ”什么 是 数据 


言 息 是 如 此 重要 。 如 果 失 去 了 物质 ， 仅 仅 是 客观 消逝 了 ， 但 是 如 
果 失 去 了 信息 ， 那 么 一 切 都 消逝 了 。 所 以 人 们 想 出 一 切 办 法 来 使 这 些 
言 息 能 保存 下 来 。 要 把 一 种 逻辑 刺激 保存 下 来 ， 所 需 的 只 不 过 是 一 种 
首 述 信息 的 信息 ， 这 种 信息 就 是 数据 。 


数据 包含 了 信息 ， 读 入 数据 ， 就 产生 可 感知 的 具体 信息 。 也 就 是 
读 入 一 种 信息 ， 产 生 另 一 种 信息 。 数 据 是 可 以 保存 在 一 种 物质 上 的 ， 
这 种 物质 信息 对 计算 机 的 刺激 就 产生 了 具体 信息 ， 而 这 些 信息 继而 再 
对 人 脑 产 生 刺 激 ， 就 产生 人 类 可 感知 的 信息 ， 最 终 决 定 了 人 类 的 行 
为 。 也 就 是 数据 影响 人 类 的 行为 。 


思考 : 数据 是 整个 人 类 发 展 的 重要 决定 因素 。 如 果 数 据 被 破 
坏 ， 或 者 被 自 改 ， 就 会 影响 到 人 类 的 发 展 。 按 照 前 面 的 结 
论 ， 一 切 都 是 信息 ， 比 如 核 爆 也 是 一 种 信息 ， 能 被 感觉 到 ， 
也 就 是 说 ， 对 于 一 个 感觉 不 到 任何 刺激 的 人 来 说 ， 核 爆炸 也 
不 算 什么 灾难 了 ; 当然 感觉 不 到 刺激 的 人 ， 就 是 物理 死亡 
了 ， 植 物 人 也 能 感觉 到 刺激 。 


整个 世界 ， 可 以 说 是 信息 之 间 的 相互 作用 。 信 息影 响 信息 。 


数据 如 此 重要 ， 所 以 人 们 想 出 一 切 办 法 来 保护 这 些 数据 ， 将 信息 
放 在 另 一 种 信息 上 ， 比 如 把 数据 放 在 磁盘 上 。 数 据 存放 在 磁盘 上 ， 需 
要 有 一 定 的 组 织 ， 组 织 数 据 这 个 任务 由 文件 系统 来 担当 。 


1.2.3 ”数据 存储 


早期 的 计算 机 ， 存 储 系统 中 是 没有 磁盘 的 ， 有 的 只 是 纸 带 ， 那 时 
磁盘 还 没有 被 发 明 出 来 。 纸 带 上 是 一 些 按照 一 定 规则 排列 的 小 孔 ， 这 
些 孔 被 银 针 穿 过 之 后 ， 银 针 便 会 接触 到 纸 带 下 面 放置 的 水 银 槽 ， 从 而 
导 通 计算 机 上 的 电路 ， 进 行 电路 逻辑 运算 。 


磁 存 储 技术 被 发 明 出 来 之 后 ， 首 先 出 现 的 是 软盘 ， 其 速度 很 慢 ， 
容量 也 很 小 。 程 序 存储 在 磁盘 上 之 后 ， 计 算 机 启动 时 ，CPU 首 先 按 照 
ROM 里 的 指令 一 条 一 条 执行 ， 先 是 检查 硬件 。 检 查 完毕 之 后 ，ROM 
中 最 后 一 条 指令 就 是 让 CPU 跳 转 到 磁盘 的 0 磁道 来 执行 存储 在 这 里 的 程 
序 。 这 些 初 始 化 程序 直接 以 二 进 制 代 码 的 方式 存储 在 磁盘 上 ， 载 入 执 
行 之 后 ， 就 启动 了 程序 内 核 。 


那个 时 代 还 没有 操作 系统 这 个 概念 ， 程 序 都 是 用 汇编 语言 或 者 高 
级 语言 独立 编写 的 。 也 没有 API 的 概念 ， 每 个 程序 都 必须 独立 完成 操 
作 计算 机 的 所 有 代码 。 这 样 ， 磁 盘 上 存放 的 直接 就 是 这 个 程序 ， 加 电 
后 就 会 立即 运行 这 个 程序 。 


在 磁盘 技术 上 发 明 出 来 的 文件 系统 ， 是 为 了 方便 应 用 程序 管理 磁 
盘 上 的 数据 而 产生 的 。 它 其 实 是 操作 系统 的 代码 模块 ， 这 上段 代码 本 身 
也 是 信息 ， 也 要 存储 在 磁盘 上 。 而 且 代 码 也 要 通过 读 取 一 些 信息 ， 才 
能 完成 功能 。 这 些 信息 就 是 文件 系统 元 数据 ， 也 就 是 用 来 描述 文件 系 
统 结构 的 数据 。 这 些 元 数据 也 是 以 文件 的 形式 存放 在 磁盘 上 的 。 

用 文件 来 描述 文件 ， 和 用 信息 来 描述 信息 ， 它 们 是 归 一 的 ， 正 像 


用 智能 来 创造 智能 一 样 ! 有 了 文件 系统 ， 虚 无 绎 纵 的 信息 才 显 露出 人 
眼 能 够 实 实 在 在 看 到 的 东西 。 可 以 用 各 种 应 用 程序 来 打开 这 个 文件 ， 


程序 读 取 文件 中 的 内 容 ， 然 后 显示 在 屏幕 上 ， 光 线 传播 到 人 眼中， 发 
生 一 系列 化 学 变化 ， 最 终 通过 神经 网 络 ， 形 成 离子 流 ， 给 大 脑 某 个 区 
域 一 个 电位 或 者 蛋白 质 形 变 信 号 ， 这 个 信号 随后 产生 一 系列 连锁 信 
号 ， 从 而 驱动 我 们 的 手臂 或 者 引发 一 系列 新 的 联想 和 创造 。 


这 就 像 我 们 看 到 桌子 上 有 一 本 书 ， 然 后 就 想 去 拿 来 翻 一 翻 的 过 
程 。 这 个 过 程 是 一 个 复杂 的 信息 流传 递 过 程 。 而 传递 过 来 的 信息 流 ， 
最 终 在 大 脑 中 保存 了 下 来 ， 这 些 保存 下 来 的 信息 ， 就 是 数据 了 。 


1.3 ”用 计算 机 来 处 理 信息 、 保 存 数据 
计算 机 伍 然 就 是 一 个 生物 大 脑 的 锥 形 。 


大 脑 用 眼睛 、 耳 灯 、 鼻 子 、 皮 肤 作为 输入 设备 ， 获 取 各 种 信息 ， 
而 计算 机 利用 键盘 、 鼠 标 、 串 口 、USB 接 口 等 作为 输入 设备 从 而 获得 
各 种 信息 。 


大 脑 利 用 神经 网 络 将 获取 到 的 信息 传递 到 神经 中 枢 ， 而 计算 机 利 
用 各 种 总 线 技术 将 信息 传递 给 CPU 进行 计算 。 


大 脑 利 用 神经 网 络 ， 将 计算 好 的 信息 传递 给 手臂、 腿 、 肌 肉 等 这 
些 “ 设 备 ”， 从 而 驱动 这 些 “ 设 备 ” 运 动 ; 而 计算 机 同样 利用 总 线 ， 将 计 
算 好 的 数据 传递 给 外 部 设备 ， 比 如 显示 器 、 打 印 机 等 。 


人 脑 可 以 存储 各 种 数据 ， 而 计算 机 也 能 利用 外 部 介质 来 存放 数 
据 。 从 这 一 点 来 说 ， 计 算 机 本 身 就 是 人 脑 的 一 个 外 部 信息 存储 和 处 理 
的 工具 。 


计算 机 存储 领域 的 一 些 存储 虚拟 化 产品 ， 比 如 NetApp 公 司 的 V 虚 
拟 化 整合 设备 ， 本 身 就 模拟 了 二 级 智能 功能 ， 它 可 以 连接 其 他 任何 不 
同型 号 品牌 的 存储 设备 ， 从 这 些 存储 设备 上 提取 数据 ， 然 后 传输 给 
机 。IBM、SUN 等 公司 都 有 自己 的 这 种 存储 虚拟 化 整合 产品 。 


计算 机 存储 领域 所 研究 的 就 是 怎样 为 计算 机 又 快 又 高 效 地 提供 数 
据 以 便 辅 助 其 运算 。 和 人 类 的 存储 史 一 样 ， 计 算 机 存储 技术 也 在 不 断 
发 展 壮 大 ， 从 早期 的 软盘 、 只 有 几 十 兆 字 节 大 小 的 硬盘 ， 发 展 到 现在 
2TB 大 小 的 单个 民用 硬盘 、16GB 甚 至 128GB 容 量 的 U 盘 。 


为 了 追求 高 速度 ， 人 们 把 多 块 磁盘 做 成 RAID (Redundant Arrays 
of Independent Disks) 系统 ， 也 就 是 将 每 个 独立 的 磁盘 组 成 阵列 ， 联 
合 存储 数据 ， 加 快 数据 存储 速度 。 


提示 : 本 书 的 第 5 章 将 会 向 读者 前 述 RAID 技 术 。 


追求 高 速度 的 同时 ， 容 量 问题 也 必须 解决 。 现 代 计 算 机 程序 对 存 
储 容量 的 要 求 变 得 非常 巨大 。 最 新 的 windows 8 操作 系统 ， 刚 刚 安装 
完 后 所 占用 的 磁盘 空间 就 有 6GB 多 。 一 些 大 型 3D 游 戏 ， 仅 仅 安 装 文件 
就 动 辑 2GB、4GB ， 甚 至 8GB 大 小 。 一 些 数据 库 管 理 程序 所 生成 的 数 
据 库 文件 ， 可 能 达到 几 TB 甚 至 上 百 上 千 TB 的 大 小 。 传 统 的 将 硬盘 放 
到 计算 机 主机 箱 内 的 做 法 已 经 不 能 满足 现代 应 用 程序 对 存储 容量 的 需 
求 ， 这 就 催生 了 网 络 存储 技术 。 


网 络 存储 是 将 存储 系统 扩展 到 了 网 络 上 ， 使 存储 设备 成 为 了 网 络 
上 的 一 个 节点 ， 以 供 其 他 节点 访问 。 这 样 ， 即 使 计算 机 主机 内 只 有 一 
块 硬盘 ， 甚 至 没有 硬盘 ， 计 算 机 也 可 以 通过 网 络 来 存 取 存 储 设备 上 的 
数据 。 目 前 计算 机 存储 领域 的 热门 技术 就 是 网 络 存 储 技术 ， 它 关注 的 


是 如 何在 网 络 上 向 其 他 节点 提供 数据 流 服 务 。 基 于 网 络 存 储 ， 又 使 得 
很 多 其 他 相关 技术 得 以 推广 和 应 用 ， 比 如 IT 系统 容 灾 技 术 等 。 


提示 : 在 第 16 章 将 用 较 长 的 篇 幅 来 详细 讲述 IT 系统 容 灾 技 
术 。 


不 管 怎 样 ， 所 有 这 些 复杂 的 技术 ， 最 终 都 是 给 人 来 用 的 ，“ 科 技 以 
人 为 本 。 我 们 毕竟 不 是 为 了 无 聊 而 发 明 计 算 机 ， 任 何 我 们 发 明 的 东 
西 ， 最 终 都 将 为 我 们 所 用 。 任 何 一 种 新 技术 的 出 现 ， 都 是 计 对 采种 需 
求 而 生 ， 所 以 必须 深刻 理解 计算 机 系统 ， 同 时 ， 还 要 理解 和 挖掘 人 类 
自身 越 来 越 高 、 越 来 越 不 可 思议 的 需求 ， 只 有 做 到 这 个 层次 ， 才 能 更 
加 深刻 地 理解 计算 机 系统 和 人 类 自身 。 


可 以 看 到 ， 存 储 领域 是 个 包罗 万 象 的 领域 ， 如 果 不 了 解 计算 机 系 
统 ， 想 掌握 存储 技术 是 很 难 的。 本 书 将 带领 大 家 走 入 计算 机 存储 领 
域 ， 深入 体会 各 种 存储 技术 ， 为 读者 打下 一 个 坚实 的 基础 ， 从 而 在 以 
后 的 工作 及 学 习 过 程 中 能 够 得 心 应 手 、 触 类 旁 通 ， 这 也 是 作者 的 最 终 
目的 。 


第 2 章 ”IO 大 法 一 一 走 进 计算 机 IO 


世界 


四 TO 
上 总 线 
@ 网 中 之 网 


大 家 都 知道 ， 组 成 计算 机 的 三 大 件 是 CPU、 内 存 和 IO。CPU 和 内 
存 就 不 用 说 了 ， 那 么 IO 具 体 是 什么 呢 ? IO 就 是 IN 和 OUT 的 简称 。 顾 名 
思 义 ，CPU 需 要 从 内 存 中 提取 数据 来 运算 ， 运 算 完 毕 后 再 放 回 内 存 ， 
或 者 直接 将 电信 号 发 向 一 些 针脚 以 操作 外 部 设备 。 对 于 CPU 来 说 ， 从 
内 存 提取 数据 ， 就 叫做 IN。 运 算 完 后 将 数据 直接 发 送 到 某 些 其 他 针脚 
或 者 放 回 内 存 ， 这 个 过 程 就 是 OUT。 对 于 磁盘 来 说 ，IN 是 指数 据 写 入 
磁盘 的 过 程 ，OUT 则 是 指数 据 从 磁盘 读 出 来 的 过 程 。IO 只 是 一 个 过 
程 ， 那 为 何 要 在 本 书 开头 就 研究 它 呢 ? 因为 我 们 必须 弄 清楚 计算 机 系 
统 的 数据 流动 和 处 理 过 程 。 数 据 在 每 个 部 件 中 不 断 地 进行 IO 过 程 ， 传 
递 给 CPU 由 其 进行 运算 处 理 之 后 ， 再 经 过 IO 过 程 ， 最 终 到 达 输 出 设备 
供 人 使 用 。 


2.1 IO 的 通路 一 一 总 线 


现代 计算 机 中 ，IO 是 通过 共享 一 条 总 线 的 方式 来 实现 的 。 如 图 2-1 
所 示 ， 总 线 也 就 是 一 条 或 者 多 条 物理 上 的 导线 ， 每 个 部 件 都 接 到 这 些 
导线 上 ， 导 线 上 的 电位 每 个 时 刻 都 是 相等 的 ， 这 样 总 线 上 的 所 有 部 件 


都 会 收 到 相同 的 信号 。 也 就 是 说 ， 这 条 总 线 是 共享 的 ， 同 一 时 刻 只 能 
有 一 个 部 件 在 接收 或 者 发 送 ， 是 半 双 工 的 工作 模式 。 


图 2-1 计算 机 总 线 示意 图 


所 有 部 件 按 照 另 一 条 总 线 ， 也 就 是 仲裁 总 线 或 者 中 断 总 线 上 给 
的 信号 来 判断 这 个 时 刻 总 线 可 以 由 哪个 部 件 来 使 用 。 产 生 仲 裁 总 线 或 
者 中 断 电 位 的 可 以 是 CPU， 也 可 以 是 总 线 上 的 其 他 设备 。 如 果 CPU 要 
向 某 个 设备 做 输出 操作 ， 那 么 就 由 CPU 主 动 做 中 断 。 如 果 某 个 设备 请 
求 向 CPU 发 送信 号 ， 则 由 这 个 设备 来 主动 产生 中 断 信 号 来 通知 CPU。 
CPU 运行 操作 系统 内 核 的 设备 管理 程序 ， 从 而 产生 了 这 些 信号 。 


如 图 2-1 所 示 ， 主 板 上 的 每 个 部 件 都 是 通过 总 线 连接 起 来 的 。 图 中 
只 画 了 8 条 导线 ， 而 实际 中 ， 导 线 的 数目 远 远 不 止 8 条 ， 可 能 是 16 条 、 
32 条 、64 条 甚至 128 条 。 这 些 导线 密 密 采 麻 地 印刷 在 电路 板 上 ， 由 于 导 
线 之 间 非 常 密集 ， 在 高 频 振 荡 时 会 产生 很 大 干扰 ， 所 以 人 们 将 这 些 导 
线 分 组 印刷 到 不 同 电路 板 上 ， 然 后 再 将 这 些 电路 板 讨 合 起 来 ， 形 成 一 
块 板 ， 这 就 是 多 层 印 刷 电路 板 (多 层 PCB) 。 这 样 ， 每 张 板 上 的 导线 
数量 降低 了 ， 同 时 板 与 板 之 间 的 信号 屏蔽 性 很 好 ， 不 会 相互 干扰 。 这 
些 导线 之 中 ， 有 一 些 是 部 件 之 间 交 互 数据 用 的 数据 总 线 ， 有 些 则 是 它 
们 互相 传递 控制 信号 用 的 控制 总 线 ， 有 些 则 是 中 断 与 仲裁 用 的 中 断 总 
线 ， 还 有 一 些 则 是 地 址 总 线 ， 用 来 确认 通信 时 的 目标 设备 。 一 般 按照 
数据 总 线 的 条 数 来 确认 一 个 总 线 或 设备 的 位 宽 (CPU 是 按照 其 内 部 寄 
存 器 到 运算 单元 之 间 的 总 线 数目 来 确定 位 数 的 ) 。 比 如 32 位 PCI 总 
线 ， 则 表明 这 条 总 线 共 有 32 根 导线 用 于 传递 数据 信号 。PCI 总 线 可 以 
终结 在 一 个 插 槽 ， 用 于 将 PCI 接 口 的 板 卡 接 入 PCI 总 线 ， 也 可 以 直接 与 
设备 连接 。 后 者 一 般 用 于 集成 在 主板 上 的 设备 ， 因 为 它们 之 间 无 须 使 
用 插 槽 来 连接 。 


目前 最 新 的 主板 架构 中 ， 高 速 总 线 比如 PCIE 2.0 往 往 是 直接 接 入 
北桥 ， 南 桥 只 连接 低速 总 线 。 


1。PCI 总 线 


PCI 总 线 是 目前 台式 机 与 服务 器 所 普遍 使 用 的 一 种 南 桥 与 外 设 连 
接 的 总 线 技术 。 


PCI 总 线 的 地 址 总 线 与 数据 总 线 是 分 时 复 用 的 。 这 样 的 好 处 是 ， 
一 方面 可 以 节省 接 插件 的 管 脚 数 ， 另 一 方面 便于 实现 突 发 数据 传输 。 
在 数据 传输 时 ， 一 个 PCI 设 备 作 为 发 起 者 〈 主 控 ，Initiator 或 
Master) ， 而 男 一 个 PCI 设 备 作为 目标 《从 设备 、Target 或 Slave) 。 总 
线 上 的 所 有 时 序 的 产生 与 控制 ， 都 由 Master 来 发 起 。PCI 总 线 在 同一 时 
刻 只 能 供 一 对 设备 完成 传输 ， 这 就 要 求 有 一 个 仲裁 机 构 (Arbiter) ， 
来 决定 谁 有 权力 拿 到 总 线 的 主 控 权 。 


当 PCI 总 线 进行 操作 时 ， 发 起 者 (Master) 先 置 REQ# 信 号 Master 
用 来 请 求 总 线 使 用 权 的 信号 ， 当 得 到 仲裁 器 (Arbiter) 的 许可 时 
(GNT# 信 号 ) ， 会 将 FRAME# 信 号 (传输 开始 或 者 结束 信号 ) 置 低 ， 
并 在 地 址 总 线 (也 就 是 数据 总 线 ， 地 址 线 和 数据 线 是 共享 的 ) 上 放置 
Slave 地 址 ， 同 时 C/BE# (命令 信号 ) 放置 命令 信号 ， 说 明 接 下 来 的 传 
输 类 型 。 


所 有 PCI 总 线 上 的 设备 都 需 对 此 地 址 译 码 ， 被 选中 的 设备 要 置 
DEVSEL# (被 选中 信号 ) 以 声明 自己 被 选中 。 当 IRDY# (Master 可 以 
发 送 数 据 ) 与 TRDY# (Slave 可 以 发 送 数 据 ) 都 置 低 时 ， 可 以 传输 数 
据 。 当 Master 数 据 传输 结束 前 ， 将 FRAME# 置 高 以 标明 只 剩 最 后 一 组 
数据 要 传输 ， 并 在 传 完 数据 后 放 开 IRDY# 以 释放 总 线 控制 权 。 


2。 PCI 总 线 的 中 断 共享 


PCI 总 线 可 以 实现 中 断 共 享 ， 即 不 同 的 设备 使 用 同一 个 中 断 而 不 
发 生 冲突 。 


硬件 上 ， 采 用 电 平 触发 的 办 法 : 中 断 信号 在 系统 一 侧 用 电阻 接 
高 ， 而 要 产生 中 断 的 板 卡 上 利用 三 极 管 的 集 电极 将 信号 拉 低 。 这 样 不 
管 有 几 块 板 产 生 中 断 ， 中 断 信号 都 是 低 电 平 ; 而 只 有 当 所 有 板 卡 的 中 
断 都 得 到 处 理 后 ， 中 断 信 号 才 会 恢复 高 电 平 。 


软件 上 ， 采 用 中 断 链 的 方法 : 假设 系统 启动 时 ， 发 现 板 卡 A 用 了 
中 断 7， 就 会 将 中 断 7 对 应 的 内 存 区 指向 A 卡 对 应 的 中 断 服务 程序 入 口 
ISR_A; 然后 系统 发 现 板 卡 B 也 用 中 断 7， 这 时 就 会 将 中 断 7 对 应 的 内 存 
区 指向 ISR_B， 同 时 将 ISR_B 的 结束 指向 ISR_A。 依 此 类 推 ， 就 会 形成 
一 个 中 断 链 。 而 当 有 中 断 发 生 时 ， 系 统 跳 转 到 中 断 7 对 应 的 内 存 ， 也 就 
是 ISR_B。ISR_B 就 要 检查 是 不 是 B 卡 的 中 断 ， 如 果 是 则 处 理 ， 并 将 板 
卡 上 的 拉 低 电路 放 开 ; 如 果 不 是 则 呼叫 ISR_A。 这 样 就 完成 了 中 断 的 


共享 。 


2.2 ”计算 机 内 部 通信 

网 络 是 什么 ， 用 一 句 话 来 说 就 是 将 要 通信 的 所 有 节点 连接 起 来 ， 
然后 找到 目标 ， 找 到 后 就 发 送 数 据 。 笔 者 把 这 种 简单 模型 叫做 “ 连 找 
发 "网 络 三 元 素 模型 ， 听 起 来 非常 简单 。 


1. 连 


网 络 系统 当然 首先 要 都 连接 起 来 ， 不 管用 什么 样 的 连接 方式 ， 比 
如 HUB 总 线 、 以 太 网 交换 、 电 话 交 换 、 无 线 、 直 连 、 中 转 等 。 在 这 些 
层面 上 每 个 网 络 点 到 其 他 网 络 点 ， 总 有 通路 ， 总 是 可 达 。 


2. 找 


连接 起 来 之 后 ， 由 于 节点 太 多 ， 怎 么 来 区 分 呢 ? 所 以 就 需要 有 个 
区 分 机 制 。 当 然 首先 就 想到 了 命名 ， 就 像 给 人 起 名 一 样 。 在 目前 广泛 
使 用 的 网 络 互 联 协 议 TCP/IP 中 ，IP 这 种 命名 方式 占 了 主导 地 位 ， 统 一 
了 天 下 。 其 他 的 命名 方式 在 IP 看 来 都 是 “ 非 正 统 * 的 ， 全 部 被 “映射 ”到 
了 IP。 比 如 MAC 地 址 和 了 王 的 映射 ，Frame Relay 中 DLCI 地 址 和 IP 的 映 
射 ，ATM 中 ATM 地 址 和 IP 的 了 映射， 最终 都 映射 成 IP 地 址 。 任 何 节 点 ， 
不 管 所 在 的 环境 使 用 什么 命名 方式 ， 到 了 TCP/IP 协 议 的 国度 里 ， 就 都 
需要 有 个 IP 名 (IP 地 址 ) ， 然 后 全 部 用 TCP/IP 协 议 来 实现 节点 到 节点 
无 障碍 的 通信 。 在 “ 连 起 来 "这 个 层面 ， 就 是 OSI (本 书 第 7 章 介 绍 ) 模 
型 中 链 路 层 实现 的 功能 。 


3. 发 


“ 找 目标 ”这 个 层面 是 网 络 层 实 现 的 功能 。“ 发 数据 ”这 个 层面 ， 就 
是 传输 层 需 要 保障 的 。 至 于 发 什么 数据 ， 数 据 是 什么 格式 ， 这 两 个 层 
面 就 不 是 网 络 通信 所 关心 的 了 ， 它 们 已 经 属于 OSI 模 型 中 上 三 层 的 内 
容 了 。 


2.2.1 IO 总 线 是 否 可 以 看 作 网 络 


IO 总 线 可 以 接 入 多 个 外 设 ， 比 如 键盘 、 电 标 、 网 卡 、 显 卡 、USB 
设备 、 串 口 设 备 和 并 口 设备 等 ， 最 重要 的 当然 要 属 磁 盘 设 备 了 。 讲 到 


， 大 家 的 脑海 中 应 该 能 出 现 这 样 一 种 架构 : CPU、 内 存 和 各 种 外 

ee 线 上 ， 这 不 St HUB 本 身 就 

一 个 总 线 结构 而 已 ， 所 有 接口 都 接 在 一 条 总 线 上 ，HUB 所 做 的 就 是 
总 线 信 号 衰减 ， 贡 所 机 到 下 直 天 i 总 网 言 号 。 


避免 


没 错 ! 仔细 分 析 之 后 ， 发 现 它 确实 就 是 这 么 一 个 模型 ! 不 过 IO 总 
线 和 以 太 网 HUB 模 型 还 是 有 些 区 别 。CPU 和 内 存 因为 足够 快 ， 它 们 之 
间 单 独 用 一 条 总 线 连 接 。 这 个 总 线 和 慢 速 IO 总 线 之 间 通 过 一 个 桥接 心 
片 连 接 ， 也 就 是 主板 上 的 北桥 芯片。 这 个 心 片 连接 了 CPU、 内 存 和 IO 
总 线 。 


CPU 与 北桥 连接 的 总 线 叫 做 系统 总 线 ， 也 称 为 前 端 总 线 。 这 个 总 
线 的 传输 频率 与 CPU 的 自身 频率 是 两 个 不 同 概念 ， 总 线 频率 相当 于 
CPU 向 外 部 存 取 数 据 时 的 数据 传输 速率 ， 而 CPU 自身 的 频率 则 表示 
CPU 运算 时 电路 产生 的 频率 。 


提示 : 本 书写 作 时 ，Intel 用 于 PC 的 CPU 前 端 总 线 频率 已 经 可 
以 达到 2000MHz ， 而 作者 用 来 写作 的 PC，CPU 为 Intel 赛 扬 
IT， 前端 总 线 只 有 100MHz， 整 整 20 倍 的 提升 ， 而 CPU 自身 频 
率 提 升 不 过 三 四 倍 而 已 ， 但 是 性 能 却 提升 了 远 超 三 四 倍 。 


前 端 总 绪 的 条 数 ， 比 如 64 条 或 者 128 条 ， 就 叫做 总 线 的 位 数 。 这 个 
位 数 与 CPU 内 部 的 位 数 也 是 不 同 的 概念 ，CPU 位 数 指 的 是 寄存 器 和 运 
算 单 元 之 间 总 线 的 条 效 。 内 存 与 北桥 连接 的 总 绪 叫 做 内 存 总 线 。 由 于 
北桥 速度 太 快 ， 而 IO 总 线 速度 相对 北桥 显得 太 慢 ， 所 以 北桥 和 IO 总 续 
之 间 ， 往 往 要 增加 一 个 网 桥 ， 叫 做 南 桥 ， 在 南 桥 上 一 般 集成 了 众多 外 
设 的 控制 器 ， 比 如 磁盘 控制 器 、USB 控 制 器 等 。 


思考 : 这 不 正 是 个 不 折 不 扣 的 “网 络 ” 么 ? 而 且 还 是 个 不 折 不 
扣 的 “网 桥 ”! 我 们 看 ，CPU 和 内 存 是 一 个 冲突 域 ，IO 总 线 是 
一 个 冲突 域 ， 桥 接 心 片 将 这 两 个 冲突 域 桥接 起 来 ， 这 正 是 网 
桥 的 思想 ! 太 好 了 ! 我 们 的 思想 在 这 个 模型 中 得 到 了 升华 ! 
我 们 知道 了 计算 机 系统 原来 就 是 一 个 网 络 啊 ! 


下 面 就 来 看 看 ， 在 这 个 网 络 上 ， 我 们 能 够 干 点 什么 惊天 动 地 的 事 
呢 ? 


提示 : IO 总 线 其 实 不 是 一 条 总 线 ， 它 分 成 数据 总 线 、 地 址 总 
线 和 控制 总 线 。 寻 址 用 地 址 总 线 ， 发 数据 用 数据 总 线 ， 发 中 
断 信 号 用 控制 总 线 。 而 且 IO 总 线 是 并 行 而 不 是 串 行 的 ， 有 32 
位 或 者 64 位 总 线 。32 位 总 线 也 就 是 说 有 32 根 导线 来 传 数据 ， 
64 位 总 线 用 64 根 导线 来 并 行 传 数据 。 


2.2.2 ”CPU、 内 存 和 磁盘 之 间 通 过 网 络 来 通信 


CPU 是 一 个 心 片 ， 磁 盘 是 一 个 有 接口 的 盒子 ， 它 们 不 是 一 体 的 而 
是 分 开 的 ， 而 且 都 连接 在 这 个 网 桥 上 。 那 么 CPU 向 磁盘 要 数据 ， 也 就 
是 两 个 节点 之 间 的 通信 ， 必 定 要 通过 一 种 通路 来 获取 ， 这 个 通路 当然 
是 电路 ! 


提示 : 当然 也 可 以 是 辐射 的 电磁 波 ， 估 计 21 世 纪 还 应 用 不 到 
CPU 上 。 


凡是 分 割 的 节点 之 间 ， 需 要 接触 和 通信 ， 就 可 以 成 为 网 络 。 那 么 
就 不 由 得 使 我 们 往 OSI 模 型 上 去 靠 ， 这 个 模型 定义 得 很 好 。 既 然 通 信 
是 通过 电路 ， 也 就 是 物理 层 的 东西 ， 那 么 链 路 层 都 有 什么 内 容 呢 ? 


大 家 知道 ， 链 路 层 相 当 于 一 个 司机 ， 它 把 货物 运输 到 对 端 。 司 机 
的 作用 就 是 驾驶 车 辆 ， 而 且 要 判断 交通 规则 做 出 配合 。 那 么 在 这 个 计 
算 机 总 线 组 成 的 网 络 中 ， 是 否 也 需要 这 样 一 个 角色 呢 ? 答案 是 不 需 
要 。 因 为 各 个 节点 之 间 的 路 实在 是 太 短 、 太 稳定 了 ! 主板 上 那些 电 
容 、 电 阻 和 蛇行 线 ， 这 一 切 都 是 为 了 保障 这 些 电路 的 稳定 和 高 速 。 在 
这 样 的 一 条 高 速 、 高 成 本 的 道路 上 ， 是 不 需要 司机 的 ， 更 不 需要 押运 
员 ! 所 以 ,计算机 总 线 网 络 是 一 个 只 有 物理 层 、 网 络 层 和 上 三 层 的 网 
络 ! 


强调 : 所 有 的 网 络 都 可 以 定义 成 连 起 来 、 找 目标 和 发 数据 。 
也 就 是 “ 连 找 发 ”模型 ， 这 也 是 构成 一 个 网 络 的 三 元 素 。 任 何 
网 络 都 必须 具有 这 三 元 素 (点 对 点 网 络 除外 ) 。 连 ， 代 表 物 
理 层 。 物 理 层 必须 要 有 有， 如 果 没 有 物理 层 ， 要 达到 两 点 之 间 
通信 是 不 可 能 的 。 物 理 层 可 以 是 导线 ， 可 以 是 电磁 疲 ， 总 之 
必须 有 物理 层 。 找 ， 突 出 一 个 找 字 ， 既 然 要 找 ， 那 么 就 要 区 
分 方法 ， 也 就 是 编 址 ， 比 如 IP 等 。 发 ， 突 出 一 个 发 字 ， 即 指 
最 上 层 发 出 数据 。 


下 面 就 按照 < 连 找 发 ”三 元 素 理论 ， 去 分 析 一 个 CPU 向 磁盘 要 数据 
的 例子 。 


CPU 与 硬盘 数据 交互 的 过 程 如 下 。 


首先 看 “ 连 ”这 个 元 素 ， 这 个 当然 已 经 具备 了 ， 因 为 总 线 已 经 提供 
了 “和 连 ” 所 需 的 条 件 。 


再 看 “ 找 ” 这 个 元 素 ， 前 面 说 了 ， 首 先 要 有 区 分 ， 才 能 有 所 谓 
“ 找 ”， 这 个 区 分 体现 在 主机 总 线 中 就 是 设备 地 址 映射 。 每 个 IO 设备 在 


启动 时 都 要 向 内 存 中 映射 一 个 或 者 多 个 地 址 ， 这 个 地 址 有 8 位 长 ， 又 被 
称 做 IO 端口 。 针 对 这 个 地 址 的 数据 ， 统 统 被 北桥 心 片 重 定向 到 总 线 上 
实际 的 设备 上 。 假 如 ，IDE 磁 盘 控 制 器 地 址 被 映射 到 了 地 址 0xA0， 人 也 
就 是 十 六 进 制 A0，CPU 根 据 程 序 机 器 代码 ， 向 这 个 地 址 发 出 多 条 指令 
来 完成 一 个 读 操 作 ， 这 就 是 “ 找 ”。“ 找 ”的 条 件 也 具备 了 。 


接 下 来 我 们 看 看 “发 ”这 个 元 素 ! 首先 CPU 将 这 个 IO 地 址 放 到 系统 
总 线 上 ， 北 桥接 收 到 之 后 ， 会 等 待 CPU 发 送 第 一 个 针对 这 个 外 设 的 指 
令 。 然 后 CPU 发 送 如 下 3 条 指令 。 


第 一 条 指令 : 指令 中 包含 了 表示 当前 指令 是 读 还 是 写 的 位 ， 而 且 
还 包含 了 其 他 选项 ， 比 如 操作 完成 时 是 否 用 中 断 来 通知 CPU 处 理 ， 是 
否 启用 人 磁盘 缓存 等 。 


第 二 条 指令 : 指明 应 该 读 取 的 硬盘 逻辑 块 号 (LBA) 。 这 个 逻辑 
块 在 我 们 讲 磁 盘 结构 时 会 讲 到 ， 总 之 逻辑 块 就 是 对 磁盘 上 存储 区 域 的 
一 种 抽象 。 


第 三 条 指令 : 给 出 了 读 取出 来 的 内 容 应 该 存放 到 内 存 中 哪个 地 址 
中 。 


这 3 条 指令 被 北桥 依次 发 送 给 IO 总 线 上 的 磁盘 控制 器 来 执行 。 磁 
盘 控 制 器 收 到 第 一 条 指令 之 后 ， 知 道 这 是 读 指令 ， 而 且 知 道 这 个 操作 
的 一 些 选项 ， 比 如 完成 是 否 发 中 断 ， 是 否 启 用 磁盘 缓存 等 ， 然 后 磁盘 
控制 器 会 继续 等 待 下 一 条 指令 ， 即 逻辑 块 地 址 〈 号 ) 。 和 磁盘 控制 器 收 
到 指令 之 后 ， 会 进行 磁盘 实际 扇 区 和 逻辑 块 的 对 应 查找 ， 可 能 一 个 逻 
辑 块 会 对 应 多 个 扇 区 ， 查 找 完成 之 后 ， 控 制 器 驱动 磁头 寻 道 ， 等 盘 体 
旋转 到 那个 扇 区 后 ， 磁 头 开始 读 出 数据 。 在 读 取 数 据 的 同时 ， 磁 盘 控 


制 器 会 接收 到 第 三 条 指令 ， 也 就 是 CPU 给 出 的 数据 应 该 存放 在 内 存 中 
的 地 址 。 有 了 这 个 地 址 ， 数 据 读 出 之 后 直接 通过 DMA 技 术 ， 也 就 是 磁 
盘 控 制 器 可 以 直接 对 内 存 寻 址 并 执行 写 操作 ， 而 不 必 先 转 到 CPU， 然 
后 再 从 CPU 存 到 内 存 中 。 数 据 存 到 内 存 中 之 后 ，CPU 就 从 内 存 中 取 数 
据 ， 进 行 其 他 运算 。 


上 面 说 的 过 程 是 “ 读 ”，“ 写 ”的 过 程 也 可 以 依 此 类 推 ， 而 且 CPU 疝 
磁盘 读 写 数据 ， 和 向 内 存 读 写 数据 大 同 小 异 ， 只 不 过 CPU 和 内 存 之 间 
有 更 高 速 的 缓存 。 缓 存 对 于 计算 机 很 重要 ， 对 于 磁盘 阵列 同样 重要 ， 
后 面 内 容 将 会 介绍 到 。 


思考 : CPU 在 对 磁盘 发 送 指令 的 时 候 ， 这 些 指 令 是 怎么 定义 
的 ? 这 些 指令 其 实 是 发 给 了 主板 南 桥 上 集成 的 (或 者 是 通过 
PCI 接 入 IO 总 线 的 ) 控制 器 ， 比 如 ATA 控 制 器 或 者 SCSI 控 制 
器 。 然 后 控制 器 再 向 磁盘 发 出 一 系列 的 指令 ， 让 磁盘 读 取 或 
者 写 入 某 个 磁道 、 某 个 扇 区 等 。CPU 不 需要 知道 这 些 ，CPU 
只 需要 知道 逻辑 块 地 址 是 读 还 是 写 就 可 以 了 。 让 CPU 产生 这 
些 信号 的 是 磁盘 控制 器 驱动 程序 。 


那么 控制 器 对 磁盘 发 出 的 一 系列 指令 是 怎么 定义 的 呢 ? 它们 形成 
了 两 大 体系 ， 一 个 是 AIA 指 令 集 ， 一 个 是 SCSI 指 令 集 。SCSI 指 令 集 比 
AIA 指 令 集 高 效 ， 所 以 广泛 用 于 服务 器 和 磁盘 阵列 环境 中 。 这 些 指令 
集 ， 也 可 以 称 为 协议 ， 协 议 就 是 语言 ， 就 是 让 通信 双方 知道 对 方 传 过 
来 的 比特 流 里 面 到 底 包 含 了 什么 ， 怎 么 由 笔划 组 成 字 ， 由 字 组 成 词 ， 
词组 成 句子 ， 等 等 。 


2.3 ”网 中 之 网 


通过 图 2-2 可 以 体会 到 ， 计 算 机 的 主板 上 的 各 个 部 件 本 身 就 形成 了 
一 个 网 络 ， 而 且 通 过 网 卡 ， 还 可 以 连接 到 外 部 网 络 。 


图 2-2 网 中 之 网 
正 所 谓 : 
CPU 内 存 和 磁盘 ， 
大 家 都 在 线 上 谈 。 
待 当 看 破 三 元 素 ， 
网 中 有 网 天 际 来 ! 


第 3 章 ”磁盘 大 挪移 一 一 磁盘 原理 
与 技术 许 解 


@ 磁盘 结构 
a 接口 
@ 串 行 
ga 并 行 


磁盘 分 为 软盘 和 硬盘 。 将 布 满 磁性 粒子 的 一 片 圆 形 软片 包 于 在 一 
个 塑料 过 中 ， 中 间 开 孔 ， 以 便 电机 夹 住 这 张 软片 来 旋转 ， 这 就 是 软 
盘 。 

将 软盘 插入 驱动 器 ， 电 机 便 会 带动 这 张 磁 片 旋转 ， 同 时 磁头 也 夹 
住 磁 片 进行 数据 读 写 。 软 盘 和 录音 带 是 双胞胎 ， 只 不 过 模样 不 太一 样 
而 已 。 软 盘 记录 的 是 数字 信号 ， 录 音 带 记录 的 是 模拟 信号 。 软 盘 上 的 
磁性 粒子 的 磁极 ， 不 管 是 N 极 还 是 S 极 ， 其 磁化 强度 都 是 一 样 的， 磁头 
只 要 探测 到 N 极 ， 便 认为 是 1， 探 测 到 S 极 ， 便 认为 是 9， 反 过 来 也 可 
以 ， 这 就 是 用 0 和 1 来 记录 的 数字 信号 数据 。 另 外 ， 因 为 软盘 被 设计 为 
块 式 的 而 不 是 流 式 的 ， 所 以 需要 进行 扁 区 划分 等 操作 。 


所 谓 块 式 ， 融 是 指数 据 分 成 一 块 块 地 存放 在 介质 上 ， 可 以 直接 选 
择 读 写 某 一 块 数据 ， 定 位 这 个 块 的 速度 比较 快 。 所 谓 流 式 ， 就 是 指数 
据 是 连续 不 断 地 存放 在 介质 上 。 就 像 一 首 歌 ， 不 可 能 让 录音 机 在 磁带 


上 定位 到 这 首 歌 的 某 处 开始 播放 ， 只 能 定位 到 某 首 歌曲 的 前 面 或 者 后 
面 。 


模拟 磁带 ， 也 就 是 录音 带 ， 记 录 是 线性 连续 的 ， 没 有 扇 区 的 概 
念 ， 属 于 流 式 记录 。 在 每 个 流 之 间 可 以 有 一 段 空 阶 ， 以 便 磁头 可 以 通 
过 快 进 快速 定位 到 这 个 位 置 ， 但 是 由 于 设计 的 原因 ， 磁 带 定位 的 速度 
远 比 磁盘 慢 。 但 是 磁带 的 设计 ， 从 一 开始 就 是 为 了 满足 大 容量 数据 存 
储 的 需要 。 如 果 将 缠绕 紧密 的 磁带 铺展 开 来 ， 可 以 想象 它 的 面积 比 一 
张 磁盘 要 大 得 多 ， 所 以 存储 容量 必然 也 就 大 于 磁盘 。 现 在 一 盘 LTO3 的 
数字 磁带 可 以 在 1 平方 分 米 底 面 、2 厘 米 高 的 体积 中 存放 400GB 的 数 
据 ， 如 果 使 用 压缩 技术 ， 可 以 存放 约 800GB 的 数据 。 而 它 的 价格 却 比 
同等 容量 硬盘 的 一 半 还 低 。 


但 是 磁带 绝对 不 可 以 作为 数据 实时 存储 的 介质 ， 因 为 它 不 可 以 定 
位 到 某 个 块 ， 这 也 决定 了 磁带 只 能 用 来 做 数据 备份 。Sun 公 司 的 顶级 
磁带 库 产品 可 以 达到 一 台 磁 带 库 中 存放 1 万 盘 磁 带 ， 最 大 可 以 让 32 台 磁 
带 库 级 联 ， 从 而 形成 32 万 盘 磁 带 的 大 规模 磁带 库 阵 列 。 


而 作为 本 章 重点 介绍 的 硬盘 技术 ， 不 仅 存 取 速 度 比 软盘 更 快 ， 随 
着 技术 发 展 带 来 的 成 本 下 降 ， 更 有 取代 磁带 机 成 为 普及 型 数据 存储 的 
趋势 。 


3.1 ”硬盘 结构 
1。 结 构图 


硬盘 大 致 由 盘 片 、 读 写 头 、 马 达 、 底 座 、 电 路 板 等 几 大 项 组 合 而 
成 ， 如 图 3-1 和 图 3-2 所 示 。 


图 3-1 磁盘 的 构成 要 件 ”图 3-2 ”磁盘 结构 图 


2。 盘 片 


盘 片 的 基板 由 金属 或 玻璃 材质 制 成 ， 为 达到 高 密度 、 高 稳定 性 的 
要 求 ， 基 板 要 求 表 面 光 滑 平 整 ， 不 可 有 任何 瑕 瘦 。 然 后 将 磁粉 溅 镀 到 
基板 表面 上 ， 最 后 再 涂 上 保护 润滑 层 。 此 处 要 应 用 两 项 高 科技 ， 一 是 
要 制造 出 不 含 杂 质 的 极 细微 的 磁粉 ， 二 是 要 将 磁粉 均匀 地 溅 镀 上 去 。 


盘 片 每 面 粗 计 密 度 为 32901120000 b， 可 见 其 密度 相当 高 ， 所 以 盘 
片 不 可 有 任何 污染 ， 全 程 制造 均 须 在 Class 100 高 洁净 度 的 无 尘 室内 进 
行 ， 这 也 是 硬盘 要 求 需 在 无 尘 室 才能 拆 解 维修 的 原因 。 因 为 磁头 是 利 
用 气流 漂浮 在 盘 片 上 ， 并 没有 接触 到 盘 片 ， 因 而 可 以 在 各 轨 间 高 速 来 
回 移动 ， 但 如 果 磁 头 距 离 盘 片 太 高 读 取 的 信号 就 会 太 弱 ， 太 低 又 会 磨 
到 盘 片 表面 ， 所 以 盘 片 表面 必须 相当 光滑 平整 ， 任 何 异 物 和 人 尘埃 均 会 
使 得 磁头 摩擦 到 磁 面 而 造成 数据 永久 性 损坏 。 


3。 磁 头 


硬盘 的 储存 原理 是 将 数据 用 其 控制 电路 通过 硬盘 读 写 头 (Read 
Write Head) 去 改变 磁盘 表面 上 极 细微 的 磁性 粒子 簇 的 N、S 极 性 来 加 
以 储存 ， 所 以 这 几 片 磁盘 相当 重要 。 


磁盘 为 了 储存 更 多 数据 ， 必 须 3 中 局 朗 不 客 
将 磁性 粒子 簇 溅 镀 在 磁头 可 定位 的 
范围 内 ， 并 且 磁 性 粒子 制作 得 越 小 越 好 。 经 过 溅 镀 ， 磁 盘 表 面 上 磁 粒 
子 密度 相当 高 ， 而 硬盘 读 写 头 为 了 能 在 磁盘 表面 高 速 来 回 移 动 读 取 数 


据 则 需 漂 浮 在 磁盘 表面 上 ， 但 是 不 能 接触 ， 接 触 就 会 造成 划 伤 。 磁 头 
如 果 太 高 的 话 读 取 到 的 信号 就 会 很 弱 ， 无 法 达到 高 稳定 性 的 要 求 ， 所 
以 要 尽 可 能 压低 ， 其 飞行 高 度 (Flying Height) 非常 小 〈 可 比喻 成 要 
求 一 架 波 音 747 客 机 ， 其 飞行 高 度 须 保持 在 1 米 的 距离 而 不 可 坠毁 ) 。 
实现 这 种 技术 ， 完 全 是 靠 磁盘 旋转 时 ， 在 盘 片 上 空 产生 气流 ， 利 用 空 
气动 力学 使 磁头 悬浮 于 磁 片 上 空 。 磁 头 厚 度 如 图 3-3 所 示 。 


早期 的 硬盘 在 每 次 关机 之 前 需要 运行 一 个 被 称 为 Parking 的 程序 ， 
其 作用 是 让 磁头 回 到 盘 片 最 内 圈 的 一 个 不 含 磁 粒 子 的 区 域 ， 叫 做 启 停 
区 。 硬 盘 不 工作 时 ， 磁 头 停留 在 启 停 区 ， 当 需要 从 硬盘 读 写 数据 时 ， 
磁盘 就 先 开始 旋转 。 旋 转速 度 达 到 额定 速度 时 ， 磁 头 就 会 因 盘 片 旋 转 
产生 的 气流 拾 起 来 ， 这 时 磁头 才 向 盘 片 中 存放 数据 的 区 域 移动 。 盘 片 
旋转 产生 的 气流 相当 强 ， 足 以 托 起 磁头 ， 并 与 盘面 保持 一 个 微小 的 距 
离 。 这 个 距离 越 小 ， 磁 头 读 写 数据 的 灵敏 度 就 越 高 ， 当 然 对 硬盘 各 音 
件 的 要 求 也 就 越 高 。 


早期 设计 的 磁盘 驱动 器 可 使 磁头 保持 在 盘面 上 方 几 微米 处 飞行 ， 
稍 后 的 一 些 设计 使 磁头 在 盘面 上 的 飞行 高 度 降 到 约 0.1~0.50m， 现 在 
的 水 平 已 经 达到 0.005~0.010m， 只 是 人 类 头发 直径 的 千 分 之 一 。 气 流 
既 能 使 磁头 脱离 开盘 面 ， 又 能 使 它 保持 在 离 盘 面 足够 近 的 地 方 ， 非 常 
紧密 地 随 着 磁盘 表面 呈 起 伏 运动 ， 使 磁头 飞行 处 于 严格 受 控 状 态 。 磁 
头 必须 飞行 在 盘面 上 方 ， 而 不 接触 盘面 ， 这 种 距离 可 避免 探伤 磁性 涂 
层 ， 而 更 重要 的 是 不 让 磁性 涂 层 损伤 磁头 。 但 是 ， 磁 头 也 不 能 离 盘面 
太 远 ， 否 则 就 不 能 使 盘面 达到 足够 强 的 磁化 ， 难 以 读 出 盘 上 的 数据 。 


提示 : 硬盘 驱动 器 磁头 的 飞行 悬浮 高 度 低 、 速 度 快 ， 一 旦 有 
小 的 尘埃 进入 硬盘 密封 腔 内 或 者 磁头 与 盘 体 发 生 碰撞 ， 就 有 
可 能 造成 数据 丢失 形成 坏 块 ， 甚 至 造成 磁头 和 盘 体 的 损坏 。 


所 以 ， 硬 盘 系 统 的 密封 一 定 要 可 靠 ， 在 非 专业 条 件 下 绝对 不 
能 开启 硬盘 密封 腔 ， 否 则 灰尘 进入 后 会 加 速 硬 盘 的 损坏 。 另 
外 ， 硬 盘 驱 动 器 磁头 的 寻 道 伺 服 电机 多 采用 音 圈 式 旋转 或 直 
线 运 动 步 进 电 机 ， 在 伺服 跟踪 的 调节 下 精确 地 跟踪 盘 片 的 磁 
道 ， 所 以 硬盘 工作 时 不 要 有 冲击 碰撞 ， 搬 动 时 也 要 小 心 轻 
放 。 


4。 步 进 电 机 


为 了 让 磁头 精确 定位 到 每 个 磁道 ， 用 普通 的 电机 达 不 到 这 样 的 精 
度 ， 必 须 用 步 进 电 机 ， 利 用 精确 的 齿轮 组 或 者 音 圈 ， 每 次 旋转 可 以 仅 
仅 使 磁头 进行 微米 级 的 位 移 。 音 圈 电 机 则 是 使 用 精密 缠绕 的 铜 丝 ， 置 
于 磁场 之 中 ， 通 过 控制 电流 的 流向 和 强度 ， 使 得 磁头 臂 在 磁场 作用 下 
作 精 确 的 步 进 。 之 所 以 叫做 “ 音 圈 ”， 是 因为 这 种 方法 一 开始 是 用 在 喇 
叭 的 纸 侈 上 的 ， 通 过 控制 电流 来 控制 纸 侈 的 精确 振动 。 


3.1.1 盘 片上 的 数据 组 织 


硬盘 上 的 数据 是 如 何 组 织 与 管理 的 呢 ? 硬盘 首先 在 逻辑 上 被 划分 
为 磁道 、 柱 面 以 及 扇 区 ， 其 结构 关系 如 图 3-4 所 示 。 


图 3-4” 柱 面 和 盘 片 上 的 磁道 


每 个 盘 片 的 每 个 面 都 有 一 个 读 写 磁头 ,磁头 起 初 停 在 盘 片 的 最 内 
圈 ， 即 线 速度 最 小 的 地 方 。 这 是 一 个 特殊 区 域 ， 它 不 存放 任何 数据 ， 
称 为 启 停 区 或 着 陆 区 (Landing Zone) 。 启 停 区 外 就 是 数据 区 。 在 最 


外 轿 ， 离 主轴 最 远 的 地 方 是 0 磁道 ， 硬 盘 数 据 的 存放 就 是 从 最 外 圈 开 始 
的 。 


那么 ， 磁 头 如 何 找到 0 磁道 的 位 置 呢 ? 从 图 3.4 中 可 以 看 到 ， 有 一 
个 0 磁道 检测 器 ， 由 它 来 完成 硬盘 的 初始 定位 。0 磁 道 存放 着 用 于 操作 
系统 启动 所 必需 的 程序 代码 ， 因 为 PC 启动 后 BIOS 程 序 在 加 载 任何 操作 
系统 或 其 他 程序 时 ， 总 是 默认 从 磁盘 的 0 磁道 读 取 程序 代码 来 运行 。 


提示 : 0 磁道 是 如 此 重要 ， 以 至 于 很 多 硬盘 仅仅 因为 0 磁道 损 
坏 就 报废 了 ， 这 是 非常 可 惜 的 。 


下 面 对 盘 面 、 磁 道 、 柱 面 和 扇 区 的 含义 逐一 进行 介绍 。 
1. 盘面 


硬盘 的 盘 片 一 般 用 铝 合 金 材 料 做 基 片 ， 高 速 硬盘 也 有 用 玻璃 做 基 
片 的 。 玻 璃 基 片 更 容易 达到 所 需 的 平面 度 和 光洁 度 ， 而 且 有 很 高 的 硬 
度 。 磁 头 传 动 装 置 是 使 磁头 作 径 向 移动 的 部 件 ， 通 常 有 两 种 类 型 的 传 
动 装置 : 一 种 是 齿 条 传动 的 步 进 电机 传动 装置 ， 另 一 种 是 音 圈 电机 传 
动 装置 。 前 者 是 固定 推算 的 传动 定位 器 ， 而 后 者 则 采用 伺服 反馈 返回 
到 正确 的 位 置 上 。 磁 头 传动 装置 以 很 小 的 等 距离 使 磁头 部 件 作 径 向 移 
动 ， 用 以 变换 磁道 。 


硬盘 的 每 一 个 盘 片 都 有 两 个 盘面 ， 即 上 、 下 盘面 。 每 个 盘面 都 能 
利用 ， 都 可 以 存储 数据 ， 成 为 有 效 盘 片 。 每 一 个 这 样 的 有 效 盘 面 都 有 
一 个 盘面 号 ， 按 从 上 到 下 的 顺序 从 0 开始 依次 编号 。 在 硬盘 系统 中 ， 盘 
面 号 又 叫 磁 头号 ， 因 为 每 一 个 有 效 盘 面 都 有 一 个 对 应 的 读 写 磁头 。 硬 


盘 的 盘 片 组 在 2 一 14 片 不 等 ， 通 常 有 2 人 3 个 盘 片 ， 故 盘面 号 (磁头 号 ) 
为 0 一 3 或 0 一 5。 


2。 磁 道 


磁盘 在 格式 化 时 被 划分 成 许多 同心 国 ， 这 些 同 心 圆 轨迹 叫做 磁 
道 。 磁 道 从 最 外 圈 向 内 圈 从 0 开始 顺序 编号 。 硬 盘 的 每 一 个 盘面 有 300 
全 1024 个 磁道 ， 新 式 大 容量 硬盘 每 面 的 磁道 数 更 多 。 这 些 同 心 圆 磁 道 
不 是 连续 记录 数据 ， 而 是 被 划分 成 一 段 段 的 圆 级 ， 这 些 圆 级 的 角速度 
一 样 。 由 于 径 向 长 度 不 一 样 ， 所 以 线 速度 也 不 一 样 ， 外 圈 的 线 速度 较 
内 图 的 线 速 度 大 。 在 同样 的 转速 下 ， 外 圈 在 相同 的 时 间 段 里 ， 划 过 的 
圆 级 长 度 要 比 内 圈 划 过 的 圆 级 长 度 大 ， 因 此 外 圈 数 据 的 读 写 要 比 内 图 
快 。 


每 段 圆 缴 叫做 一 个 扇 区 ， 扇 区 从 1 开始 编号 ， 每 个 扇 区 中 的 数据 作 
为 一 个 单元 同时 读 出 或 写 入 ， 是 读 写 的 最 小 单位 。 不 可 能 发 生 读 写 半 
个 或 者 四 分 之 一 个 这 种 小 于 一 个 局 区 的 情况 ， 因 为 磁头 只 能 定位 到 某 
个 扇 区 的 开头 或 者 结尾 ， 而 不 能 在 局 区 内 部 定位 。 所 以 ， 一 个 扇 区 内 
部 的 数据 ， 是 连续 流 式 记录 的 。 一 个 标准 的 3.5 英 寸 硬 盘 盘 面 通 单 有 几 
百 到 几 千 条 磁道 。 磁 道 是 肉眼 看 不 见 的 ， 只 是 盘面 上 以 特殊 形式 磁化 
了 的 一 些 磁 化 区 。 划 分 磁道 和 局 区 的 过 程 ， 叫 做 低级 格式 化 ， 通 单 在 
硬盘 出 广 的 时 候 就 已 经 格式 化 完毕 了 。 相 对 于 低级 格式 化 来 说 ， 高 级 
格式 化 指 的 是 对 磁盘 上 所 存储 的 数据 进行 文件 系统 的 标记 ， 而 不 是 对 
届 区 和 磁道 进行 磁化 标记 。 


3。 柱 面 


所 有 盘面 上 的 同一 磁道 ， 在 竖 直 方向 上 构成 一 个 圆柱 ， 通 常 称 做 
柱 面 。 每 个 圆柱 上 的 磁头 由 上 而 下 从 0 开始 编号 。 数 据 的 读 写 按 柱 面 进 
行 ， 即 磁头 读 写 数据 时 首先 在 同一 柱 面 内 从 0 磁头 开始 进行 操作 ， 依 次 
向 下 在 同一 柱 面 的 不 同 盘 面 《 即 磁头 ) 上 进行 操作 。 只 有 在 同一 柱 面 
所 有 的 磁头 全 部 读 写 完 毕 后 磁头 才 转 移 到 下 一 柱 面 ， 因 为 选取 磁头 只 
需 通过 电子 切换 即 可 ， 而 选取 柱 面 则 必须 通过 机 械 切 换 ， 即 寻 道 。 


电子 切换 相当 快 ， 比 使 用 机 械 将 磁头 向 邻近 磁道 移动 要 快 得 多 ， 
所 以 数据 的 读 写 按 柱 面 进行 ， 而 不 按 盘 面 进行 。 也 就 是 说 ， 一 个 磁道 
与 满 数 据 后 ， 就 在 同一 柱 面 的 下 一 个 盘面 来 写 。 一 个 柱 面 写 满 后 ， 才 
移 到 下 一 个 柱 面 开始 写 数据 ， 这 样 可 以 减少 寻 道 的 频繁 度 。 读 瑟 数 据 
也 按照 这 种 方式 进行 ， 这 样 就 提高 了 硬盘 的 读 写 效率 。 


一 块 硬盘 驱动 器 的 圆柱 数 或 每 个 盘面 的 磁道 数 既 取决 于 每 条 磁道 
的 宽 罕 〈 也 与 磁头 的 大 小 有 关 ) ， 也 取决 于 定位 机 构 所 决定 的 磁道 间 
步 距 的 大 小 。 如 果 能 将 磁头 做 得 足够 精细 ， 定 位 距离 足够 小 ， 那 么 就 
会 获得 更 高 的 磁道 数 和 存储 容量 。 如 果 磁 头 太 大 ， 则 磁道 数 就 要 降低 
以 容纳 这 个 磁头 ， 这 样 磁道 与 磁道 之 间 的 磁粉 将 无 法 利用 ， 浪 费 得 太 
多 。 如 果 能 将 磁头 做 成 单个 原子 的 精度 ， 那 么 存储 技术 就 会 发 生 革 命 
性 的 质变 。 


提示 : 利用 原子 探 针 来 移动 物质 表面 的 原子 成 特定 形状 ， 这 
种 技术 早已 实现 。 如 果 能 将 这 种 技术 应 用 到 数据 存储 领域 ， 
则 存储 容量 和 速度 将 会 以 几何 倍数 上 升 。 


4. 扇 区 


1) 扇 区 头 标 图 3-5 “ 扇 区 示意 图 


将 每 个 环形 磁道 等 距离 切割 ， 形 成 等 长 度 的 圆 汲 ， 每 个 圆 级 就 是 
一 个 局 区 。 划 分 局 区 的 目的 是 为 了 使 效 据 存 储 更 加 条 理化 ， 融 像 一 个 
大 仓库 要 划分 更 多 的 房间 一 样 。 每 个 局 区 可 以 存放 512B 的 数据 和 一 些 
其 他 信息 。 一 个 扇 区 有 两 个 主要 部 分 : 存储 数据 地 点 的 标识 符 和 存储 
效 据 的 效 据 段 ， 如 图 3-5 所 示 。 


" 局 区 头 标 包括 组 成 局 区 三 级 地 址 的 三 个 数字 。 

" 局 区 所 在 的 柱 面 磁道) 。 

= 化 头 编号 。 

" 局 区 在 磁道 上 的 位 置 ， 即 局 区 号 。 

" 柱 面 《Cylinder) 、 磁 头 (Header) 和 局 区 (Sector) 三 者 简称 
CHS， 所 以 扇 区 的 地 址 又 称 为 CHS 地 址 。 


磁头 通过 读 取 当 前 局 区 的 头 标 中 的 CHS 地 址 ， 就 可 以 知道 当前 是 
处 于 盘 片 上 的 哪个 位 置 ， 比 如 是 内 圈 还 是 外 圈 ， 哪 个 磁头 正在 读 写 
(同一 时 刻 只 能 有 一 个 磁头 在 读 写 ) 等 。 


CHS 编 址 方式 在 早期 的 小 容量 硬盘 中 非常 流行 ， 但 是 目前 的 大 容 
量 硬盘 的 设计 和 低级 格式 化 方式 已 经 有 所 变化 ， 所 以 CHS 编 址 方式 已 
经 不 再 使 用 ， 而 转 为 LBA 编 址 方式 。LBA 编 址 方式 不 再 划分 柱 面 和 磁 
头号 ， 这 些 数据 由 硬盘 自身 保留 ， 而 磁盘 对 外 提供 的 地 址 全 部 为 线性 
的 地 址 ， 即 LBA 地 址 。 


所 谓 线性 ， 指 的 是 把 磁盘 想象 成 只 有 一 个 磁道 ， 这 个 磁道 是 无 限 
长 的 直线 ， 局 区 为 这 条 直线 上 的 等 长 线段 ， 从 1 开始 顺序 编号 ， 直 到 无 
限 远 。 显 然 ， 这 种 方式 屏 烙 了 柱 面 、 磁 头 这 些 复杂 的 东西 ， 向 外 提供 
了 简单 的 方式 ， 所 以 非常 利于 编程 。 然 而 磁盘 中 的 控制 电路 依然 要 找 
到 某 个 LBA 地 址 到 底 对 应 着 哪个 磁道 哪个 磁头 上 的 哪个 扇 区 ， 这 种 对 


应 关系 保存 在 磁盘 控制 电路 的 ROM 心 片 中 ， 磁 盘 初 始 化 的 时 候 载 入 组 
存 中 以 便 随时 查询 。 


注意 : 基于 CHS 编 址 方式 的 磁盘 最 大 容量 

磁头 数 (Heads) 表示 硬盘 总 共有 几 个 磁头 ， 也 就 是 有 几 面 盘 
片 ， 最 大 为 255 (用 8 个 二 进 制 位 存储 ) 。 

柱 面 数 (Cylinders) 表示 硬盘 每 一 面 盘 片上 有 多 少 条 磁道 ， 
最 大 为 1023 (用 10 个 二 进 制 位 存储 ) 。 局 区 数 (Sectors) 表 
示 每 一 条 磁道 上 有 多 少 扇 区 ， 最 大 为 63 (用 6 个 二 进 制 位 存 
储 ) 。 

每 个 扇 区 一 般 是 512B， 理 论 上 讲 这 不 是 必须 的 。 目 前 很 多 大 
型 磁盘 阵列 所 使 用 的 硬盘 ， 由 于 阵列 控制 器 需要 做 一 些 诸如 
校 验 信息 之 类 的 特殊 存储 ， 这 些 磁盘 都 被 格式 化 为 每 扇 区 
520Bo 

如 果 按 照 每 扇 区 512B 来 计算 ， 磁 盘 最 大 容量 为 
255x1023x63x512/1048576 王 8024MB (1MB= 二 1048576 B) 。 
这 就 是 所 谓 的 8GB 容 量 限 制 的 原因 。 但 是 随 着 技术 的 不 断 发 
展 ，CHS 地 址 的 位 数 在 不 断 增加 ， 所 以 可 寻 址 容量 也 在 不 断 
增加 。 

提示 : 磁盘 驱动 器 内 怎样 放下 255 个 磁头 呢 ? 这 是 不 可 能 
的 。 目 前 的 硬盘 一 般 可 以 有 1 盘 片 、2 盘 片 或 者 4 盘 片 ， 这 样 就 
对 应 着 2、4 磁 头 或 者 8 磁头 。 那 么 这 样 算 来 ， 硬 盘 实际 容量 一 
定 小 于 8GB 了 ? 显然 不 是 这 样 的 。 所 谓 255 个 磁头 ， 这 只 是 一 
个 逻辑 上 的 说 法 ， 实 际 的 磁头 、 磁 道 、 扇 区 等 信息 都 保存 在 
硬盘 控制 电路 的 ROM 心 片 中 。 而 每 条 磁道 上 真 的 最 多 只 有 64 
个 扇 区 么 ? 当然 也 不 是 ， 一 条 磁道 上 实际 的 局 区 数 远 远大 于 
64， 这 样 就 分 挫 了 磁头 数 实际 少 于 255 个 所 产生 的 “容量 减 


小 "。 所 以 ， 这 是 CHS 编 址 方式 沿袭 了 老 的 传统 ， 不 愿意 去 作 
修改 导致 的 。 而 这 种 沿袭 达到 了 极限 之 后 ， 最 终 导 致 LBA 编 
址 方式 蔡 代 了 CHS 编 址 方式 。 


头 标 中 还 包括 一 个 字段 ， 其 中 有 显示 局 区 是 否 能 可 靠 存储 数据 ， 
或 者 是 已 发 现 某 个 故障 因而 不 宜 使 用 的 标记 。 有 些 硬盘 控制 器 在 扇 区 
头 标 中 还 记录 有 指示 字 ， 可 在 原 扇 区 出 错时 指引 磁头 跳 转 到 替换 扇 区 
或 磁道 。 最 后 ， 扇 区 头 标 以 循环 见 余 校 验 CRC 值 作为 结束 ， 以 供 控 制 
器 检验 局 区 头 标的 读 出 情况 ， 确 保 准 确 无 误 。 


2) 扇 区 编号 和 交叉 因子 


给 局 区 编号 的 最 简单 方法 是 采用 1、2、3、4、5、6 等 顺序 编号 。 
如 果 扇 区 按 顺 序 绕 着 磁道 依次 编号 ， 那 么 磁盘 控制 电路 在 处 理 一 个 扇 
区 的 数据 期 间 ， 可 能 会 因为 磁盘 旋转 太 快 ， 没 等 磁头 反应 过 来 ， 已 经 
超过 扁 区 间 的 间隔 而 进入 了 下 一 个 扇 区 的 头 标 部 分 ， 则 此 时 磁头 若 想 
读 取 这 个 扇 区 的 记录 ， 就 要 再 等 一 圈 ， 等 到 盘 片 旋转 回来 之 后 再 次 读 
写 ， 这 个 等 待 时 间 无 疑 是 非常 浪费 的 。 


显然 ， 要 解决 这 个 问题 ， 靠 加 大 扇 区 间 的 间隔 是 不 现实 的 ， 那 会 
浪费 许多 磁盘 空间 。 许 多 年 前 ，IBM 的 一 位 杰出 工程 师 想 出 了 一 个 绝 
妙 的 办 法 ， 即 对 启 区 不 使 用 顺序 编号 ， 而 是 使 用 一 个 交叉 因子 
(mterleave) 进行 编号 。 交 叉 因 子 用 比值 的 方法 来 表示 ， 如 3 : 1 表示 
磁道 上 的 第 1 个 扇 区 为 1 号 扇 区 ， 跳 过 两 个 局 区 即 第 4 个 扇 区 为 2 号 局 
区 ， 这 个 过 程 持续 下 去 直到 给 每 个 物理 扁 区 编 上 逻辑 号 为 止 。 


例如 ， 每 磁道 有 17 个 扇 区 的 磁盘 按 2? : 1 的 交叉 因子 编号 就 是 1、 
10、2、11、3、12、4、13、5、14、6、15、7、16、8、17、9; 而 按 


3 : 1 的 交叉 因子 编号 就 是 、7、13、2、8、14、3、9、15、4、410、 
16、5、11、17、6、12。 当 设置 1 : 1 的 交叉 因子 时 ， 如 果 硬 盘 控 制 器 
处 理 信 息 足 够 快 ， 那 么 读 出 磁道 上 的 全 部 扇 区 只 需要 旋转 一 周 。 但 如 
果 硬 盘 控制 器 的 处 理 动作 没有 这 么 快 ， 则 只 有 磁盘 所 转 的 圈 数 等 于 针 
对 这 个 磁道 的 交叉 因子 时 ， 才 能 读 出 每 个 磁道 上 的 全 部 数据 。 将 交叉 
因子 设 定 为 2 : 1 时 ， 磁 头 要 读 出 磁道 上 的 全 部 数据 ， 磁 盘 只 需 转 两 
周 。 如 果 2 : 1 的 交叉 因子 仍 不 够 慢 ， 这 时 可 将 交叉 因子 调整 为 3 : 1， 
如 图 3-6 所 示 。 


3-6 所 示 是 典型 的 MFM (Modified Frequency Modulation ， 改 进 
型 调频 制 编码 ) 硬盘 ， 每 磁道 有 17 个 扇 区 ， 国 出 了 用 三 种 不 同 的 扇 区 
交叉 因子 编号 的 情况 。 最 外 圈 的 磁道 (0 号 柱 面 ) 上 的 局 区 用 简单 的 顺 
序 连 续 编写， 相当 于 扇 区 交叉 因子 是 1 : 1。1 号 磁道 ( 柱 面 ) 的 扇 区 按 
2 : 1 的 交叉 因子 编号 ， 而 2 号 磁道 的 扇 区 按 3 : 1 的 交叉 因子 编号 。 


图 3-6 ”MFM 改进 型 交叉 因子 示意 图 


在 早期 的 硬盘 管理 工作 中 ， 设 置 交 又 因子 需要 用 户 自己 完成 。 用 
BIOS 中 的 低级 格式 化 程序 对 硬盘 进行 低级 格式 化 时 ， 就 需要 指定 交叉 
因子 ， 有 时 还 需要 设置 几 种 不 同 的 值 来 比较 其 性 能 ， 而 后 确定 一 个 比 
较 好 的 值 。 现 在 的 硬盘 BIOS 已 经 自己 解决 了 这 个 问题 ， 所 以 一 般 低 级 
格式 化 程序 中 就 不 再 提供 这 一 设置 选项 了 。 


系统 将 文件 存储 到 磁盘 上 时 ， 是 按 柱 面 、 磁 头 、 扇 区 方式 进行 
的 ， 即 最 先是 第 1 磁道 的 第 1 磁头 下 (也 就 是 第 1 盘面 的 第 一 磁道 ) 所 有 
的 局 区 ， 然 后 是 同一 柱 面 的 下 一 磁头 ， 直 到 整个 柱 面 都 存 满 。 系 统 也 
是 以 相同 的 顺序 去 读 出 数据 。 读 数据 时 通过 告诉 磁盘 控制 器 要 读 出 数 
据 所 在 的 柱 面 号 、 磁 头号 和 局 区 号 (物理 地 址 的 三 个 组 成 部 分 ) 进行 


读 取 〈 现 在 都 是 直接 使 用 LBA 地 址 来 告诉 磁盘 所 要 读 写 的 扇 区 ) 。 磁 
盘 控 制 电 路 则 直接 将 磁头 部 件 步 进 到 相应 的 柱 面 ， 选 中 相应 磁头 ， 然 
后 立即 读 取 当前 磁头 下 所 有 的 局 区 头 标 地 址 ， 然 后 把 这 些 头 标 中 的 地 
址 信息 与 期 待 检 出 的 磁头 和 柱 面 号 做 比较 。 如 果 不 是 要 读 写 的 扇 区 号 
则 读 取 局 区 头 标 地 址 进行 比较 ， 直 到 相同 以 后 ， 控 制 电路 知道 当前 磁 
头 下 的 局 区 就 是 要 读 写 的 扇 区 ， 然 后 立即 让 磁头 读 写 数 气 。 


如 果 是 读数 据 ， 控 制 电 路 会 计算 此 数据 的 ECC 码 ， 然 后 把 ECC 码 
与 已 记录 的 ECC 码 相 比 较 ; 如 果 是 写 数 据 ， 控 制 电 路 会 计算 出 此 数据 
的 ECC 码 ， 存 储 到 数据 部 分 的 末尾 。 在 控制 电路 对 此 局 区 中 的 数据 进 
行 必要 的 处 理 期 间 ， 磁 盘 会 继续 旋转 。 由 于 对 信息 的 后 处 理 需要 耗费 
一 定 的 时 间 ， 在 这 段 时 间 内 磁盘 可 能 已 旋转 了 相当 的 角度 。 


交叉 因子 的 确定 是 一 个 系统 级 的 问题 。 一 个 特定 的 硬盘 驱动 器 的 
交叉 因子 取决 于 磁盘 控制 器 的 速度 、 主 板 的 时 钟 速度 、 与 控制 电路 相 
连 的 输出 总 线 的 操作 速度 等 。 如 果 磁 盘 的 交叉 因子 值 太 高 ， 就 需要 多 
伦 一 些 时 间 等 待 数据 在 磁盘 上 存 入 和 读 出 ) 相反 ， 交 又 因子 值 太 低 也 


同样 会 影响 性 能 。 


前 面 已 经 说 过 ， 系 统 在 磁盘 上 写 入 信息 时 ， 写 满 一 个 磁道 后 会 转 
到 同一 柱 面 的 下 一 个 磁头 ， 当 柱 面 写 满 时 ， 再 转向 下 一 柱 面 。 从 同一 
盘面 的 一 个 磁道 转 到 另 一 个 磁道 ， 也 就 是 从 一 个 柱 面 转 到 下 一 个 柱 
面 ， 这 个 动作 叫做 换 道 。 在 换 道 期 间 磁 盘 始 终 保持 旋转 ， 这 就 会 带 来 
一 个 问题 : 假定 系统 刚刚 结束 了 对 一 个 磁道 前 一 个 扇 区 的 写 入 ， 并 且 
已 经 设置 了 最 佳 交 叉 因 子 比 值 ， 现 在 准备 在 下 一 磁道 的 第 一 局 区 写 
入 ， 这 时 必须 等 到 磁头 换 道 结 束 ， 让 磁头 部 件 重 新 定位 在 下 一 道上 。 
如 果 这 种 操作 占用 的 时 间 超 过 了 一 点 ， 尽 管 是 交叉 存 取 ， 磁 头 仍 会 延 
人 述 到 达 。 这 个 问题 的 解决 办 法 是 以 原先 磁道 所 在 位 置 为 基准 ， 把 新 的 


磁道 上 全 部 扁 区 号 移动 约 一 个 或 几 个 扇 区 位 置 ， 这 就 是 磁头 扭 科 。 磁 
头 扭 斜 可 以 理解 为 柱 面 与 柱 面 之 间 的 交叉 因子 ， 已 经 由 生产 三 家 设置 
好 ， 一 般 不 用 去 改变 它 。 磁 头 扭 斜 的 更 改 比较 困难 ， 但 是 它们 只 在 文 
件 很 长 、 超 过 磁道 结尾 进行 读 出 和 写 入 时 才 发 挥 作 用 ， 所 以 扭 斜 设置 
不 正确 所 带 来 的 损失 比 采 用 不 正确 的 扇 区 交叉 因子 值 带 来 的 损失 要 小 \ 
得 多 。 交 叉 因 子 和 磁头 扭 斜 可 用 专用 工具 软件 来 测试 和 更 改 ， 更 具体 
的 内 容 这 里 就 不 再 详 述 了 ， 毕 竟 现 在 很 多 用 户 都 没有 见 过 这 些 参 数 。 


提示 : ， 最初， 硬盘 低级 格式 化 程序 只 是 行使 有 关 磁 盘 控 制 器 
的 专门 职能 来 完成 设置 任务 。 由 于 这 个 过 程 可 能 会 破坏 低级 
格式 化 的 磁道 上 的 全 部 数据 ， 现 在 也 极 少 采用 了 。 


扇 区 号 存储 在 扇 区 头 标 中 ， 局 区 交叉 因子 和 磁头 扭 斜 的 信息 也 存 
放 在 这 里 。 


扇 区 交叉 因子 由 写 入 到 扇 区 头 标 中 的 数字 设 定 ， 所 以 ， 每 个 磁道 
可 以 有 自己 的 交叉 因子 。 在 大 多 数 驱 动 器 中 ， 所 有 磁道 都 有 相同 的 区 
叉 因 子 。 但 有 时 因为 操作 上 的 原因 ， 也 可 能 导致 各 磁道 有 不 同 的 扇 区 
交叉 因子 。 比 如 在 交叉 因子 重 置 程序 工作 时 ， 由 于 断 电 或 人 为 中 断 就 
会 造成 一 些 磁 道 的 交叉 因子 发 生 了 改变 ， 而 另 一 些 磁 道 的 交叉 因子 没 
有 改变 。 这 种 不 一 致 性 对 计算 机 不 会 产生 不 利 影响 ， 只 是 有 最 佳 交 叉 
因子 的 磁道 要 比 其 他 磁道 的 工作 速度 更 快 。 


3.1.2 ”硬盘 控制 电路 简介 


了 解 了 磁盘 的 结构 之 后 ， 知 道 磁 盘 是 靠 磁性 子 来 存放 数据 的 ， 有 
会 问 : 一 个 磁性 子 到 底 是 什么 概念 ? 是 一 个 磁性 分 子 么 ? 不是， 这 
个 “ 子 ” 的 概念 是 指 一 个 区 域 ， 这 个 区 域 存在 若干 磁性 分 子 ， 这 些 分 子 


聚集 到 一 起 ， 直 到 磁头 可 以 感觉 到 它 的 磁性 为 止 。 所 以 和 磁带 一 样 ， 
磁 记 录 追 根 到 底 就 是 利用 线性 中 的 段 。 根 据 这 一 段 区 域 上 的 一 片 分 子 
是 N 极 还 是 S 极 ， 然 后 将 其 转换 成 电信 号 ， 也 就 产生 了 字 节 ， 从 而 记录 
了 数据 。 当 然 只 有 存储 介质 还 远 远 不 够 ， 要 让 数据 可 以 被 读 出 ， 被 写 
入 ， 还 要 有 足够 的 速度 和 稳定 性 满足 人 们 的 需求 ， 这 就 需要 配套 的 电 
路 了 。 


图 3-7 给 出 一 个 完整 详细 的 硬盘 电路 示意 框图 。 硬 盘 电路 由 14 个 癌 
分 组 成 。 


图 3-7 ”硬盘 控制 电路 示意 图 


Buffer Memory: 缓冲 区 存储 器 。 

Interface Controller: 接口 控制 器 。 

Micro-processor: 微 控 制 器 ， 缩 写 为 MCU。 
PRML : Partial-Response Maximum-Likelihood Read Channelo 
Timing ASIC: 时 间 控 制 专用 集成 电路 。 

Servo Demodulator: 伺服 解 调 器 。 

Digital Signal Processor (DSP) : 数字 信号 处 理 器 。 
Preamp; 预 放 大 器 。 

Positioning Driver: 定位 驱动 器 。 

VCM (Voice Coil Motor) : 音 圈 电动 机 。 

Magnetic Media Disk: 磁 介 质 盘 片 。 

Spindle Motor: 主轴 电机 。 

Spindle Driver: 主轴 驱动 器 。 

Read/Write Head: 读 / 写 磁头 。 


实际 电路 不 会 有 这 么 多 一 片 一 片 的 独立 心 片 ， 硬 盘 生 产 厂 家 在 设 
计 电 路 时 都 是 选取 高 度 集 成 的 IC 心 片 ， 这 样 既 减 小 了 体积 又 提高 了 可 
靠 性 。 当 然 这 也 正 是 心 片 厂商 努力 的 目标 。 


大 家 可 以 看 到 图 3-7 中 的 Spindle Driver 与 Positioning Driver 这 两 部 
分 用 虚线 圈 了 起 来 ， 并 且 标 注 了 Servo/MSC Controller Combination 字 
样 。 其 中 MSC 是 Motor Speed Control 的 缩写 ， 意 思 是 伺服 /电机 速度 控 
制 器 组 合 。 我 们 现在 能 看 到 的 硬盘 电路 板 中 就 有 这 样 一 块 合并 心 片 。 


3.1.3 ”磁盘 的 IO 单位 


到 此 ， 大 家 应 该 对 磁盘 的 构造 有 所 理解 了 。 和 磁盘 读 写 的 时 候 都 是 
以 局 区 为 最 小 寻 址 单位 的 ， 也 就 是 说 不 可 能 往 某 某 忆 区 的 前 半 部 分 写 
入 某 某 数据 。 一 个 扇 区 的 大 小 是 512B， 每 次 磁头 连续 读 写 的 时 候 ， 只 
能 以 局 区 为 单位 ， 即 使 一 次 只 写 了 一 个 字 节 的 数据 ， 那 么 下 一 次 就 不 
能 再 向 这 个 局 区 剩余 的 部 分 接着 写 入 ， 而 是 要 寻找 一 个 空 扇 区 来 写 。 


注意 : 对 于 磁盘 来 说 ， 一 次 磁头 的 连续 读 或 者 写 叫 做 一 次 
IO。 请 注意 这 里 的 措辞 :“ 对 于 磁盘 来 说 ”。 

提示 : 目前 4KB 大 小 扇 区 的 硬盘 已 经 发 布 。 因 为 操作 系统 的 
Page、 文 件 系统 的 Block 一 般 都 是 4KB 大 小 ， 所 以 硬盘 局 区 
512B 的 容量 一 直 为 业界 所 诈 病 。 将 局 区 容量 与 上 层 的 单位 匹 
配 ， 可 以 大 大 提高 效率 。 


IO 这 个 概念 ， 充 分 理解 就 是 输入 输出 。 我 们 知道 从 最 上 层 到 最 下 
层 ， 层 次 之 间 存 在 着 太 多 的 接口 ， 这 些 接口 之 间 每 次 交互 都 可 以 称 做 
一 次 IO0， 也 就 是 广义 上 的 IO。 比 如 卷 管理 程序 对 磁盘 控制 器 驱动 程序 


API 所 作 的 ID， 一 次 这 种 IO 可 能 要 产生 针对 磁盘 的 N 个 IO， 也 就 是 说 上 
层 的 IO 是 稀 跑 的、 简单 的 ， 越 往 下 层 走 越 密集 、 越 复杂 。 


除了 卷 管理 程序 之 外 ， 凌 驾 于 卷 管理 之 上 的 文件 系统 对 卷 的 IO， 
就 比 卷 更 稀 跪 简单 了 。 同 样 ， 上 层 应 用 对 文件 系统 API 的 IO 更 加 简 
单 ， 只 需 几 句 代码 、 几 个 调用 就 可 以 了 。 比 如 Open () 某 个 文件 ， 
Seek () 到 某 个 位 置 ，Write () 一 段 数据 ，Close () 这 个 文件 等 ， 就 
是 一 次 IO。 而 就 是 这 一 次 IO， 可 能 对 应 文件 系统 到 卷 的 N 个 IO， 对 应 
卷 到 控制 器 驱动 的 NxN 个 IO， 对 应 控制 器 对 最 终 磁 盘 的 NxNxN 个 IO。 
总 之 ， 磁 盘 一 次 IO 就 是 磁头 的 一 次 连续 读 或 者 写 。 而 一 次 连续 读 或 者 
与 的 过 程 ， 不 管 读 写 了 几 个 扇 区 ， 扇 区 剩余 部 分 均 不 能 再 使 用 。 这 无 
疑 是 比较 浪费 的 ， 但 是 没有 办 法 ， 总 得 有 个 最 小 单位 。 


关于 最 小 单位 一 一 龟 免 赛跑 悖 论 


龟 在 兔子 前 面 100 米 ， 免 子 的 速度 是 龟 的 10 倍 。 龟 对 兔子 说 :“ 我 
们 同时 起 跑 ， 你 沿 直 线 追 我 ， 你 永远 也 追 不 上 我 。” 这 个 结论 猛 一 看 ， 
会 觉得 荒唐 至 极 ! 可 是 龟 分 析 了 : “兔子 跑 到 100 米 我 当前 的 位 置 时 ， 
我 同时 也 向 前 跑 了 10 米 。 然 后 兔子 跑 了 10 米 的 时 候 ， 而 我 同时 也 向 前 
跑 了 1 米 。 它 再 追 1 米 ， 而 我 又 跑 了 0.1 米 。 依 此 类 推 ， 免 子 永 远 追 不 上 
我 。 大 家 看 到 这 里 就 糊涂 了 ， 这 么 一 分 析 确 实 是 追 不 上 ， 但 事实 却 是 
能 追 上 。 那 么 问题 出 在 哪里 呢 ? 


假如 兔子 的 速度 是 每 秒 100 米 ， 龟 的 速度 每 秒 10 米 。 首 先 兔子 追 出 
100 米 时 ， 用 时 1 秒 ， 此 时 龟 在 兔子 前 方 10 米 处 。 然 后 兔子 再 退出 10 
米 ， 用 时 0.1 秒 ， 此 时 龟 在 前 方 1 米 处 。 接 着 兔子 再 追 出 1 米 ， 用 时 0.01 
秒 ， 学 过 小 学 算术 的 人 都 能 算出 来 ， 免 子 掉 入 了 一 个 无 限 循环 小 数 
中 ， 什 么 时 候 结 束 了 循环 ， 才 能 追 上 龟 。 那 么 这 就 悖 论 了 ， 小 数 是 无 


限 循环 的 ， 这 到 底 是 多 少 秒 呢 ? 如 果 时 间 可 以 以 无 限 小 的 单位 延伸 ， 
那么 兔子 确实 永远 也 仍 不 上 龟 。 虽 然 时 间 确 实 是 连续 的 ， 时 间 没 有 理 
由 不 连续 ， 时 间 是 一 个 思想 中 的 概念 ， 时 间 不 是 物质 ， 所 以 时 间 是 唯 
一 能 连续 的 东西 ， 既 然 时 间 是 无 限 的 、 连 续 的 ， 那 么 兔子 按理 说 追 不 
上 人 包 了 ， 但 是 事实 确实 能 追 上 ， 但 有 一 个 元 素 我 们 忽略 了 ， 它 就 是 长 
度 的 最 小 单位 ! 仔细 分 析 一 下 ， 时 间 和 长 度 是 对 应 的 ， 时 间 可 以 无 限 
小 ， 那 么 这 个 无 限 小 的 时 间 也 应 该 对 应 无 限 小 的 长 度 ， 这 样 悖 论 到 这 
里 就 解决 了 ! 因为 存在 一 个 长 度 的 最 小 单位 ， 而 没有 无 限 小 ! 也 就 是 
说 ， 当 免 子 走 的 长 度 是 最 小 长 度 时 龟 就 黔 驴 技 穷 了 ， 因 为 不 可 能 再 行 
走 比 这 长 度 更 小 的 距离 了 ， 那 么 兔子 自然 就 超过 了 龟 。 而 这 个 时 间 是 
很 短暂 的 ， 它 发 生 在 有 限时 间 点 上 。 至 于 这 个 最 小 长 度 ， 据 说 有 人 计 
算出 来 了 ， 它 可 能 是 一 个 原子 的 长 度 ， 也 可 能 比 这 还 小 。 目 前 看 来 ， 
我 们 移动 的 时 候 ， 最 小 似乎 也 不 可 能 移动 半 个 原子 的 距离 ! 


之 诡 悖 论 〈 龟 免 赛 跑 悖 论 ) 证 明了 ， 对 于 我 们 目前 可 观察 到 的 世 
界 来 说 ， 是 有 一 个 最 小 距离 单位 的 。 如 果 我 们 以 这 个 结论 为 前 提 ， 就 
可 以 推翻 芝 诺 悖 论 了 。 假 设 这 个 距离 最 小 单位 是 一 块 石头 的 长 度 。 开 
台 ， 免 子 在 乌龟 后 面相 隔 2 块 石 头 的 距离 ， 同 样 兔子 的 速度 是 乌龟 的 2 
音 ， 按 照 量 子 距离 理论 ， 这 个 2 倍速 度 ， 不 是 无 限 可 分 的 ， 那 么 我 们 表 
达 这 个 2 倍速 的 时 候 ， 应 该 这 么 说 : 兔子 每 前 进 2 块 石头 的 时 间 ， 马 龟 
只 能 前 进 一 块 石 头 的 距离 ， 而 不 可 能 前 进 半 块 石头 。 这 样 的 前 提 下 ， 
连 小 学 生 都 可 以 计算 兔子 何 时 追赶 上 乌龟 了。 


3.2 ”磁盘 的 通俗 演绎 


想象 一 张 很 大 很 大 的 白 纸 ， 你 要 在 上 面 写 日 记 。 当 你 写 满 这 张 白 
纸 之 后 ， 如 果菜 天 想 查 看 某 条 日 记 ， 无 颖 将 是 个 口 梦 ， 因 为 日 级 上 冯 


有 任何 格子 或 行 分 割 线 等 ， 你 只 能 通过 一 行 一 行 地 读 取 日 记 ， 搜 索 你 
要 查看 的 那 条 记录 。 如 果 给 日 纸 打 上 格子 或 行 分 割 线 ， 那 么 不 但 书写 
起 来 不 会 凌乱 ， 而 且 还 工整 。 


那么 对 于 一 张 上 面 布 满 磁性 介质 的 盘 片 来 说 ， 想 要 在 它 上 面 记录 
数据 ， 如 果 不 给 它 打 格子 划 线 的 话 ， 无 疑 就 无 法 达到 块 级 的 记录 。 所 
以 在 使 用 之 前 ， 需 要 将 其 低级 格式 化 ， 也 就 是 划分 扁 区 (格子 ， 。 我 
们 见 过 稿约 ， 上 面 的 格子 是 方形 阵列 排 布 的 ， 原 因 很 简单 ， 因 为 稿 纸 
是 方形 的 。 那 么 对 于 圆 形 来 说 ， 格 子 应 该 怎么 排 布 呢 ? 答案 是 同心 圆 
排 布 ， 一 个 同心 圆 (磁道 ) ， 就 类 似 于 稿约 上 的 一 行 ， 而 这 一 行 之 内 
又 可 以 排列 上 很 多 格子 ( 扇 区 ) 。 每 个 盘 片上 的 行 密度 、 每 行 中 的 格 
子 《局 区 ) 密度 都 有 标准 来 规定 ， 就 像 稿 纸 一 样 。 


我 们 把 稿 纸 放 入 打印 机 。 打 印 机 的 打印 头 按 照 格 子 的 距离 精确 地 
做 着 位 移 ， 并 不 停 地 喷 出 墨水 ， 将 字体 打 入 纸张 上 的 格子 里 。 一 旦 一 
行 打 满 ， 走 纸 轮 精确 地 将 稿 纸 位 移 到 下 一 行 ， 打 印 头 在 这 一 行 上 水 平 
位 移 打 满 格子 。 走 纸 轮 竖 直 方向 位 移 ， 打 印 头 水 平方 向 位 移 ， 形 成 了 
方形 扫描 阵列 ， 能 够 定位 到 整 张 纸 上 的 每 个 格子 。 


同样 ， 把 圆 形 盘 片 安装 到 一 个 电机 ( 走 纸 轮 ) 上 ， 然 后 在 盘 片 上 
方 加 一 个 磁头 (打印 喷头 ) 。 但 是 和 打印 机 不 同 的 是 ， 做 换行 这 个 动 
作 不 是 由 走 纸 轮 来 完成 ， 而 是 由 磁头 来 完成 ， 称 做 径 (半径 ) 向 扫 
描 ， 也 就 是 在 不 同 同心 辆 上 作 切 换 (换行 。 同 样 作 行内 扫描 这 个 动 
作 是 由 电机 ( 走 纸 轮 ) 而 不 是 磁头 (打印 头 ) 来 完成 ， 称 做 线 扫 描 
沿 着 同心 圆 的 圆周 进行 扫描 ) 。 


形成 这 种 角色 倒置 的 原因 ， 很 显然 是 由 圆 形 的 特殊 性 决定 的 。 作 
圆周 运动 毕竟 比 作 水 平 怪 直 运 动 要 复杂 ， 如 果 让 磁头 沿 着 同心 圆 作 线 


扫描 ， 则 需要 将 磁头 放 在 一 个 可 以 旋转 的 部 件 上 ， 此 时 磁头 动 而 盘 片 
不 动 ， 可 以 达到 相同 的 目的 ， 但 是 技术 难度 就 复杂 多 了 。 因 为 磁头 上 
有 电路 连接 着 磁头 和 忌 片 。 如 果 让 磁头 高 速 旋转 ， 磁 头 动 而 已 片 不 
动 ， 电 路 的 连通 性 怎么 保证 ? 不 如 让 盘 片 转动 来 得 干脆 利索 。 


和 打印 机 一 样 ， 定 位 到 某 个 特定 的 格子 之 后 ， 磁 头 开始 用 磁性 来 
对 这 个 格子 中 的 每 个 磁 粒 子 区 做 磁化 操作 ， 每 个 磁极 表示 一 个 0 或 者 1 
状态 。 每 个 格子 规定 可 以 存放 4096 位 这 种 状态 ， 也 就 是 512B (很 多 供 
大 型 机 使 用 的 磁盘 阵列 上 的 磁盘 是 用 520B 为 一 个 扇 区 ) 。 这 就 像 打 印 
机 在 一 个 格子 再 次 细 分 ， 形 成 24x24 点 阵 ， 每 个 坐标 上 的 一 个 点 都 对 
应 一 种 色彩 。 只 不 过 对 于 磁盘 来 说 只 有 0 或 者 1， 而 对 于 打印 机 来 说 ， 
可 以 是 各 种 色彩 中 的 一 种 (黑白 打印 机 也 只 有 黑 或 者 白 两 种 状态 ) 。 


磁盘 的 矶 区 中 没有 点 阵 ， 一 个 扁 区 可 以 看 作 是 线性 的 。 它 没 
宽 ， 只 有 长 ， 记 录 是 顺序 的 ， 不 能 像 打印 机 那样 可 以 定位 到 扇 区 中 的 
某 个 点 。 然 而 ， 磁 盘 比 打 印 机 有 先天 的 优势 。 打 印 机 只 能 从 头 到 尾 打 
印 ， 而 且 打 印 之 后 不 能 更 改 。 磁 盘 却 可 以 对 任意 的 格子 进行 号 入 、 读 
取 和 更 改 等 操作 。 打 印 机 的 走 纸 轮 和 打印 喷头 移动 起 来 很 慢 ， 而 且 嘎 
嘎 作 响 ， 听 了 都 费劲 。 而 磁盘 的 转速 则 快 很 多 ， 目 前 可 以 达到 每 分 钟 
15000 转 。 磁 头 的 位 移动 作 也 非常 快 ， 它 使 用 步 进 电机 来 精确 地 换行 
( 换 磁 道 ) 。 但 是 相对 于 盘 片 的 转动 而 言 ， 步 进 的 速度 就 慢 多 了 ， 所 
以 制约 磁盘 性 能 的 主要 因素 就 是 这 个 步 进 速度 (换行 或 者 换 道 速 
度 ) ， 也 就 是 寻 道 速度 。 


如 果 从 最 内 同心 圆 换 到 最 外 同心 圆 ， 耗 费 的 时 间 无 疑 是 最 长 的 。 
目前 磁盘 的 平均 寻 道 速度 最 高 可 以 达到 5ms 多 ， 不 同 磁 盘 的 寻 道 速度 
不 同 ， 普 通 IDE 磁 盘 可 能 会 超过 10ms。 有 了 这 个 磁盘 记录 模型 ， 我 们 
就 该 研究 怎么 将 这 个 模型 抽象 虚拟 化 出 来 ， 让 向 磁盘 写 数据 的 人 感觉 


使 用 起 来 非常 方便 。 就 像 打 印 机 一 样 ， 点 一 下 打印 ， 一 会 纸 就 足 足 地 
往外 冒 。 下 面 还 是 要 一 层 一 层 地 来 做 ,不 能 直接 就 抽象 到 这 么 高 的 层 


次 。 


首先 ， 要 精确 寻 址 每 个 格子 就 一 定 需要 给 每 个 格子 一 个 地 址 。 早 
期 的 磁盘 都 是 用 “ 盘 片 ， 磁 道 ， 扇 区 ”来 寻 址 的 ， 一 个 磁盘 盒子 中 可 能 
不 止 一 片 盘 片 ， 就 像 一 当 稿 纸 中 有 好 几 张 纸 一 样 。 一 个 盘 片上 的 某 一 
“ 行 ” 也 就 是 某 个 磁道 ， 应 该 可 以 再 区 分 。 一 个 磁道 上 的 某 个 局 区 也 可 
以 区 分 。 到 这 ， 就 是 最 终 可 寻 址 的 最 小 单位 了 ， 而 不 能 再 精确 定位 到 
一 个 扇 区 中 的 某 个 点 了 。 磁头 只 能 顺序 地 写 入 或 者 读 取出 这 些 点 ， 而 
不 能 只 更 新 或 者 读 取 其 中 某 个 点 。 也 融 是 说 磁头 只 能 一 次 成 批 写 入 或 
者 读 取出 一 个 局 区 的 内 容 ， 而 不 能 读 写 半 个 或 者 四 分 之 一 个 扇 区 的 内 
容 。 

后 来 的 局 区 寻 址 体系 变 了 ， 因 为 后 来 的 磁盘 中 每 个 磁道 的 局 区 数 
目 不 同 了 ， 外 圈 由 于 周 长 比 较 长 ， 所 以 容纳 的 局 区 可 以 很 多 , 干脆 采 
用 了 逻辑 地 址 来 对 每 个 扇 区 编 址 ， 将 具体 的 盘 片 、 磁 道 和 局 区 ， 抽 象 
成 LBA (Logical Block Address， 顺 序 编 址 ) 。LBA1 表 示 0 号 盘 片 0 号 
磁道 的 0 号 扇 区 ， 依 此 类 推 ，LBA 地 址 到 实际 的 盘 片 、 磁 道 和 扇 区 地 址 
的 映射 工作 由 磁盘 内 部 的 逻辑 电路 来 查询 ROM 中 的 对 应 表 而 得 到 ， 这 
样 就 完成 了 物理 地 址 到 逻辑 地 址 的 抽象 、 虚 拟 和 映射 。 


寻 址 问题 解决 之 后 ， 就 应 该 考虑 怎么 向 磁盘 发 送 需 要 写 入 的 数据 
了 。 针 对 这 个 问题 ， 人 们 抽象 出 一 套 接口 系统 ， 专 门 用 于 计算 机 和 其 
外 设 交互 数据 ， 称 为 SCSI 接 口 协 议 ， 即 小 型 计算 机 系统 接口 。 


下 面 举 个 例子 来 说 明 ， 比 如 某 时 刻 要 向 磁盘 写 入 512B 的 数据 ， 磁 
盘 控 制 器 先 向 磁盘 发 一 个 命令 ， 表 明 要 准备 做 IO 操作 了 ， 而 且说 明了 


附带 参数 〈 是 否 启用 磁盘 缓存 、 完 成 后 是 否 中 断 通知 CPU 等 ) ， 磁 盘 
应 答 说 可 以 进行 ， 控 制 器 立即 将 所 要 IO 的 类 型 〈 读 / 写 ) 和 局 区 的 起 始 
地 址 以 及 随后 扇 区 的 数量 〈 长 度 ) 发 送 给 磁盘 ， 如 果 是 写 IO， 则 随后 
还 要 将 需要 写 入 的 数据 发 送 给 磁盘 ， 磁 盘 将 这 块 数据 顺序 写 入 先前 通 
告 的 局 区 中 。 


提示 : 新 的 SCSI 标 准 中 有 一 种 促进 IO 效率 的 新 的 方式 ， 即 
Skip Mask IO 模式 。 如 果 有 两 个 IO0， 二 者 IO 的 目标 扇 区 段 被 
隔 开 了 一 小 段 ， 比 如 第 一 个 写 IO 的 目标 为 从 1000 开 始 的 随后 
128 局 区 ， 第 二 个 写 IO 的 目标 则 为 1500 开 始 的 随后 128 局 区 ， 
可 以 合并 这 两 个 IO 为 一 个 针对 1000 开 始 的 随后 628 个 局 区 的 
IO。 控 制 器 将 这 条 指令 下 发 到 磁盘 之 后 ， 还 会 立即 发 送 一 个 
Mask 帧 ， 这 个 帧 中 包含 了 一 串 比 特 流 ， 每 一 位 表示 一 个 局 
区 ， 此 位 为 1， 则 表示 进行 该 扇 区 的 IO， 为 0， 则 表示 跨 过 此 
书 区 ， 不 进行 IO0。 这 样 ， 多 了 这 串 很 小 的 比特 流 ， 却 能 省 下 
一 轮 额 外 的 IO 开销 。 

SCSI 接 口 完 成 了 访问 磁盘 过 程 的 虚拟 化 和 抽象 ， 极 大 的 简化 
了 访问 磁盘 的 过 程 ， 它 屏蔽 了 磁盘 内 部 结构 和 逻辑 ， 使 得 控 
制 器 只 知道 LBA 是 一 个 房间 ， 有 什么 数据 就 给 出 地 址 ， 然 后 
磁盘 就 会 将 数据 写 入 这 个 地 址 对 应 的 房间 ， 读 取 操 作 也 一 
样 。 


3.3 ”人 磁盘 相关 高 层 技 术 
3.3.1 ”磁盘 中 的 队列 技术 


想象 有 一 个 包含 10000 个 同心 圆 的 转盘 在 旋转 ， 现 在 有 两 个 人 在 转 
盘 外 面 ， 有 一 个 机 械 手 臂 可 以 将 物体 放 到 任何 一 个 同心 圆 上 去 。 现 


在 ， 第 一 个 人 想到 半径 最 小 的 同心 加 上 去 ， 而 另外 一 个 人 却 想到 半径 
最 大 的 同心 国 上 去 ， 这 可 让 机 械 手 壁 犯 了 难 ， 机 械 手 筑 只 能 按照 顺 
序 ， 先 照顾 第 一 个 人 的 要 求 。 它 首先 寻 道 到 最 内 侧 同心 圆 ， 然 后 转盘 
旋转 到 待定 位 置 后 将 这 个 人 放 到 轨道 上 ， 随 后 立即 驱动 磁头 臂 到 最 外 
侧 的 圆 ， 再 将 第 二 个 人 放 上 去 。 这 期 间 的 主要 时 间 都 用 于 从 内 侧 到 外 
侧 的 换 道 过 程 了 ， 非 常 浪费 。 


这 只 是 两 个 人 的 情况 ， 那 么 如 果 有 多 个 人 ， 比 如 3 个 人 先后 告诉 机 
械 手 臂 ， 第 一 个 人 说 要 放 到 最 内 侧 的 圆 上 ， 第 二 个 人 说 要 放 到 最 外 侧 
的 圆 上 ， 第 三 个 人 要 放 到 最 内 侧 的 圆 上 。 


如 果 这 时 候 机 械 手 臂 还 是 按照 顺序 来 操作 ， 那 么 中 间 就 会 多 了 一 
次 无 谓 的 换 道 操 作 ， 极 其 浪费 。 所 以 机 械 手 辟 自作 主张 ， 在 送 完 第 一 
个 人 后 ， 它 没有 立即 处 理 第 二 个 人 的 请 求 ， 而 是 在 脑海 中 算计 ， 它 看 
第 三 个 人 也 要 求 到 内 侧 圆 上 ， 而 它 自己 此 时 也 恰好 正在 内 侧 圆 上 ， 何 
不 趁 此 撒 带 第 三 个 人 呢 ? 所 以 磁头 跳 过 第 二 个 人 的 请 求 ， 先 把 第 三 个 
人 送 到 目的 地 ， 然 后 再 换 道 送 第 二 个 人 。 


因为 磁头 算计 用 的 时 间 比 来 回 换 道 快 得 多 ， 所 以 这 种 排队 技术 大 
大 提高 了 读 写 效率 。 这 种 例子 还 有 很 多 ， 比 如 电梯 就 是 个 很 好 的 例 
子 。 实 现 队列 功能 的 程序 控制 代码 是 存放 在 磁盘 控制 电路 芯片 中 的 ， 
而 不 是 主板 上 的 磁盘 控制 器 上 。 也 就 是 说 ， 由 控制 器 发 给 磁盘 指令 ， 
然后 由 磁盘 自己 的 DSP 固 化 电路 或 者 由 磁盘 上 的 微 处 理 器 载 入 代码 从 
而 执行 指令 排队 功能 。 


但 是 一 个 巴掌 拍 不 响 ， 排 队 必须 也 要 由 磁盘 控制 器 来 支持 ， 所 谓 
的 支持 就 是 说 ， 如 果 磁 盘 擅 自 排 队 ， 不 按照 控制 器 发 送 过 来 的 顺序 一 
条 一 条 执行 指令 ， 则 在 读 出 数据 之 后 ， 由 于 步调 和 控制 器 期 望 的 不 一 


致 ， 预 先 读 出 的 数据 只 能 先 存 放 到 磁盘 驱动 器 的 缓存 中 ， 等 待 控制 器 
主动 来 取 。 因 为 控制 器 给 磁盘 发 送 的 读 写 数据 的 指令 ， 有 可 能 是 有 先 
后 顺序 的 ， 如 果 磁 盘 擅 自 做 了 排队 ， 将 后 来 发 送 的 指令 首先 执行 ， 那 
么 读 出 的 数据 就 算 传送 给 了 磁盘 控制 器 ， 也 会 造成 错乱 。 


所 以 ， 要 实现 排队 技术 ， 仅 仅 有 磁盘 驱动 器 自身 是 不 够 的 ， 还 必 
须 在 磁盘 控制 器 〈 指 主板 上 的 磁盘 控制 ， 而 不 是 磁盘 本 身 的 控制 电 
路 ) 电路 中 固化 代码 处 理 排 队 ， 和 磁盘 达成 一 致 。 或 者 不 使 用 固化 代 
码 方式 ， 而 是 修改 磁盘 控制 器 驱动 程序 ， 加 入 处 理 排 队 的 功能 从 而 配 
合 磁 盘 驱 动 器 。 


提示 : Intel 在 WinHEC 2003 会 议 上 发 布 了 高 级 主机 控制 器 接 
口 0.95 版 规范 ( Advanced Host Controller Interface ， 
AHCI) ， 为 驱动 程序 和 系统 软件 提供 了 发 现 并 实施 命令 队 
列 、 热 插 拔 及 电源 管理 等 高 级 SATA 功 能 的 标准 接口 。 这 个 接 
口 就 是 在 新 的 控制 器 硬件 之 上 的 驱动 层面 提供 一 层 接口 ， 解 
决 了 磁盘 控制 器 不 支持 硬盘 驱动 器 自身 的 排队 这 个 问题 。 


3.3.2 无 序 传输 技术 


还 有 一 种 提高 磁盘 性 能 的 技术 ， 叫 做 无 序数 据 传 输 。 也 就 是 说 ， 
控制 器 发 出 一 条 指令 要 求 读 取 某 些 扇 区 中 的 内 容 ， 磁 盘 可 以 不 从 数据 
所 在 的 初始 局 区 开始 读 ， 而 是 采取 就 近 原 则 。 比 如 ， 磁 头 恰好 处 于 待 
读 取 数 据 的 尾部 ， 此 时 如 果 等 待 磁盘 旋转 到 磁头 位 于 这 块 数据 的 头 音 
时 磁头 才 开 始 读 ， 那 么 就 要 等 一 圈 时 间 ， 也 就 是 所 谓 的 “旋转 延迟 ”， 
时 间 就 被 白白 地 瀛 费 了 。 如 果 磁头 按照 能 读 多 少 先 读 多 少 的 原则 ， 在 
尾部 时 就 先 读 出 尾部 的 数据 ， 然 后 立即 发 给 控制 器 ， 控 制 器 立即 通过 
DMA 将 数据 放 到 内 存 ， 等 磁盘 转 到 数据 块头 部 时 再 读 出 剩余 的 部 分 发 


给 控制 器 ， 这 样 就 避免 了 时 间 的 浪费 。 然 而 ， 这 种 技术 同样 也 要 由 磁 
盘 控 制 器 来 支持 ， 或 是 通过 控制 器 硬件 ， 或 是 通过 驱动 程序 。 


通过 指令 排队 和 无 序 传送 可 以 最 大 化 利用 磁盘 资源 。 也 就 是 ， 把 
厅 烦 留 给 控制 器 ， 把 简单 留 给 磁盘 。 因 为 控制 器 的 处 理 速度 永远 比 磁 
盘 的 机 械 和 运动 快 。 


3.3.3 ” 几 种 可 控 磁 头 扫 描 方式 概论 


假设 目前 磁盘 控制 器 的 队列 中 存在 如 下 的 一 些 IO， 这 些 IO 所 需要 
查找 的 磁道 号 码 按照 先后 排列 顺序 为 98、183、37、122、14、124、65 
和 67， 而 当前 磁头 处 于 53 号 磁道 ， 磁 头 执行 寻 道 操作 有 以 下 几 种 模 
Fy 


1. FCFS (First Come First Serve) 


在 FCFS 模 式 下 ， 磁 头 完全 按照 IO 进入 的 先后 顺序 执行 寻 道 操作 ， 
即 从 53 号 磁道 跳 到 98 号 ， 然 后 到 183 号 ， 再 回 到 37 号 ， 依 此 类 推 。 可 以 
算出 在 这 个 例子 中 ， 此 模式 下 磁头 滑 过 的 磁道 总 数 为 640。 对 应 的 扫描 
图 如 图 3-8 所 示 。 


图 3-8 FCFS 模 式 扫描 图 
显然 ，FCFS 模 式 很 不 科学 ， 在 随机 IO 的 环境 中 严重 影响 IO 效率 。 
2. SSTF (Shortest Seek Time First) 


在 SSTF 模 式 下 ， 控 制 器 会 优先 让 磁头 跳 到 离 当 前 磁头 位 置 最 近 的 
一 个 IO 磁道 去 读 写 ， 读 写 完 毕 后 ， 再 次 跳 到 离 刚 读 写 完 的 这 个 磁道 最 


近 的 一 个 IO 磁道 去 读 写 ， 依 此 类 推 。 在 SSTF 模 式 下 ， 这 个 例子 呈现 的 
扫描 图 如 图 3-9 所 示 。 


图 3-9 ”SSTF 模 式 扫 描 图 


本 例 中 ， 磁 头 初 始 位 置 在 53 号 磁道 ， 如 果 此 时 IO 队列 中 不 断 有 位 
于 53 号 磁道 周围 磁道 的 IO 进入 ， 比 如 55 号 、50 号 、51 号 磁道 等 ， 那 么 
诸如 183 号 这 种 离 53 号 磁道 较 远 的 IO 将 会 被 饿 死 ， 永 远 也 轮 不 到 183 号 
磁道 的 IO。 所 以 SSTF 模 式 的 限制 也 是 很 大 的 。 


3。. SCAN (回旋 扫描 模式 ) 


这 种 扫描 方式 是 最 传统 、 最 经 “图 ?10 SCAN 模式 扫描 图 

典 的 方式 了 。 它 类 似 于 电梯 模型 ， 

从 一 端 到 另 一 端 ， 然 后 折返 ， 再 折返 ， 这 样 循环 下 去 。 磁 头 从 最 内 侧 
磁道 依次 向 外 圈 磁 道 寻 道 。 然 而 就 像 电 梯 一 样 ， 如 果 这 一 层 没 有 人 等 
待 搭乘 ， 那 么 磁头 就 不 在 本 层 停 止 。 也 就 是 说 如 果 当 前 队列 中 没有 某 
个 磁道 的 IO 在 等 待 ， 那 么 磁头 就 不 会 跳 到 这 个 磁道 上 ， 而 是 直接 略 过 
去 。 但 是 SCAN 模 型 中 ， 即 使 最 外 圈 或 者 最 内 圈 的 磁道 没有 IO ， 磁 头 
也 要 触及 到 之 后 才能 折返 ， 这 就 像 50 米 往返 跑 一 样 ， 必 须 触 及 到 终点 
线 才 能 折返 回去 。SCAN 模 式 的 扫描 图 如 图 3-10 所 示 。 


SCAN 模 式 不 会 饿 死 任何 IO， 每 个 I0 都 有 机 会 搭乘 磁头 这 个 电 
梯 。 然 而 ，SCAN 模 式 也 会 之 来 不 必要 的 开销 ， 因 为 磁头 从 来 不 会 在 
中 途 折返 ， 而 只 能 触及 到 终点 之 后 才能 折返 。 如 果 磁 头 正 从 中 间 磁 道 
向 外 图 移动 ， 而 此 时 队列 中 进入 一 个 内 圈 磁 道 的 IO， 那 么 此 时 磁头 并 
不 会 折返 ， 即 使 队列 中 只 有 这 一 个 IO。 这 个 IO 只 能 等 待 磁头 触及 最 外 
圈 之 后 折返 回来 被 执行 。 


4. C-SCAN ( 单 向 扫描 模式 ) 


在 C-SCAN 模 式 中 磁头 总 是 从 内 圈 向 外 圈 扫 摘 ， 达 到 外 圈 之 后 迅 
速 返回 内 图 ， 返 回 途 中 不 接受 任何 IO ， 然 后 再 从 内 圈 向 外 圈 扫 描 。C- 
SCAN 模 式 的 扫描 图 如 图 3-11 所 示 。 


图 3-11 C-SCAN 模 式 扫描 图 


5. LOOK (智能 监察 扫描 模式 ) 和 C-LOOK (智能 监察 单 向 扫 
描 模 式 ) 


LOOK 模 式 相 对 于 SCAN 模 式 的 区 别 在 于 ， 磁 头 不 必 达 到 终点 之 后 
才 折 返 ， 而 只 要 完成 最 两 端的 IO 即 可 折返 。 同 样 ，C-LOOK 也 是 一 样 
的 道理 ， 只 不 过 是 单 向 扫描 。 图 3-12 所 示 的 是 C-LOOK 模 式 的 扫描 
冬 。 


图 3-12”C-LOOK 模 式 扫描 图 


提示 : 关于 几 种 扫描 模式 的 选择 : 总 地 说 来 ， 在 负载 不 高 的 
情况 下 ，SSTF 模 式 可 以 获得 最 佳 的 性 能 。 但 是 鉴于 可 能 造成 
某 些 较 远 的 IO 钱 死 的 问题 ， 所 以 在 高 负载 条 件 下 ，SCAN 或 
者 C-SCAN、C-LOOK 模 式 更 为 合适 。 


在 大 量 随机 IO 的 情况 下 ， 磁 盘 的 磁头 辟 会 像 蜜蜂 刻 膀 一 样 振 动 ， 
当然 它们 的 频率 可 能 相差 很 大 ， 但 是 用 肉眼 观察 的 话 ， 磁 头 臂 确实 会 
像 琴 弦 一 样 摆动 ， 频 率 是 比较 高 的 。 大 家 可 以 去 Internet 上 搜索 一 下 磁 
盘 寻 道 的 一 个 视频 ， 来 增强 感 观 认识 。 


3.3.4 ”关于 磁盘 缓存 


磁盘 上 必须 有 缓存 ， 用 来 接收 指令 和 数据 ， 还 被 用 来 进行 预 读 。 
磁盘 缓存 时 刻 处 于 打开 状态 。 有 很 多 文档 资料 上 提 到 某 些 情况 下 可 以 
“禁用 ”磁盘 缓存 ， 这 是 容易 造成 误解 的 说 法 。 缓 存在 磁盘 上 就 表现 为 
一 块 电路 板 上 的 RAM 心 片 ， 目 前 有 2MB、8MB、16MB、32MB、 
64MB 等 容量 规格 。 所 谓 “ 禁 用 ”磁盘 缓存 指 的 其 实 是 本 书 第 5 章 中 描述 
的 Write Through 模 式 ， 即 磁盘 收 到 写 入 指令 和 数据 后 ， 必 须 先 将 其 写 
入 盘 片 ， 然 后 才 向 控制 器 返回 成 功 信 号 ， 这 样 就 相当 于 “禁用 ”了 组 
存 。 但 是 实际 上 ， 指 令 和 数据 首先 到 达 的 一 定 是 缓存 。 


SCSI 指 令 中 有 两 个 参数 可 以 控制 对 磁盘 缓存 的 使 用 。 


(1) DPO (Disable Page Out) : 这 个 参数 的 作用 是 禁止 缓存 中 
的 数据 页 (缓存 中 的 数据 以 页 为 单位 存在 ) 被 换 出 。 不 管 读 还 是 写 ， 
被 置 了 这 个 参数 位 的 数据 在 缓存 空间 不 够 的 时 候 不 能 覆盖 缓存 中 的 其 
他 数据 ， 也 就 是 不 能 将 其 他 数据 换 出 。 


(2) FUA (Force Unit Access) : 这 个 参数 的 作用 是 强制 盘 片 访 
问 。 对 于 写 操 作 ， 磁 盘 必 须 将 收 到 的 数据 写 入 盘 片 才 返 回 成 功 信号 ， 
也 就 是 进行 Write Through。 对 于 读 操作 ， 磁 盘 收 到 指令 后 ， 直 接 去 盘 
片上 读 取 数据 ， 而 不 搜索 缓存 。 


所 以 ， 当 某 个 SCSI 指 令 的 DPO 和 FUA 两 个 参数 的 值 都 被 设置 为 1 
时 ， 便 相当 于 完全 不 使 用 缓存 的 提速 功能 了 ， 但 是 指令 和 数据 依然 会 
到 达 缓 存 中 ， 这 一 点 需要 分 清和 理解 。 


目前 基于 SCSI 指 令 的 磁盘 比如 SCSVFC/SAS 等 都 支持 FUA 和 
DPO。 对 于 基于 ATA 指 令 的 IDE/SATA/USB-SATA/USB-IDE 等 ， 尚 不 支 


持 这 两 个 功能 位 ， 有 另外 的 函数 来 绕 过 缓存 。 比 如 在 windows 系 统 
中 ， 可 以 使 用 下 列 函 数 来 控制 磁盘 缓存 的 行为 : 


typedef struct DISK CACHE INFORMATION {} 


BOOLEAN ParametersSavable; 
BOOLEAN ReadCacheEnabled; 
BOOLEAN WriteCacheEnabled; 


DISK_CACHE_RETENTION PRIORITY ReadRetentionpPriority; 
DISK_CACHE_ RETENTION_ PRIORITY WriteRetentionpriority; 
WORD 
DisablePrefetchTransferLength,; 
BOOLEAN PrefetchScalar; 
union { 
struct { 
WORD Minimum; 
WORD Maximum; 
WORD MaximumBlocks; 
} ScalarPrefetch; 
struct { 
WORD Minimum; 
WORD Maximum; 
} BlockPrefetch; 
}，; 
} DISK CACHE INFORMATION, *PDISK CACHE INFORMATION; 


一 次 性 禁用 磁盘 写 缓存 也 是 可 以 的 ， 通 过 调用 操作 系统 提供 的 一 
些 接口 即 可 实现 ， 操 作 系 统 会 利用 对 应 磁盘 的 驱动 程序 来 将 磁盘 的 写 


缓存 一 次 性 关闭 ， 直 到 下 次 磁盘 掉 电 或 者 Reset 为 止 ， 茶 用 效果 一 直 会 
保持 。 对 于 用 于 磁盘 阵列 中 的 磁盘 ， 写 缓存 一 律 禁用 。 


3.3.5 ”影响 磁盘 性 能 的 因素 


目前 的 磁盘 可 以 分 为 单 碟 盘 和 多 碟 盘 ， 前 者 在 盘 体 内 只 有 一 张 盘 
片 ， 后 者 则 有 多 张 。 前 面 已 经 讲 过 ， 每 张 盘 片 的 正 反 两 面 都 可 以 存放 
数据 ， 所 以 每 张 盘 片 需 要 有 两 个 磁头 ， 各 读 写 一 面 。 然 而 ， 有 一 点 必 
须 澄清 ， 磁 盘 每 个 时 刻 只 允许 一 个 磁头 来 读 写 数 据 。 也 就 是 说 ， 不 管 
盘 体内 盘 片 和 磁头 再 多 ， 也 不 可 能 提高 硬盘 的 吞吐 量 和 IO 性 能 ， 只 能 
是 高 容量 。 然 而 ， 已 经 有 很 多 人 致力 于 改变 这 个 现状 ， 希 望 能 让 磁头 
在 盘 内 实现 并 发 读 写 ， 也 就 相当 于 盘 片 和 盘 片 之 间 相 互 形成 RAID 从 而 
提高 性 能 ， 但 是 这 项 工程 目前 还 没有 可 以 应 用 的 产品 。 


影响 硬盘 性 能 的 因素 包括 以 下 几 种 。 


(1) 转速 ; 转速 是 影响 硬盘 连续 IO 时 吞吐 量 性 能 的 首要 因素 。 
读 写 数据 时 ， 磁 头 不 会 动 ， 全 靠 盘 片 的 转动 来 将 对 应 扇 区 中 的 数据 感 
应 给 磁头 ， 所 以 盘 片 转 得 越 快 ， 数 据 传输 时 间 就 越 短 。 在 连续 IO 情况 
下 ， 磁 头 臂 寻 道 次 数 很 少 ， 所 以 要 提高 吞吐 量 或 者 IOPS 的 值 ， 转 速 就 
是 首要 影响 因素 了 。 目 前 中 高 端 硬盘 一 般 都 为 10000 转 每 分 或 者 15000 
转 每 分 。 最 近 也 有 厂家 要 实现 20000 转 每 分 的 硬盘 ， 已 经 有 了 成 形 的 产 
品 ， 但 是 最 终 是 否 会 被 广泛 应 用 ， 尚 待 观 察 。 


(2) 寻 道 速度 : 寻 道 速度 是 影响 磁盘 随机 IO 性 能 的 首要 因素 。 
随机 IO 情况 下 ， 磁 头 臂 需要 频繁 更 换 磁 道 ， 用 于 数据 传输 的 时 间 相对 
于 换 道 消耗 的 时 间 来 说 是 很 少 的 ， 根 本 不 在 一 个 数量 级 上 。 所 以 如 果 


(3) 单 碟 容 量 : 单 碟 容 量 也 是 影响 磁盘 性 能 的 一 个 间接 因素 。 
单 碟 容量 越 高 ， 证 明 相 同 空 间 内 的 数据 量 越 大 ， 也 就 是 数据 密度 越 
大 。 在 相同 的 转速 和 寻 道 速度 条 件 下 ， 具 有 高 数据 密度 的 硬盘 会 显示 
出 更 高 的 性 能 。 因 为 在 相同 的 开销 下 ， 单 碟 容 量 高 的 硬盘 会 读 出 更 多 
的 数据 。 目 前 已 有 厂家 研发 出 单 碟 容 量 超过 300GB 的 硬盘 ， 但 是 还 没 
有 投入 使 用 。 


(4) 接口 速度 : 接口 速度 是 影响 硬盘 性 能 的 一 个 最 不 重要 的 因 
素 。 目 前 的 接口 速度 在 理论 上 都 已 经 满足 了 磁盘 所 能 达到 的 最 高 外 部 
传输 带宽 。 在 随机 IO 环 境 下 ， 接 口 速度 显得 更 加 不 重要 ， 因 为 此 时 瓶 
颈 几乎 全 部 都 在 寻 道 速 度 上 。 不 过 ， 高 端 硬盘 都 用 高 速 接口 ， 这 是 普 
通 做 法 。 


3.4 ”硬盘 接口 技术 


硬盘 制造 是 一 项 复杂 的 技术 ， 到 目前 为 至 也 只 有 了 欧洲、 美国 等 发 
达 国 家 和 地 区 掌握 了 关键 技术 。 但 不 管 硬盘 内 部 多 么 复杂 ， 它 必定 要 
给 使 用 者 一 个 简单 的 接口 ， 用 来 对 其 访问 读 取 数 据 ， 而 不 必 关 心 这 串 
数据 到 底 该 什么 时 候 写 入 ， 写 入 到 哪个 盘 片 ， 用 哪个 磁头 ， 等 等 。 


下 面 就 来 看 一 下 硬盘 向 用 户 提供 的 是 什么 样 的 接口 。 注 意 ， 这 里 
所 说 的 接口 不 是 物理 上 的 接口 ， 而 是 包括 物理 、 逻 辑 在 内 的 抽象 出 来 
的 接口 。 也 就 是 说 ， 一 个 事物 面向 外 部 的 时 候 ， 为 达到 被 人 使 用 的 目 
的 而 向 外 提供 的 一 种 打开 的 、 抽 象 的 协议 ， 类 似 于 说 明 书 。 


目前 ， 硬 盘 提 供 的 物理 接口 包括 如 下 几 种 。 


=。 用 于 AIA 指 令 系统 的 IDE 接 口 。 

=。 用 于 ATA 指 令 系统 的 SATA 接 口 。 

" 用 于 SCSI 指 令 系 统 的 并 行 SCSI 接 口 。 

=。 用 于 SCSI 指 令 系统 的 串 行 SCSI (SAS) 接口 。 

" 用 于 SCSI 指 令 系 统 的 IBM 专 用 串 行 SCSI 接 口 (SSA) 。 

a 用 于 SCSI 指 令 系统 的 并 且 承 载 于 FabreChannel 协 议 的 串 行 FC 接 
口 (FCP) 。 


3.4.1 IDE 硬 盘 接 口 


IDE 的 英文 全 称 为 Integrated Drive Electronics ， 即 电子 集成 驱动 
器 ， 它 的 本 意 是 指 把 控制 电路 和 盘 片 、 磁 头等 放 在 一 个 容器 中 的 硬盘 
驱动 器 。 把 盘 体 与 控制 电路 放 在 一 起 的 做 法 减少 了 硬盘 接口 的 电线 数 
目 与 长 度 ， 数 据 传输 的 可 靠 性 得 到 了 增强 。 而 且 硬 盘 制 造 起 来 更 加 容 
易 ， 因 为 硬盘 生产 厂商 不 需要 再 担心 自己 的 硬盘 是 否 与 其 他 厂商 生产 
的 控制 器 兼容 。 对 用 户 而 言 ， 硬 盘 安 装 起 来 也 更 为 方便 了 。IDE 这 一 
接口 技术 从 诞生 至 今 就 一 直 在 不 断 发 展 ， 性 能 也 不 断 地 提高 。 其 拥有 
价格 低廉 、 兼 容 性 强 的 特点 。IDE 接 口技 术 至 今 仍然 有 很 多 用 户 ， 但 
是 正在 不 断 减 少 。 


IDE 接 口 ， 也 称 为 PATA 接 口 ， 即 Parallel AIA (并 行 传输 ATA) 。 
ATA 的 英文 拼写 为 Advanced Technology Attachment ， 即 高 级 技术 附 
加 ， 和 貌似 发 明 ATA 接 口 的 人 认为 这 种 接口 是 有 高 技术 含量 的 。 不 过 在 
那个 年 代 应 该 也 算是 比较 有 技术 含量 的 了 。ATA 接 口 最 早 是 在 1986 年 
由 Compaq、West Digital 等 几 家 公司 共同 开发 的 ， 在 20 世 纪 90 年 代 初 开 
始 应 用 于 台式 机 系统 。 最 初 ， 它 使 用 一 个 40 心 电线 与 主板 上 的 ATA 接 


口 进行 连接 ， 只 能 支持 两 个 硬盘 ， 最 大 容量 也 被 限制 在 504MB 之 内 。 
后 来 ， 随 着 传输 速度 和 位 宽 的 提高 ， 最 后 一 代 的 ATA 规 范 使 用 80 心 的 
线 绕 ， 其 中 有 一 部 分 是 屏 菩 线 ， 不 传输 数据 ， 只 是 为 了 屏 洲 其 他 数据 
线 之 间 的 相互 干扰 。 


1. 7 种 ATA 物 理 接 口 规范 


ATA 接 口 从 诞生 至 今 ， 共 推出 了 7 个 不 同 的 版 本 ， 分 别 是 ATA-1 
(IDE) ~、ATA-2 (EIDE Enhanced IDE/Fast ATA) 、ATA-3 (FastATA- 
2) 、ATA-4 (ATA33) 、ATA-5 (ATA66) 、ATA-6 (ATA100) 和 
ATA-7 (ATA 133) 。 


" ATIA-1: 在 主板 上 有 一 个 插口 ， 支 持 一 个 主 设备 和 一 个 从 设 
备 ， 每 个 设备 的 最 大 容量 为 504MB ， 支 持 的 PIO-0 模 式 传输 速率 
只 有 3.3MB/s。ATA-1 支 持 的 PIO 模 式 包括 PIO-0、PIO-1 和 PIO-2 
模式 ， 另 外 还 支持 4 种 DMA 模 式 (没有 得 到 实际 应 用 ) 。ATA-1 
接口 的 硬盘 大 小 为 5 英寸 ， 而 不 是 现在 主流 的 3.5 英 寸 。 

" AIA-2: 是 对 AIA-1 的 扩展 ， 习 惯 上 也 称 为 EIDE (Enhanced 
IDE) 或 Fast ATA。 它 在 ATA 的 基础 上 增加 了 两 种 PIO 和 两 种 
DMA 模 式 (PIO-3) ， 不仅 将 硬盘 的 最 高 传输 率 提 高 到 
16.6MB/s ， 同 时 还 引进 了 LBA 地 址 转换 方式 ， 突 破 了 固有 的 
504MB 的 限制 ， 可 以 支持 最 高 达 8.1GB 的 硬盘 。 在 支持 ATA-2 的 
BIOS 设 置 中 ， 一 般 可 以 看 到 LBA (Logical Block Address) 和 
CHS (Cylinder、Head、Sector) 设置 选项 。 同 时 在 EIDE 接 口 的 
主板 上 一 般 有 两 个 EIDE 插 口 ， 也 就 是 由 同一 个 ATA 控 制 器 操控 
的 两 个 IDE 通 道 ， 每 个 通道 可 以 分 别 连 接 一 个 主 设备 和 一 个 从 


设备 ， 这 样 一 块 主板 就 可 以 支持 4 个 EIDE 设 备 。 这 两 个 EDIE 接 
口 一 般 称 为 IDE1 和 IDE2。 

AIA-3: 没有 引入 更 高 速度 的 传输 模式 ， 在 传输 速度 上 并 没有 
任何 的 提升 ， 最 高 速度 仍旧 为 16.6MB/s。 只 在 电源 管理 方案 方 
面 进行 了 修改 ， 引 入 了 简单 的 密码 保护 安全 方案 。 同 时 还 引入 
了 一 项 划时代 的 技术 ， 那 就 是 S.M.A.R.T (Self-Monitoring 
Analysis and Reporting Technology， 上 自 监 测 、 分 析 和 报告 技 
术 ) 。 这 项 技术 可 以 对 磁头 、 盘 片 、 电 机 、 电 路 等 硬盘 部 件 进 
行 监测 ， 通 过 检测 电路 和 主机 的 监测 软件 对 磁盘 进行 检测 ， 把 
其 运行 状况 和 历史 记录 同 预 设 的 安全 值 进行 比较 分 析 。 当 检测 
到 的 值 超出 了 安全 值 的 范围 时 ， 会 自动 向 用 户 发 出 警告 ， 进 而 
对 硬盘 潜在 故障 做 出 有 效 预测 ， 提 高 了 数据 存储 的 安全 性 。 
ATA-4: 从 AIA-4 接 口 标准 开始 正式 支持 Ultra DMA 数 据 传输 模 
式 ， 因 此 也 习惯 称 AIA-4 为 Ultra DMA 33 或 ATA33，33 是 指数 据 
传输 的 速率 为 33.3MB/s。 并 首次 在 ATA 接 口中 采用 了 Double 
Data Rate 〈 双 倍数 据 传输 ) 技术 ， 让 接口 在 一 个 时 钟 周期 内 传 
输 数 据 两 次 ， 时 钟 上 升 期 和 下 降 期 各 有 一 次 数据 传输 ， 这 样 数 
据 传输 速率 一 下 子 从 16.6MB/s 提 升 至 33.3MB/s。Ultra DMA 33 
还 引入 了 兄 余 校 验 技术 (CRC) 。 该 技术 的 设计 原理 是 系统 与 
硬盘 在 进行 传输 的 过 程 中 ， 随 数据 一 起 发 送 循环 的 元 余 校 验 
码 ， 对 方 在 收取 的 时 候 对 该 校 验 码 进行 检验 ， 只 有 在 检验 完全 
正确 的 情况 下 才 接 收 并 处 理 得 到 的 数据 ， 这 对 于 高 速 传输 数据 
的 安全 性 提供 了 极其 有 力 的 保障 。 

ATIA-5: AIA-5 也 就 是 Ultra DMA 66 ， 也 叫 ATA66 ， 是 建立 在 
Ultra DMA 33 硬 盘 接 口 的 基础 上 的 ， 同 样 采用 了 UDMA 技 术 。 
Ultra DMA 66 将 接口 传输 电路 的 频率 提高 为 原来 的 两 倍 ， 所 以 
接收 /发 送 数 据 速 率 达 到 66.6 MB/s。 它 保留 了 Ultra DMA 33 的 核 


心 技术 一 一 宛 余 校 验 技 术 。 在 工作 频率 提升 的 同时 ， 电 磁 干 扰 
问题 开始 出 现在 ATA 接 口中 。 为 保障 数据 传输 的 准确 性 ， 防 止 
电磁 干扰 ，Ultra DMA 66 接 口 开始 使 用 40 针 脚 80 心 的 电缆 。40 
针脚 是 为 了 兼容 以 往 的 ATIA 插 槽 ， 减 小 成 本 的 增加 。80 心 中 新 
增 的 都 是 信号 屏 珊 线 ， 这 40 条 屏蔽 线 不 与 接口 相连 ， 所 以 针脚 
不 需要 增加 。 这 种 设计 可 以 降低 相 邻 信号 线 之 间 的 电磁 干扰 。 

AIA-6: ATA100 接 口 的 数据 线 与 ATA66 一 样 ， 也 是 使 用 40 针 80 
芯 的 数据 传输 电线 ， 并 且 ATA100 接 口 完全 向 下 兼容 ， 支 持 
ATA33 和 ATA66 接 口 的 设备 完全 可 以 继续 在 ATA100 接 口中 使 
用 。AIA100 规 范 将 电路 的 频率 又 提升 了 一 个 等 级 ， 可 以 让 硬盘 
的 外 部 传输 率 达 到 100MB/s。 它 提高 了 硬盘 数据 的 完整 性 与 数 
据 传输 速率 ， 对 桌面 系统 的 磁盘 子 系统 性 能 有 较 大 的 提升 作 
用 ， 而 CRC 技 术 更 有 效 保 证 了 在 高 速 传输 中 数据 的 完整 性 和 可 
靠 性 。 

AIA-7: AIA-7 是 AIA 接 口 的 最 后 一 个 版 本 ， 也 叫 ATA133。 
ATA133 接 口 支 持 133 MB/s 的 数据 传输 速度 ， 这 是 第 一 种 在 接口 
速度 上 超过 100MB/s 的 IDE 硬 盘 。 迈 拓 是 目前 唯一 一 家 推出 这 种 
接口 标准 硬盘 的 制造 商 。 由 于 并 行 传输 随 着 电路 频率 的 提升 ， 
传输 线 绕 上 的 信号 干扰 越 来 越 难以 解决 ， 已 经 达到 了 当前 技术 
的 极限 ， 所 以 其 他 IDE 硬 盘 厂 商 停止 了 对 IDE 接 口 的 开发 ， 转 而 
生产 Serial ATA 接 口 标准 的 硬盘 。 


图 3-13 所 示 为 几 种 ATA 接 口 的 总 结 。 


图 3-13” 几 种 ATA 接 口 的 总 结 


2。IDE 数 据 传输 模式 


PIO 模 式 (Programming Input/Output Model) : 一 种 通过 CPU 执 
行 IO 端口 指令 来 进行 数据 读 写 的 数据 交换 模式 ， 是 最 早 的 硬盘 
数据 传输 模式 。 这 种 模式 的 数据 传输 速率 低下 ，CPU 占 有 率 也 
很 高 ， 传 输 大 量 数据 时 会 因为 占用 过 多 的 CPU 资源 而 导致 系统 
停顿 ， 无 法 进行 其 他 的 操作 。 在 PIO 模 式 下 ， 硬 盘 控 制 器 接收 
到 人 硬盘 驱动 器 传 来 的 数据 之 后 ， 必 须 由 CPU 发 送信 号 将 这 些 数 
据 复 制 到 内 存 中 ， 这 就 是 PIO 模 式 高 CPU 占用 率 的 原因 。PIO 数 
据 传 输 模式 又 分 为 PIO mode 0、PIO mode 1、PIO mode 2、PIO 
mode 3 和 PIO mode 4 几 种 模式 ， 数 据 传输 速率 从 3.3MB/s 到 
16.6MB/s 不 等 。 受 限于 传输 速率 低下 和 极 高 的 CPU 占有 率 ， 这 
种 数据 传输 模式 很 快 就 被 淘汰 了 。 

DMA 模 式 (Direct Memory Access) : 直译 的 意思 就 是 直接 内 
存 访 问 ， 是 一 种 不 经 过 CPU 而 直接 从 内 存 存 取 数 据 的 数据 交换 
模式 。PIO 模 式 下 硬盘 和 内 存 之 间 的 数据 传输 是 由 CPU 来 控制 
的 ， 而 在 DMA 模 式 下 ，CPU 只 须 向 DMA 控 制 器 下 达 指 令 ， 让 
DMA 控 制 器 来 处 理 数 据 的 传送 。DMA 控 制 器 直接 将 数据 复制 
到 内 存 的 相应 地 址 上 ， 数 据 传送 完毕 后 再 把 信息 反馈 给 CPU， 
这 样 就 很 大 程度 上 减轻 了 CPU 资源 的 占用 率 。DMA 模 式 与 PIO 
模式 的 区 别 就 在 于 DMA 模 式 不 过 分 依赖 CPU， 可 以 大 大 节省 系 
统 资源 。 二 者 在 传输 速度 上 的 差异 并 不 十 分 明显 ，DMA 所 能 达 
到 的 最 大 传输 速率 也 只 有 16.6MB/s。DMA 模 式 可 以 分 为 Single- 
Word DMA (单字 节 DMA) 和 Multi-Word DMA (多 字 节 
DMA) 两 种 。 

Ultra DMA 模 式 (Ultra Direct Memory Access) : 一 般 简 写 为 
UDMA ， 含 义 是 高 级 直接 内 存 访问 。UDMA 模 式 采 用 16-bit 
Multi-Word DMA (16 位 多 字 节 DMA) 模式 为 基准 ， 可 以 理解 
为 是 DMA 模 式 的 增强 版 本 。 它 在 包含 了 7 了 DMA 模式 的 优点 的 基 


础 上 ， 又 增加 了 CRC (Cydlic Redundancy Check， 循 环 宛 余 码 
校 验 ) 技术 ， 提 高 了 数据 传输 过 程 中 的 准确 性 ， 使 数据 传输 的 
安全 性 得 到 了 保障 。 在 以 往 的 硬盘 数据 传输 模式 下 ， 一 个 时 钟 
周期 只 传输 一 次 数据 ， 而 在 UDMA 模 式 中 逐渐 应 用 了 Double 
Data Rate 〈 双 倍数 据 传输 ) 技术 ， 因 此 数据 传输 速度 有 了 极 大 
的 提高 。 此 技术 就 是 在 时 钟 的 上 升 期 和 下 降 期 各 自 进 行 一 次 数 
据 传输 ， 可 以 使 数据 传输 速度 成 倍 地 增长 。 


可 以 在 ATA 控 制 器 属性 中 选择 ”图 3-14 DMA 模 式 示 意图 
使 用 PIO 还 是 DMA 传 输 模式 ， 如 图 3- 
14 所 示 。 


在 UDMA 模 式 发 展 到 UDMA133 之 后 ， 受 限于 IDE 接 口 的 技术 规 
范 ， 无 论 是 连接 器 、 连 接 电线 还 是 信号 协议 都 表现 出 了 很 大 的 技术 瓶 
颈 ， 而 且 其 支持 的 最 高 数据 传输 率 也 有 限 。 在 IDE 接 口传 输 率 提高 的 
同时 ， 也 就 是 工作 频率 提高 的 同时 ，IDE 接 口交 叉 干 扰 、 地 线 增多 、 
信号 混乱 等 缺陷 也 给 其 发 展 带 来 了 很 大 的 制约 ， 被 新 一 代 的 SATA 接 口 
取代 也 就 在 所 难免 了 。 


3.4.2 ”SATA 硬 盘 接 口 


SATA 的 全 称 是 Serial AITA， 即 串 行 传输 ATA。 相 对 于 PATA 模 式 的 
IDE 接 口 来 说 ，SATA 是 用 串 行 线路 传输 数据 ， 但 是 指令 集 不 变 ， 仍 然 


是 AIA 指 令 集 。 


SATA 标 准 是 由 Intel、IBM、Dell、APT、Maxtor 和 Seagate 公 司 共 
同 提出 的 硬盘 接口 规范 。 在 IDF Fall 2001 大 会 上 ，Seagate 宣 布 了 Serial 
ATA 1.0 标 准 ， 正 式 宣告 了 SATA 规 范 的 确立 。 自 2003 年 第 二 季度 Intel 


推出 支持 SATA 1.5Gbps 的 南 桥 心 片 〈ICH5) 后 ，SATA 接 口 取代 传统 
PATA 接 口 的 趋势 日 渐 明 显 。 此 外 ，SATA 与 现存 于 PC 上 的 USB、IEEE 
1394 相 比 ， 在 性 能 和 功能 方面 的 表现 也 更 加 突出 。 然 而 经 过 一 年 的 市 
场 洗礼 ， 原 有 的 SATA 1.0/1.0a (1.5Gb/s) 规格 遇 到 了 一 些 问 题 。2005 
年 SATA 硬 盘 步 入 了 新 的 发 展 阶段 ， 性 能 更 强 、 配 置 更 高 的 SATA 2.0 产 
品 出 现在 了 市 场 上 ， 这 些 高 性 能 的 SATA 2.0 硬 盘 的 到 来 无 疑 加 速 了 硬 
盘 市 场 的 转变 。 


SATA 与 IDE 结 构 在 人 硬件 上 有 着 本 质 区 别 ， 其 数据 接口 、 电 源 接口 
以 及 接口 实物 图 如 图 3-15、 图 3-16 及 图 3-17 所 示 。 


图 3-15”IDE 线 线 和 SATA 图 3-16” SATA 硬盘 的 电源 图 3-17” ”SATA 接口 实物 图 
线 缆 对 比 线 


1.。SATA 规 范 的 发 展 历程 


SATA 技 术 是 Intel 公 司 在 IDF 2000 大 会 上 推出 的 ， 其 最 大 的 优势 是 
传输 速率 高 。SATA 的 工作 原理 非常 简单 : 采用 连续 串 行 的 方式 来 实现 
数据 传输 从 而 获得 较 高 的 传输 速率 。2003 年 发 布 的 SATA 1.0 规 范 提 供 
的 传输 速率 就 已 经 达到 了 150MB/s， 不 但 高 出 普通 IDE 硬 盘 所 提供 的 
100MB/s (ATA100) ， 甚 至 超过 了 IDE 最 高 传输 速率 133MB/s 

(ATA133) 。 


SATA 在 数据 可 靠 性 方面 也 有 了 大 幅度 提高 。SATA 可 同时 对 指令 
及 数据 封包 进行 循环 宛 余 校 验 (CRC) ， 不 仅 可 检测 出 所 有 单 比特 和 
双 比 特 的 错误 ， 而 且 根据 统计 学 的 原理 还 能 够 检测 出 99.998% 可 能 
现 的 错误 。 相 比 之 下 ，PATA 只 能 对 来 回 传输 的 数据 进行 校 验 ， 而 无 法 


对 指令 进行 校 验 ， 加 上 高 频率 下 干扰 甚大 ， 因 此 数据 传输 稳定 性 很 
差 。 


除了 传输 速率 更 高 、 传 输 数据 更 可 靠 外 ， 节 省 空间 是 SATA 最 具 吸 
引力 的 地 方 。 由 于 线 缆 相 对 于 80 芯 的 IDE 线 缆 来 说 瘦 了 不 少 ， 更 有 利 
于 机 箱 内 部 的 散热 ， 线 缆 间 的 串扰 也 得 到 了 有 效 控制 。 不 过 SATA 1.0 
规范 存在 不 少 缺点 ， 特 别 是 缺乏 对 于 服务 器 和 网 络 存储 应 用 所 需 的 一 
些 先进 特性 的 支持 。 比 如 在 多 任务 、 多 请 求 的 典型 服务 器 环境 里 面 ， 
SAIA 1.0 硬 盘 的 确 会 有 性 能 大 幅度 下 降 ， 还 有 可 维护 性 不 强 、 可 连接 
性 不 好 等 缺点 。 这 时 ，SATA 2.0 的 出 现 使 这 方面 得 到 了 很 好 的 补充 。 


2。SATA 2.0 规 范 中 的 新 特性 


与 SATA 1.0 规 范 相 比 ，SATA 2.0 规 范 中 添加 了 一 些 新 的 特性 ， 具 
体 如 下 。 


" 3Gb/s 的 传输 速率 : 在 SATA 2.0 扩 展 规范 中 ，3Gb/s 的 速率 是 最 
大 的 亮点 。 由 于 SATA 使 用 8bit/10bit 编 码 ， 所 以 3Gb/s 等 同 于 
300MB/s 的 接口 速率 。 不 过 ， 从 性 能 角度 看 ，3Gb/s 并 不 能 带 来 
多 大 的 提升 ， 即 便 是 RAID 应 用 的 场合 ， 性 能 提升 也 没有 想象 的 
那么 大 。 因 为 硬盘 内 部 传输 速率 还 达 不 到 与 接口 速率 等 同 的 程 
度 。 在 大 多 数 应 用 中 ， 硬 盘 是 将 更 多 的 时 间 花 在 了 寻 道 上 ， 而 
不 是 传输 上 。 接 口 速 率 的 提高 直接 影响 的 是 从 缓存 进行 读 写 的 
操作 ， 所 以 理论 上 大 缓存 的 产品 会 从 3Gb/s 的 传输 速率 中 得 到 更 
大 的 好 处 。 

支持 NCQ 技 术 : 在 SATA 2.0 扩 展 规范 所 带 来 的 一 系列 新 功能 
中 ，NCQ (Native Command Queuing， 自 身 命令 队列 ) 功能 
非常 令 人 关注 。 硬 盘 是 机 电 设 备 ， 容 易 受 内 部 机 械 部 件 惯性 的 


影响 ， 其 中 旋转 等 待 时 间 和 寻 道 等 待 时 间 就 大 大 限制 了 硬盘 对 
数据 访问 和 检索 的 效率 。 前 面 曾经 描述 过 一 个 模型 ， 指 的 就 是 
这 种 由 硬盘 驱动 器 自身 实现 的 排队 技术 。 


如 果 对 磁头 寻 道 这 个 机 械 动作 的 执行 过 程 实施 智能 化 的 内 部 管 
理 ， 就 可 以 大 大 地 提高 整个 工作 流程 的 效率 。 所 谓 智能 化 的 内 部 管理 
就 是 取出 队列 中 的 命令 ， 然 后 重新 排序 ， 以 便 有 效 地 获取 和 发 送 主 机 
请 求 的 数据 。 在 硬盘 执行 某 一 命令 的 同时 ， 队 列 中 可 以 加 入 新 的 命令 
并 排 在 等 待 执 行 的 作业 中 。 如 果 新 的 命令 恰好 是 处 理 起 来 机 械 效率 最 
高 的 ， 那 么 它 就 是 队列 中 要 处 理 的 下 一 个 命令 。 但 有 效 的 排序 算法 既 
要 考虑 目标 数据 的 线性 位 置 ， 又 要 考虑 其 角度 位 置 ， 并 且 还 要 对 线性 
位 置 和 角度 位 置 进行 优化 ， 以 使 总 线 的 服务 时 间 最 小 ， 这 个 过 程 也 称 
做 “基于 寻 道 和 旋转 优化 的 命令 重新 排序 ”。 


台式 SATA 硬 盘 队 列 一 直 被 严格 地 限制 为 深度 不 得 超过 32 级 。 如 果 
增加 队列 深度 ， 可 能 会 起 到 反作用 增加 命令 堆积 的 风险 。 通 常 
SAIA 硬 盘 接收 命令 时 有 两 种 选择 ， 一 是 立即 执行 命令 ， 二 是 延迟 执 
行 。 对 于 后 一 种 情况 ， 硬 盘 必 须 通过 设置 注意 标志 和 Service 位 来 通知 
主机 何 时 开始 执行 命令 。 然 而 硬盘 不 能 主动 与 主机 通信 ， 这 就 需要 主 
机 定期 轮回 查询 ， 发 现 Service 位 后 将 发 出 一 条 Service 命 令 ， 然 后 才能 
从 硬盘 处 获得 将 执行 哪 一 条 待 执行 命令 的 信息 。 而 且 Service 位 不 包含 
任何 对 即将 执行 命令 的 识别 信息 ， 所 必需 的 命令 识别 信息 是 以 标记 值 
的 形式 与 数据 请 求 一 同 传输 的 ， 并 仅 供 主机 用 于 设置 DMA5 引 和 擎 和 接收 
数据 缓冲 区 。 这 样 主机 就 不 能 预先 掌握 硬盘 所 设置 的 辅助 位 是 哪 条 命 
令 设置 的 ， 数 据 传输 周期 开始 前 也 无 法 设置 DMA3 引 | 擎 ， 这 最 终 导 致 了 
SATA 硬 盘 效 率 低下 。 


NCQ 包 含 如 下 两 部 分 内 容 。 


一 方面 ， 硬 盘 本 身 必 须 有 能 力 针对 实体 数据 的 局 区 分 布 对 命令 缓 
冲 区 中 的 读 写 命令 进行 排序 。 同 时 硬盘 内 部 队列 中 的 命令 可 以 随 着 必 
要 的 跟踪 机 制 动 态 地 重新 调整 或 排序 ， 其 中 跟踪 机 制 用 于 掌握 待 执行 
和 已 完成 作业 的 情况 ， 而 命令 排队 功能 还 可 以 使 主机 在 设备 对 命令 进 
行 排 队 的 时 候 ， 断 开 与 硬盘 间 的 连接 以 释放 总 线 。 一 旦 硬盘 准备 就 
绪 ， 就 重新 连接 到 主机 ， 尽 可 能 以 最 快 的 速率 传输 数据 ， 从 而 消除 占 
用 总 线 的 现象 。 


另 一 方面 ， 通 信 协 议 的 支持 也 相当 重要 。 因 为 以 前 的 PATA 硬 盘 在 
传输 数据 时 很 容易 造成 中 断 ， 这 会 降低 主 控 器 的 效率 ， 所 以 NCQ 规 范 
中 定义 了 中 断 聚 集 机 制 。 相 当 于 一 次 执行 完 数 个 命令 后 ， 再 对 主 控 器 
回 传 执行 完毕 的 信息 ， 改 善 处 理 队 列 命令 的 效能 。 


从 最 早 的 希捷 7200.7 系 列 硬 盘 开 始 ，NCQ 技 术 应 用 于 桌面 产品 的 
时 间 至 今 已 超过 半年 ， 不 过 目前 NCQ 对 个 人 桌面 应 用 并 没有 带 来 多 大 
的 性 能 提升 ， 在 某 些 情况 下 还 会 引起 副作用 。 而 且 不 同 硬盘 厂商 的 
NCQ 方 案 存 在 着 差异 ， 带 来 的 效果 也 不 同 。 


a 端口 选择 器 (Port Selector) : 目前 的 SATA 2.0 扩 展 规 范 还 具备 
了 Port Selector (端口 选择 器 ) 功能 。Port Selector 是 一 种 数据 
宛 余 保护 方案 ， 使 用 Port Selector 可 增加 宛 余 度 ， 具 有 Port 
Selector 功 能 的 SATA 硬 盘 ， 外 部 有 两 个 SATA 接 口 ， 同 时 连接 这 
两 个 接口 到 控制 器 上 ， 一 旦 某 个 接口 坏 挥 或 者 连 线 故障 ， 则 立 
刻 切 换 到 另 一 个 接口 和 连 线 上 ， 不 会 影响 数据 传输 。 

端口 复 用 器 (Port Multiplier) : SATA 1.0 的 一 个 缺点 就 是 可 连 
接 性 不 好 ， 即 连接 多 个 硬盘 的 扩展 性 不 好 。 因 为 在 SATA 1.0 规 
范 中 ， 一 个 SATA 接 口 只 能 连接 一 个 设备 。SATA 规 范 的 制定 者 
们 显然 也 意识 到 了 这 个 问题 ， 于 是 在 SATA 2.0 中 引入 了 Port 


Multiplier 的 概念 。Port Multiplier 是 一 种 可 以 在 一 个 控制 器 上 扩 
展 多 个 SATA 设 备 的 技术 ， 它 采用 4 位 (bit) 宽度 的 Port 
Mnultiplier 端 口 字段 ， 其 中 控制 端口 占用 一 个 地 址 ， 因 此 最 多 能 
输出 2 的 四 次 方 减 1 个 ， 即 15 个 设备 连接 ， 这 与 并 行 SCSI 相 当 。 
Port Multiplier 的 上 行 端口 只 有 1 个 ， 在 带宽 为 150MB/s 的 时 候 容 
易 成 为 酒 颈 ,但 如 果 上 行 端口 支持 300MB/s 的 带宽 ， 就 与 
Ultra320 SCSI 的 320MB/s 十 分 接近 了 。Port Multiplier 技 术 对 需 
要 多 硬盘 的 用 户 很 有 用 ， 不 过 目前 提供 这 种 功能 的 芯片 组 极 
少 。 

服务 器 特性 : 在 SATA 2.0 扩 展 规 范 中 还 增加 了 大 量 的 新 功能 ， 
比如 防止 开机 时 多 硬盘 同时 启动 带 来 太 大 电流 负荷 的 交错 启动 
功能 ; 强大 的 温度 控制 、 风 扇 控 制 和 环境 管理 ; 背 板 互联 和 热 
插 拔 功能 等 。 这 些 功 能 更 侧重 于 低 端 服务 器 方面 的 扩展 。 
接口 和 连 线 的 强化 : 作为 一 个 还 在 不 断 添加 内 容 的 标准 集合 ， 
SATA 2.0 最 新 的 热点 是 eSATA ， 即 外 置 设备 的 SATA 接 口 标准 ， 
采用 了 屏 焙 性 能 更 好 的 两 米 长 连接 线 ， 目 标 是 最 终 取 代 USB 和 
IEEE 1394。 在 内 部 接口 方面 ，Click Connect 加 强 了 连接 的 可 靠 
性 ， 在 接 上 时 有 提示 声 ， 拔 下 时 需要 先 按 下 卡 口 。 这 些 细微 的 
结构 变化 显示 出 SATA 接 口 更 加 成 熟 和 可 靠 。 


下 面 单独 用 一 节 来 讲解 在 存储 方面 应 用 最 为 广泛 的 SCSI 硬 盘 接 
口 。 


3.5 SCSI 硬盘 接口 


SCSI 与 ATA 是 目前 现行 的 两 大 主机 与 外 设 通信 的 协议 规范 ， 而 且 
它们 各 自 都 有 自己 的 物理 接口 定义 。 对 于 ATA 协 议 ， 对 应 的 就 是 IDE 接 


口 ; 对 于 SCSI 协 议 ， 对 应 的 就 是 SCSI 接 口 。 凡 是 作为 一 个 通信 协议 ， 
就 可 以 按照 OSI 模型 (本 书 第 7 章 将 介绍 ) 来 将 其 划分 层次 ， 尽 管 有 些 
层次 可 能 是 合并 的 或 者 是 缺失 的 。 划 分 了 层次 之 后 ， 我 们 就 可 以 把 这 
个 协议 进行 分 解 ， 提 取 每 个 层次 的 功能 和 各 个 层次 之 间 的 接口 ， 从 而 
可 以 将 这 个 协议 融合 到 其 他 协议 之 中 ， 形 成 一 种 “杂交 ”协议 来 适应 各 
种 不 同 的 环境 ， 这 个 话题 将 在 本 书 第 13 章 加 以 前 述 。 


SCSI 的 全 称 是 Small Computer System Interface ， 即 小 型 计算 机 系 
统 接 口 ， 是 一 种 较为 特殊 的 接口 总 线 ， 有 具备 与 多 种 类 型 的 外 设 进行 通 
信 的 能 力 ， 比 如 硬盘 、CD-ROM、 磁带 机 和 扫描 仪 等 。SCSI 采 用 ASPI 
(高 级 SCSI 编 程 接 口 ) 的 标准 软件 接口 使 驱动 器 和 计算 机 内 部 安装 的 
SCSI 适 配器 进行 通信 。SCSI 接 口 是 一 种 广泛 应 用 于 小 型 机 上 的 高 速 数 
据 传输 技术 。SCSI 接 口 具 有 应 用 范围 广 、 多 任务 、 带 宽大 、CPU 占 用 
率 低 以 及 热 插 拔 等 优点 。 


SCSI 接 口 为 存储 产品 提供 了 强大 、 灵 活 的 连接 方式 ， 还 提供 了 很 
高 的 性 能 ， 可 以 有 8 个 或 更 多 〈 最 多 16 个 ) 的 SCSI 设 备 连接 在 一 个 
SCSI 通 道上 ， 其 缺点 是 价格 过 于 昂贵 。SCSI 接 口 的 设备 一 般 需要 配合 
价格 不 菲 的 SCSI 卡 一 起 使 用 (如 果 主 板 上 已 经 集成 了 SCSI 控 制 器 ， 则 
不 需要 额外 的 适配器 ) ， 而 且 SCSI 接 口 的 设备 在 安装 、 设 置 时 比较 麻 
烦 ， 所 以 远 远 不 如 IDE 设 备 使 用 广泛 。 虽 然 从 2007 年 开始 ，IDE 硬 盘 就 
被 SATA 硬 盘 彻 底 逐 出 了 市 场 。 


在 系统 中 应 用 SCSI 必 须要 有 专门 的 SCSI 控 制 器 ， 也 就 是 一 块 SCSI 
控制 卡 ， 才 能 支持 SCSI 设 备 ， 这 与 IDE 硬 盘 不 同 。 在 SCSI 控 制 器 上 有 
一 个 相当 于 CPU 的 芯片 ， 它 对 SCSI 设 备 进 行 控制 ， 能 处 理 大 部 分 的 工 
作 ， 减 少 了 CPU 的 负担 《CPU 占用 率 ) 。 在 同时 期 的 硬盘 中 ，SCSI 硬 


盘 的 转速 、 缓 存 容 量 、 数 据 传输 速率 都 要 高 于 IDE 硬 盘 ， 因 此 更 多 是 
应 用 于 商业 领域 。 


下 面 简单 介绍 一 下 SCSI 规 范 的 发 展 过 程 。 


SCSI 最 早 是 1979 年 由 美国 的 Shugart 公 司 (希捷 公司 前 身 ) 制订 
的 ， 在 1986 年 获得 了 ANSI (美国 标准 协会 ) 的 承认 ， 称 为 SASI 
(Shugart Associates System Interface) ， 也 就 是 最 初版 本 SCSI-1。 


SCSI-1 是 第 一 个 SCSI 标 准 ， 支 持 同步 和 异步 SCSI 外 围 设备 ， 使 用 
8 位 的 通道 宽度 ; 最 多 允许 连接 7 个 设备 ; 异步 传输 时 的 频率 为 
3MB/s， 同 步 传输 时 的 频率 为 5MB/s; 支持 WORM 外 围 设 备 。 它 采用 
25 针 接口 ， 因 此 在 连接 到 SCSI 卡 (SCSI 卡 上 接口 为 50 针 ) 上 时 ， 必 须 
要 有 一 个 内 部 的 25 针 对 50 针 的 接口 电缆 。 该 种 接口 已 基本 被 淘汰 ， 在 
相当 古老 的 设备 上 或 个 别 扫描 仪 设备 上 可 能 还 可 以 看 到 。 


SCSI-2 又 被 称 为 Fast SCSI， 它 在 SCSI-1 的 基础 上 做 了 很 大 的 改 
进 ， 增 加 了 可 靠 性 ， 数 据 传输 率 也 被 提高 到 了 10MB/s; 但 仍旧 使 用 8 
位 的 并 行 数据 传输 ， 还 是 最 多 连接 7 个 设备 。 后 来 又 进行 了 改进 ， 推 出 
了 支持 16 位 并 行 数据 传输 的 WIDE-SCSI-2 (宽带 ) 和 FAST-WIDE- 
SCSI-2 (快速 宽带 ) 。 其 中 WIDE-SCSI-2 的 数据 传输 速率 并 没有 提 
高 ， 只 是 改 用 16 位 传输 ; 而 FAST-WIDE-SCSI-2 则 是 把 数据 传输 速率 提 
高 到 了 20MB/so 


SCSI-3 标 准 版 本 是 在 1995 年 推出 的 ， 也 习惯 称 为 Ultra SCSI， 其 同 
步 数 据 传输 速率 为 20MB/s。 若 使 用 16 位 传输 的 Wide 模 式 时 ， 数 据 传输 
率 更 可 以 提高 至 40MB/s。 其 允许 接口 电缆 的 最 大 长 度 为 1.5 米 。 


1997 年 推出 了 Ultra 2 SCSI (Fast-40) 标准 版 本 ， 其 数据 通道 宽度 
仍 为 8 位 ， 但 其 采用 了 LVD (Low Voltage Differential， 低 电 平 微分 ) 传 
输 模式 ， 传 输 速 率 为 40MB/s， 人 允许 接口 电缆 的 最 大 长 度 为 12 米 ， 大 大 
增加 了 设备 的 灵活 性 ， 且 支持 同时 挂 接 7 个 设备 。 随 后 推出 了 Wide 
Ultra 2 SCSI 接 口 标准 ， 它 采用 16 位 数据 通道 带宽 ， 最 高 传输 速率 可 达 
80MB/s， 人 允许 接口 电缆 的 最 大 长 度 为 12 米 ， 支 持 同 时 挂 接 15 个 装置 。 


LVD 可 以 使 用 更 低 的 电压 ， 因 此 可 以 将 差 动 驱 动 程序 和 接收 程序 
集成 到 硬盘 的 板 载 SCSI 控 制 器 中 。 不 再 需要 单独 的 高 成 本 外 部 高 电压 
差 动 组 件 。 而 老式 SCSI 需 要 使 用 独立 的 、 耗 电 的 高 压 器 件 。 


LVD 硬盘 可 进行 多 模式 转换 。 当 所 有 条 件 都 满足 时 ， 硬 盘 就 工作 
在 LVD 模式 下 ; 反之 ， 如 果 并 非 所 有 条 件 都 满足 ， 硬 盘 将 降 为 单 端 工 
作 模 式 。LVD 硬 盘 带 宽 的 增加 对 于 服务 器 环境 来 说 意味 着 更 理想 的 性 
能 。 服 务 器 环境 都 有 快速 响应 、 必 须 能 够 进行 随机 访问 和 大 工作 量 的 
队列 操作 等 要 求 。 当 使 用 诸如 CAD、CAM、 数字 视频 和 各 种 RAID 等 
软件 的 时 候 ， 带 宽 增 加 的 效果 能 立竿见影 ， 信 息 可 以 迅速 而 轻松 地 进 
行 传输 。 


Ultra 160 SCSI， 也 称 为 Ultra 3 SCSI LVD ， 是 一 种 比较 成 熟 的 
SCSI 接 口 标准 ， 是 在 Ultra 2 SCSI 的 基础 上 发 展 起 来 的 ， 采 用 了 双 转 换 
时 钟 控制 、 循 环 宛 余 码 校 验 和 域名 确认 等 新 技术 。 在 增强 了 可 靠 性 和 
易 管理 性 的 同时 ，Ultra 160 SCSI 的 传输 速率 为 Ultra 2 SCSI 的 2 倍 ， 达 
到 160MB/s。 这 是 采用 了 双 转 换 时 针 控 制 的 结果 。 双 转换 时 钟 控 制 在 
不 提高 接口 时 钟 频率 的 情况 下 使 数据 传输 率 提 高 了 一 倍 ， 这 也 是 Ultra 
160 SCSI 接 口 速 率 大 幅 提 高 的 关键 。 


Ultra 320 SCSI， 也 称 为 Ultra 4 SCSI LVD， 是 比较 新 型 的 SCSI 接 
口 标准 。Ultra 320 SCSI 是 在 Ultra 160 SCSI 的 基础 上 发 展 起 来 的 ，Ultra 
160 SCSI 的 3 项 关键 技术 ， 即 双 和 转换 时 钟 控制 、 循 环 见 余 码 校 验 和 域名 
确认 ， 都 得 到 了 保留 。 以 往 的 SCSI 接 口 标准 中 ，SCSI 接 口 支持 异步 和 
同步 两 种 传输 模式 。Ultra 320 SCSI 引 入 了 调 步 传输 模式 ， 在 这 种 传输 
模式 中 简化 了 数据 时 钟 逻 辑 ， 使 Ultra 320 SCSI 的 高 传输 速率 成 为 可 
能 。Ultra 320 SCSI 的 传输 速率 可 以 达到 320MB/s。 


图 3-18 为 SCSI 总 线 连接 示意 图 。 
图 3-18 ”SCSI 总 线 连 接 示意 图 
下 面 介 绍 SCSI 协 议 中 的 OSI 模型 。 


上 面 描述 的 SCSI 接 口 的 各 个 规范 ， 全 部 限于 物理 电气 层 ， 即 描述 
传输 速率 、 电气 技术 性 能 等 。SCSI 是 一 套 完整 的 数据 传输 协议 。 一 个 
通信 协议 必然 会 跨越 OSI 的 所 有 7 个 层次 ， 而 物理 电气 参数 只 是 OSI 模 
型 中 的 第 一 层 ， 那 么 第 二 层 到 第 七 层 ，SCSI 规 范 中 也 包含 么 ?答案 当 
然 是 肯定 的 。 


1。SCSI 协 议 的 链 路 层 


OSI 模型 中 链 路 层 的 功能 就 是 用 来 将 数据 帧 成 功 地 传送 到 这 条 线 
路 的 对 端 。SCSI 协 议 中 ， 利 用 CRC 校 验 码 来 校 验 每 个 指令 或 者 数据 的 
帧 ， 如 果 发 现 对 方 发 来 的 校 验 码 与 本 地 计算 的 不 同 ， 则 说 明 这 个 数据 
帧 在 传输 过 程 中 受到 了 比较 强 的 干扰 而 使 其 中 某 个 或 者 某 些 位 发 生 了 
翻转 ， 那 么 就 会 丢弃 这 个 帧 ， 发 送 方 便 会 重 传 这 个 帧 。 


2. SCSI 协 议 的 网 络 层 


1) SCSI 总 线 编 址 机 制 


OSI 模型 中 网 络 层 的 功能 就 是 用 来 寻 址 的 ， 那 么 面 对 总 线 或 者 交 
换 架 构 下 的 多 个 节点 ， 各 个 节点 之 间 又 是 如 何 区 分 对 方 呢 ? 只 有 解决 
了 这 个 问题 ， 才 能 继续 ， 否 则 是 没有 意义 的 。SCSI 协 议 利 用 了 一 个 
SCSIID 的 概念 来 区 分 每 个 节点 。 在 Ultra 320 SCSI 协 议 中 ， 一 条 SCSI 
总 线 上 可 以 存在 16 个 节点 ， 其 中 SCSI 控 制 器 占用 一 个 节点 ，SCSIID 被 
恒定 设置 为 7。 其 他 15 个 节点 的 SCSI ID 可 以 随便 设置 但 是 不 能 重复 。 
这 16 个 ID 中 ，7 具 有 最 高 的 优先 级 。 也 就 是 说 ， 如 果 ID7 要 发 起 传输 ， 
则 其 他 15 个 ID 都 必须 乖乖 把 总 线 的 使 用 权 让 给 它 。 图 3-19 是 SCSI 总 线 
ID 优先 级 示意 图 。 


图 3-19 SCSI 总 线 ID 优 先 级 示意 图 


由 于 总 线 是 一 种 共享 的 线路 ， 总 线 上 的 每 个 节点 都 会 同时 感知 到 
这 条 线路 上 的 电位 信号 ， 所 以 同一 时 刻 只 能 由 一 个 节点 向 这 条 总 线 上 
放 数 据 ， 也 就 是 给 这 条 线路 加 一 个 高 电位 或 者 低 电位 。 其 他 所 有 节点 
都 能 感知 到 这 个 电位 的 增 降 ， 但 是 只 有 接受 方 节点 才 会 将 感知 到 的 电 
位 增 降 信号 保存 到 自己 的 缓存 中 ， 这 些 保存 下 来 的 信号 就 是 数据 。 电 
路 上 是 高 电位 则 接受 方 会 保存 为 1， 低 电位 则 保存 成 0， 反 过 来 保存 也 
可 以 。 图 3-20 所 示 的 一 个 只 有 两 条 导线 的 总 线 网 络 (实际 中 的 总 线 远 
远 不 止 两 条 导线 ) ， 其 中 总 线 终结 电阻 的 作用 是 终结 导线 上 的 电位 信 
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图 3-20 SCSI 总 线 ID 


图 3-21 是 一 个 32 位 数据 总 线 的 SCSI ID 与 其 优先 级 以 及 导线 的 对 应 
表 。 


图 3-21 SCSIID 与 其 优先 级 以 及 导线 的 对 应 表 


那么 这 些 节点 是 如 何 知 道 现 在 正在 通信 的 两 个 节点 之 中 有 没有 自 
己 呢 ? 要 了 解 当 前 线路 上 是 不 是 自己 在 通信 ， 或 者 自己 想 争 夺 线 路 的 
使 用 权 而 通告 其 他 节点 ， 这 个 过 程 叫 做 仲裁 。 有 总 线 的 地 方 就 有 仲 
裁 ， 因 为 总 线 是 共享 的 ， 各 个 节点 都 申请 使 用 ， 所 以 必须 有 一 个 仲裁 
机 制 。SCSI 接 口 并 不 只 有 8 或 者 16 条 数据 线 ， 还 有 很 多 控制 信号 线 。 


普通 台式 机 主板 一 般 不 集成 SCSI 控 制 器 ， 如 果 想 接 入 SCSI 磁 盘 
则 必须 增加 SCSI 卡 。SCSI 卡 一 端 接 入 主机 的 PCI 总 线 ， 另 一 端 用 一 
SCSI 控 制 器 接 入 SCSI 总 线 。 卡 上 有 自己 的 CPU (频率 很 低 ， 0 
RISC 架 构 ) ， 通 过 执行 ROM 中 的 代码 来 控制 整个 SCSI 卡 的 工作 。 经 
过 这 样 的 架构 ，SCSI 卡 将 SCSI 总 线 上 的 所 有 设备 经 过 PCI 总 线 传递 给 
内 存 中 运行 着 的 SCSI 卡 的 驱动 程序 ， 这 样 操 作 系统 便 会 知道 SCSI 总 线 
上 的 所 有 设备 了 。 如 果 这 块 卡 有 不 止 一 个 SCSI 控 制 器 ， 则 每 个 控制 器 
都 可 以 单独 掌管 一 条 SCSI 总 线 ， 这 就 是 多 通道 SCSI 卡 。 通 道 越 多 ， 一 
张 卡 可 接 入 的 SCSI 设 备 就 越 多 。 


图 3-22 是 SCSI 总 线 接 入 计算 机 总 线 的 示意 图 。 
图 3-22 ”SCS] 总 线 与 计算 机 总 线 
2) SCSI 寻 址 机 制 和 几 个 阶段 
(1) 空 肉 阶段 


总 线 一 开始 是 处 于 一 种 空 办 状态 ， 没有 节点 要 发 起 通信 。 总 线 空 
闲 的 时 候 ，BSY 和 SEL 这 两 条 控制 信号 线 的 状态 都 为 False 状 态 (用 一 
个 持续 的 电位 表示 ) ， 此 时 任何 节点 都 可 以 发 起 通信 。 


(2) 仲裁 阶段 


节点 是 通过 在 8 条 或 者 16 条 数据 总 线 上 《8 位 宽 SCSI 有 8 条 ，16 位 
宽 SCSI 有 16 条 ) 提升 自己 对 应 的 那 条 线路 的 电位 来 申请 总 线 使 用 权 
的 。 提 升 自己 ID 对 应 线路 的 电位 的 同时 ， 这 个 节点 也 提升 BSY 线 路 的 
电位 。 每 个 ID 号 对 应 这 8 条 或 者 16 条 线 中 的 一 条 。SCSI 设 备 上 都 有 跳 
线 用 来 设置 这 个 设备 的 ID 号 。 跳 线 设 置 好 之 后 ， 这 个 设备 每 次 申请 仲 
裁 都 只 会 在 SCSI 接 口 的 8 条 或 16 条 数据 线 中 的 对 应 它 自身 ID 的 那 条 线 
上 提升 电位 。 如 果 同 时 有 多 个 节点 提升 了 各 自 线 路 上 的 电位 ， 那 么 所 
有 发 起 申请 的 节点 均 判断 总 线 上 的 这 些 信号 ， 如 果 自 己 是 最 高 优先 级 
的 ， 那 么 就 持续 保留 这 个 信号 。 而 其 他 低 优先 级 的 节点 一 旦 检测 到 高 
优先 级 的 ID 线路 上 有 信号 ， 则 立即 撤销 自身 的 信号 ， 回 到 初始 状态 等 
待 下 轮 仲 裁 ， 而 最 高 优先 级 的 ID 就 在 这 轮 仲裁 中 获胜 ， 取 得 总 线 的 使 
用 权 ， 同 时 将 SEL 信 和 号 线 提升 电位 。 


SCSI 总 线 的 寻 址 方式 ， 按 照 控 制 器 一 通道 一 SCSI ID 一 LUN ID 来 
寻 址 。LUN 是 个 新 名 词 ， 全 称 是 Logical Unit Number， 后 文 会 对 它 进 
行 描述 。 


先 看 一 下 控制 器 一 级 寻 址 。 控 制 器 就 是 指 SCSI 控 制 器 ， 这 个 控制 
器 集成 在 南 桥 上 ， 或 者 独立 于 某 个 PCI 插 卡 。 但 不 管 在 哪里 ， 它 们 都 
要 连接 到 主机 IO 总 线 上 。 有 IO 端口 ， 就 可 以 让 CPU 访问 到 。 一 个 主机 
IO 总 线 上 不 一 定 只 有 一 个 SCSI 控 制 器 ， 可 以 有 多 个 ， 比 如 插入 多 张 
SCSI 卡 到 主板 ， 那 么 就 会 在 windows 系 统 的 设备 管理 器 中 发 现 多 个 
SCSI 控 制 器 。 系 统 会 区 分 每 个 控制 器 。 


每 个 控制 器 又 可 以 有 多 个 通道 。 通 道 也 就 是 SCSI 总 线 ， 一 条 SCSI 
总 线 就 是 一 个 通道 。 那 么 多 条 SCSI 总 线 (通道 ) 可 以 被 一 个 控制 器 管 


理 么 ? 答案 是 肯定 的 ， 这 个 物理 控制 器 会 被 逻辑 划分 为 多 个 虚拟 的 、 
可 以 管理 多 个 通道 (SCSI 总 线 ) 的 控制 器 ， 称 为 多 通道 控制 器 。 目 前 
市 场 上 有 的 产品 可 以 将 4 个 通道 集成 到 一 个 单独 的 SCSI 卡 上 。 不 仅仅 
SCSI 控 制 器 可 以 有 多 通道 ，IDE 控 制 器 也 有 通道 的 概念 。 我 们 知道 ， 
普通 台式 机 主板 上 一 般 会 有 两 个 IDE 插 槽 ， 一 个 IDE 插 槽 可 以 连接 两 个 
IDE 设 备 ， 但 是 设备 管理 器 中 只 有 一 个 IDE 控 制 器 ， 如 图 3-23 所 示 。 也 
就 是 说 一 个 控制 器 掌管 着 两 个 通道 ， 每 个 通道 (总线) 上 都 可 以 接 入 
两 个 IDE 设 备 。 


图 3-23 ”Windows 中 的 IDE 控 制 器 


常 说 的 “ 单 通道 SCSI 卡 >” 和“ 双 通 道 SCSI 卡 ”， 就 是 指 上 面 可 以 接 几 
条 SCSI 总 线 。 当 然 通道 数目 越 多 ， 能 接 入 的 SCST 设 备 也 就 越 多 。 


每 个 通道 (总 线 ) 上 可 以 接 入 8 或 16 个 SCSI 设 备 ， 所 以 必须 区 分 
开 每 个 SCSI 设 备 。SCSI ID 就 是 针对 每 个 设备 的 编号 ， 每 个 通道 上 的 设 
备 都 有 自己 的 ID。 不 同 通道 之 间 的 设备 ID 可 以 相同 ， 并 不 影响 它们 的 
区 分 ， 因 为 它们 的 通道 号 不 同 。 如 图 3-24 所 示 为 多 通道 控制 器 示意 
辐 。 


图 3-24 ”多 通道 控制 器 示意 图 


图 3-25 中 所 示 的 机 器 安装 了 一 块 LSI 的 SCSI 卡 ， 但 是 显示 为 两 个 设 
这 两 个 设备 就 是 两 个 通道 。 


加 


图 3-25 ”Windows 中 的 SCSI 控 制 器 


其 中 一 个 在 第 3 号 PCI 总 线 上 的 第 三 个 设备 (第 三 个 PCI 插 槽 ) 
上 。 功 能 0 指 的 就 是 0 号 通道 ， 如 图 3-26 所 示 。 


图 3-26 ”Windows 中 的 控制 器 通道 号 (1) 


另 一 个 也 在 第 3 号 PCI 总 线 上 的 第 三 个 设备 (第 三 个 PCI 插 槽 ) 
上 ， 表 明 这 个 设备 也 在 同一 块 SCSI 卡 上 。 功 能 1 指 的 是 1 号 通道 ， 如 图 
3-27 所 示 。 


图 3-27 Windows 中 的 控制 器 通道 号 (2) 


然而 ，SCSI ID 并 不 是 SCSI 总 线 网 络 中 的 最 后 一 层 地 址 ， 还 有 一 个 
LUN ID。 这 个 是 做 什么 用 的 呢 ? 难道 一 个 SCSIID ， 也 就 是 一 个 SCSI 
设备 ， 还 可 以 再 划分 ? 是 的 ， 可 以 再 分 ! 再 分 就 不 是 物理 上 的 分 割 
了 ， 总 不 能 把 一 个 SCSI 设 备 玫 开 两 半 吧 。 只 能 在 逻辑 上 分 ， 每 个 SCSI 
ID 下 面 可 以 再 区 分 出 来 若干 个 LUN ID。 控 制 器 初始 化 的 时 候 ， 会 对 每 
个 SCSIID 上 的 设备 发 出 一 条 Report LUN 指 令 ， 用 来 收集 每 个 SCSI ID 
设备 的 LUN 信 息 。 这 样 ， 一 条 SCSI 总 线 上 可 接 入 的 最 终 逻 辑 存储 单元 
数量 就 大 大 增加 了 。LUN 对 传统 的 SCSI 总 线 来 说 意义 不 大 ， 因 为 传统 
SCSI 设 备 本 身 已 经 不 可 物理 上 再 分 了 。 如 果 一 个 物理 设备 上 没有 再 次 
划分 的 逻辑 单元 ， 那 么 这 个 物理 设备 必须 向 控制 器 报告 一 个 LUN0， 
代表 物理 设备 本 身 。 对 于 带 RAID 功 能 的 SCSI 接 口 磁盘 阵列 设备 来 
说 ， 由 于 会 产生 很 多 的 虚拟 磁盘 ， 所 以 只 靠 SCSI ID 是 不 够 的 ， 这 时 候 
就 要 用 到 LUN 来 扩充 可 寻 址 的 范围 ， 所 以 习惯 上 称 磁盘 阵列 生成 的 虚 
拟 磁 盘 为 LUN。 关 于 RAID 和 磁盘 阵列 会 分 别 在 本 书 的 第 4 人 6 章 中 介 


ZL 
绍 。 


(3) 选择 阶段 


仲裁 阶段 之 后 ， 获 胜 的 节点 会 将 BSY 和 SEL 信 号 线 置 位 ， 然 后 将 8 
或 16 条 数据 总 线 上 对 应 它 自身 ID 的 线路 和 对 应 它 要 通信 的 目标 D 的 线 


路 的 电位 提升 ， 这 样 目的 节点 就 能 感知 到 它 自己 的 线路 上 来 了 信号 ， 
开始 做 接收 准备 。 


提示 : SCSI 控 制 器 也 是 总 线 上 的 一 个 节点 ， 它 的 优先 级 必须 
是 最 高 的 ， 即 等 于 7， 因 为 控制 器 需要 掌控 整 条 总 线 。 


总 线 上 最 常 发 生 的 是 控制 器 向 其 他 节点 发 送 和 接收 数据 ， 而 除 控 
制 器 之 外 的 其 他 节点 之 间 交 互 数据 ， 一 般 是 不 会 发 生 的 。 如 果 要 从 总 
线 上 的 一 块 硬盘 复制 数据 到 另 一 块 硬盘 ， 那 也 必须 先 将 数据 发 送 到 控 
制 器 ， 控 制 器 再 复制 到 内 存 ， 经 过 CPU 运算 后 再 次 发 给 控制 器 ， 然 后 
控制 器 再 发 给 另外 一 块 硬盘 。 经 过 这 么 长 的 路 径 而 不 直接 让 这 两 块 硬 
盘 建 立 通信 ， 原 因 就 是 硬盘 本 身 是 不 能 感知 文件 这 个 概念 的 ， 硬 盘 只 
理解 SCSI 语 言 ， 而 SCSI 语 言 是 处 理 硬盘 LBA 块 的 ， 即 告诉 硬盘 读 或 者 
写 某 些 LBA 地 址 上 的 局 区 〈 块 ) ， 而 不 可 能 告诉 硬盘 读 写 某 个 文件 。 
文件 这 个 层次 的 功能 是 由 运行 在 主机 上 的 文件 系统 代码 所 实现 的 ， 所 
以 硬盘 必须 将 数据 先 传送 到 主机 内 存 由 文件 系统 处 理 ， 然 后 再 发 向 另 
外 的 硬盘 。 


这 就 是 SCSI 的 网 络 层 。 每 个 节点 都 在 有 条 不 订 地 和 控制 器 交互 着 
数据 。 


3。SCSI 协 议 的 传输 层 


OSI 模型 中 的 传输 层 的 功能 束 是 保障 此 端的 效 据 成 功 地 传送 到 彼 
端 。 与 链 路 层 不 同 的 是 ， 链 路 层 只 是 保障 线路 两 端 数 据 的 传送 ， 而 且 
一 旦 某 个 帧 出 错 ， 链 路 层 程 序 本 身 不 会 重新 传送 这 个 帧 。 所 以 ， 需 要 
有 一 个 端 到 端的 机 制 来 保障 传输 ， 这 个 机 制 是 运行 在 通信 双方 最 终 的 
两 端的 ， 而 不 是 某 个 链 路 的 两 端 。 


图 3-28 显 示 了 SCSI 协 议 是 如 何 保障 每 个 指令 都 被 成 功 传送 到 对 方 
的 。 


图 3-28 ”控制 器 向 设备 发 送 数据 〈 写 入 数据 ) 


发 起 方 在 获得 总 线 仲裁 之 后 ， 会 发 送 一 个 SCSI Command 写 命令 
帧 ， 其 中 包含 对 应 的 LUN 号 以 及 LBA 地 址 段 。 接 收 端 接收 后 ， 就 知道 
下 一 步 对 方 就 要 传输 数据 了 。 接 收 方 做 好 准备 后 ， 向 发 起 方 发 送 一 个 
XFER_RDY 帧 ， 表 示 已 经 做 好 接收 准备 ， 可 以 随时 发 送 数 据 。 


发 起 方 收 到 XFER_RDY 帧 之 后 ， 会 立即 发 送 数 据 。 每 发 送 一 帧 数 
据 ， 接 收 方 就 回 送 一 个 XFER_RDY 帧 ， 表 示 上 一 帧 成 功 收 到 并 且 无 错 
] 关 ) 可 以 立即 发 送 下 一 帧 ， 到 数据 发 送 结 束 。 


接收 方 发 送 一 个 RESPONSE 帧 来 表示 这 条 SCSI 命 令 执行 完毕 。 
图 3-29 是 一 个 SCSI 读 过 程 的 示意 图 。 
图 3-29 ”控制 器 向 设备 读 取 数据 


发 起 方 在 获得 总 线 仲裁 之 后 ， 会 发 送 一 个 SCSI Command 读 命令 
帧 。 接 收 端 接收 后 ， 立 即将 该 命令 中 给 出 的 LUN 以 及 LBA 地 址 段 的 所 
有 扇 区 的 数据 读 出 ， 传 送 给 发 起 端 。 


所 有 数据 传输 结束 后 ， 目 标 端 发 送 一 个 RESPONSE 帧 来 表示 这 条 


SCSI 命 令 执 行 完 毕 。 


SCSI 协 议 语言 就 是 利用 这 种 两 端 节点 之 间 相 互 传送 一 些 控制 帧 ， 
来 达到 保障 数据 成 功 传输 的 目的 。 


4. SCSI 协 议 的 会 话 层 、 表 示 层 和 应 用 层 


会 话 层 、 表 示 层 和 应 用 层 是 OSI 模型 中 最 上 面 的 三 层 ， 是 与 底层 
网 络 通 信 语 言 无 关 的 ， 底 层 语言 没有 必要 了 解 上 层 语言 的 含义 。 有 没 
有 会 话 层 ， 完 全 取决 于 利用 这 个 协议 进行 通信 的 应 用 程序 。 这 里 我 们 
束 不 再 详 述 了 。 


3.6 ”磁盘 控制 器 、 驱 动 器 控制 电路 和 磁盘 控制 器 
驱动 程序 


3.6.1 ”磁盘 控制 器 


硬盘 的 接口 包括 物理 接口 ， 也 就 是 硬盘 接 入 到 磁盘 控制 器 上 需要 
用 的 接口 ， 具 体 的 针 数 、 某 个 针 的 作用 等 。 除 了 物理 接口 规范 之 外 ， 
还 定义 了 一 套 指 令 系 统 ， 叫 做 逻辑 接口 。 磁 盘 通过 物理 线 绕 和 接口 连 
接 到 磁盘 控制 器 之 后 ， 若 想 在 磁盘 上 存放 一 个 字母 应 该 怎么 操作 ? 这 
是 需要 业界 定义 的 很 重要 的 东西 。 指 令 集 定义 了 “怎样 向 磁盘 发 送 数据 
和 从 磁盘 读 取 数据 以 及 怎样 控制 其 他 行为 ”， 比 如 SCSI 和 ATA 指 令 。 其 
中 ， 逻 辑 接口 ， 也 就 是 SCSI 或 者 ATA 指 令 集 部 分 ， 指 令 实体 内 容 是 需 
要 由 运行 于 操作 系统 内 核 的 驱动 程序 来 生成 的 ， 而 物理 接口 的 连接 ， 
就 是 磁盘 控制 器 心 片 需要 负责 的 ， 比 如 ATA 控 制 器 或 SCSI 控 制 器 。 磁 
盘 控 制 器 的 作用 是 参与 底层 的 总 线 初始 化 、 仲 裁 等 过 程 以 及 指令 传输 
过 程 、 指 令 传输 状态 机 、 重 传 、ACK 确 认 等 ， 将 这 些 太 过 底层 的 机 制 
过 渡 挥 ， 从 而 向 驱动 程序 提供 一 种 简洁 的 接口 。 驱 动 程序 只 要 将 要 读 
与 的 设备 号 、 起 始 地 址 等 信息 ， 也 就 是 指令 描述 块 (Command 
Description Block，CDB) 传递 给 控制 器 即 可 ， 控 制 器 接受 指令 并 做 相 
应 动作 ， 将 执行 后 的 结果 信号 返回 给 驱动 程序 。 


3.6.2 ”驱动 器 控制 电路 


应 该 将 磁盘 控制 器 和 磁盘 驱动 器 的 控制 电路 区 别 开 来 ， 二 者 是 作 
用 于 不 同 物理 位 置 的 。 磁 盘 驱 动 器 控制 电路 位 于 磁盘 驱动 器 上 ， 它 专 
门 负责 直接 驱动 磁头 壁 做 运动 来 读 写 数据 : 而 主板 上 的 磁盘 控制 器 专 
门 用 来 向 磁盘 驱动 器 的 控制 电路 发 送 指令 ， 从 而 控制 磁盘 驱动 器 读 写 
数据 。 由 磁盘 控制 器 对 磁盘 驱动 器 发 出 指令 ， 进 而 操作 磁盘 ，CPU 做 
的 仅仅 是 操作 控制 器 就 可 以 了 。 来 梳理 一 下 这 个 结构 ，CPU 通 过 主板 
上 的 导线 发 送 SCSI 或 者 ATA 指 令 (CDB) 给 同样 处 于 主板 上 的 磁盘 控 
制 器 ， 人 磁盘 控制 器 继而 通过 线 绕 将 指令 发 送 给 磁盘 驱动 器 并 维护 底层 
指令 交互 状态 机 ， 由 磁盘 驱动 器 解析 收 到 的 指令 从 而 根据 指令 的 要 求 
来 控制 磁头 臂 。 


SCSI 或 者 ATA 指 令 CDB 是 由 OS 内 核 的 磁盘 控制 器 驱动 程序 生成 并 
发 送 的 。CPU 通 过 执行 磁盘 控制 器 驱动 程序 ， 生 成 指令 发 送 给 磁盘 控 
制 器 ， 控 制 器 收 到 这 些 CDB 后 ， 会 做 一 定 程度 的 翻译 映射 工作 ， 生 成 
最 底层 的 磁盘 可 接受 的 纯 SCSI 指 令 ， 然 后 通过 底层 的 物理 操作 ， 比 如 
总 线 仲裁 ， 然 后 编码 ， 再 在 线 缆 上 将 指令 发 送 给 对 应 的 磁盘 。 


3.6.3 ”磁盘 控制 器 驱动 程序 


那么 机 器 刚 通电 ， 操 作 系统 还 没有 启动 起 来 并 加 载 磁 盘 控制 器 驱 
动 的 时 候 ， 此 时 是 怎么 访问 磁盘 的 呢 ? CPU 必须 执行 磁盘 通道 控制 器 
驱动 程序 才能 与 控制 器 交互 ， 才 能 读 写 数 据 。 所 以 ， 系 统 BIOS 中 存放 
了 初始 化 系统 所 必需 的 基本 代码 。 系 统 BIOS 初 始 化 过 程 中 有 这 么 一 
步 ， 就 是 去 发 现 并 执行 磁盘 控制 器 的 Optional ROM (该 ROM 被 保存 在 
磁盘 通道 控制 器 中 或 者 单独 的 Flash 必 片 内 ) ， 该 ROM 内 包含 了 该 控制 
器 的 最 原始 的 、 可 在 主 BIOS 下 执行 的 驱动 程序 ， 主 BIOS 载 入 并 执行 


该 ROM， 从 而 就 加 载 了 其 驱动 程序 ， 也 就 可 以 与 控制 器 进行 交互 了 。 
最 后 主 BIOS 通 过 执行 驱动 程序 而 使 得 CPU 可 以 发 送 对 应 的 读 指令 ， 提 
取 磁 盘 的 0 磁道 的 第 一 个 扇 区 中 的 代码 载 入 内 存 执行 ， 从 而 加 载 OS。 


系统 BIOS 〈 主 BIOS) 中 是 包含 常用 的 磁盘 控制 器 驱动 程序 的 ， 
但 是 对 于 一 些 不 太 常 用 的 较 高 端的 板 载 控 制 器 或 者 PCIE 卡 形式 的 控制 
卡 ， 主 BIOS 一 般 不 包含 其 驱动 ， 所 以 必须 主动 加 载 其 Optional ROM 才 
能 在 主 BIOS 下 驱动 。 如 果 根 本 不 需要 在 主 BIOS 下 使 用 该 控制 器 ， 那 
么 就 不 必 加 载 Optional ROM。 在 OS 内 核 启 动 过 程 中 ， 会 用 高 性 能 的 驱 
动 程序 来 接管 BIOS 中 驻 留 的 驱动 程序 。 当 然 ，BIOS 中 也 要 包含 键盘 
驱动 ， 如 果 支 持 USB 移 动 设 备 局 动 ， 还 要 有 USB 驱 动 。 


图 3-30 显 示 了 磁盘 控制 器 驱动 程序 、 磁 盘 控 制 器 和 磁盘 驱动 器 控 
制 电路 三 者 之 间 的 关系 。 控 制 器 驱动 程序 负责 将 上 层 下 发 的 SCSIATA 
指令 传递 给 控制 器 硬件 。 


图 3-30 ”磁盘 控制 器 驱动 程序 、 磁 盘 控制 器 和 磁盘 驱动 器 控制 电路 三 者 的 关系 


安装 操作 系统 时 ， 安 装 程序 要 求 必须 加 载 完 整 的 磁盘 控制 器 驱动 
程序 之 后 才 可 以 识别 到 控制 器 后 面 的 磁盘 从 而 才 可 以 继续 安装 。 此 时 
里 然 系统 BIOS 里 的 基本 简化 驱动 已 经 可 以 向 磁盘 进行 读 写 操作 ， 但 是 
其 性 能 是 很 差 的 ， 基 本 都 使 用 Int13 调 用 方式 ; 而 现代 操作 系统 都 抛弃 
了 这 种 方式 ， 所 以 安装 操作 系统 过 程 中 必须 加 载 完 整 驱 动 才 可 以 获得 
较 高 的 性 能 。 至 于 系统 安装 完 后 的 启动 过 程 ， 一 开始 必须 由 BIOS 来 将 
磁盘 的 0 磁道 代码 读 出 执行 以 便 加 载 操 作 系 统 ， 使 用 的 是 简化 驱动 ， 启 
动 过 程 中 ，OS 的 完整 驱动 会 替代 掉 BIOS 的 简化 驱动 被 加 载 。 


提示 : 本 书 第 9 章 会 详细 描述 SAN Boot 的 启动 过 程 以 及 磁盘 
控制 器 驱动 程序 的 详细 架构 。 


3.7 ”内 部 传输 速率 和 外 部 传输 速率 
3.7.1 ”内 部 传输 速率 


磁盘 的 内 部 传输 速率 措 的 是 磁头 读 写 磁盘 时 的 最 高 速率 。 这 个 速 
率 不 包括 寻 道 以 及 等 待 扇 区 旋转 到 磁头 下 所 耗费 时 间 的 影响 。 它 是 一 
种 理想 情况 ， 即 假设 磁头 读 写 的 时 候 不 需要 换 道 ， 也 不 专门 读 取 某 个 
扇 区 ， 而 是 只 在 一 个 磁道 上 连续 地 循环 读 写 这 个 磁道 的 所 有 扇 区 ， 此 
时 的 速率 就 叫做 硬盘 的 内 部 传输 速率 。 


通常 ， 每 秒 10000 转 的 SCSI 硬 盘 的 内 部 传输 速率 的 数量 级 大 概 在 
1000MB/s 左 右 。 但 是 为 何 实际 使 用 硬盘 的 时 候 ， 比 如 复制 一 个 文件 ， 
其 传输 速率 充其量 只 是 每 秒 几 十 焰 字 节 呢 ? 原因 就 是 磁头 需要 不 断 换 
道 。 


想象 : 闪电 侠 正 在 做 数学 题 ， 假 设 我 们 不 打 断 他 ， 他 每 秒 能 
连续 做 100 道 题 ， 此 时 我 们 每 隔 0.1 秒 ， 就 和 他 交谈 打 断 他 一 
次 ， 每 次 交谈 的 时 间 是 0.5 秒 。 也 就 是 说 内 电 侠 实际 上 做 数学 
题 的 时 间 是 每 隔 0.5 秒 做 一 次 ， 每 次 只 能 做 0.1 秒 的 时 间 。 这 
样 ， 每 0.6 秒 闪电 侠 只 能 做 10 道 题 ， 那 么 可 以 计算 出 内 电 侠 实 
际 每 秒 能 做 的 数学 题 只 有 区 区 16 道 ， 这 和 我 们 不 打 断 他 时 的 
每 秒 100 道 题 相 比 差 了 6 倍 多 。 


同样 ， 磁 盘 也 是 这 个 道理 ， 我 们 不 断 地 用 换 道 来 打 断 磁头 。 磁 头 
滑 过 盘 片 一 圈 ， 只 需要 很 短 的 时 间 ， 而 换 道 所 需 的 时 间 远 远 比 盘 片 旋 


转 一 图 耗费 的 时 间 多 ， 所 以 造成 磁盘 整体 外 部 传输 速率 显著 下 降 。 有 
人 问 ， 必 须要 换 道 么 ”如 果 要 读 写 的 数据 仅仅 在 一 条 磁道 上 ， 那 是 可 
以 获得 极 高 的 传输 速率 的 ， 但 是 这 并 不 容易 实现 。 如 今 ， 随 着 硬盘 容 
量 的 加 大 ， 应 用 程序 产生 的 文件 更 是 在 肆 无 尽 悦 地 加 大 ， 动 辆 几 十 、 
几 百 兆 甚 至 上 GB 大 小 ， 敢 问 这 种 文件 用 一 个 磁道 能 放下 么 ? 显然 不 


和 人 已 
月 Co 


所 以 ， 磁 头 必须 不 断 地 被 < 打 断 ”去 进行 换 道 操作 ， 整 体 传 输 速率 
就 会 大 大 降低 。 实 际 中 一 块 10000 转 的 SCSI 硬 盘 的 实际 外 部 传输 速率 
也 只 有 80MB/s 左 右 (最 新 的 15000 转 的 SAS 硬 盘 外 部 传输 率 最 大 已 经 
可 以 达到 200MB/s) 。 为 了 避免 磁头 被 不 断 打 断 的 问题 ， 人 们 发 明了 
RAID 技 术 ， 让 一 个 硬盘 的 磁头 在 换 道 时 ， 另 一 个 磁盘 的 磁头 在 读 写 。 
如 果 有 很 多 磁盘 联合 起 来 ， 同 一 时 刻 总 有 某 块 硬盘 的 磁头 在 读 写 状态 
而 不 是 都 在 换 道 状态 ， 这 就 相当 于 一 个 大 虚拟 磁盘 的 磁头 总 是 处 于 读 
写 状 态 ， 所 以 RAID 可 以 显著 提升 传输 速率 。 不 仅 如 此 ， 如 果 我 们 将 
RAID 阵 列 再 次 进行 联合 ， 就 能 将 速率 在 RAID 提 速 的 基础 上 ， 再 次 成 
倍 地 增加 。 这 种 工作 ， 就 需要 大 型 磁盘 阵列 设备 来 做 了 。 


提示 : RAID 技 术 的 细节 在 本 书 第 4 章 详细 前 述 ; 磁盘 阵列 技 
术 将 在 本 书 第 6 章 介绍 。 


3.7.2 ”外 部 传输 速率 


磁头 从 盘 片 上 将 数据 读 出 ， 然 后 存放 到 硬盘 驱动 器 电路 板 上 的 缓 
存心 片 内 ， 再 将 数据 从 缓存 内 取出 ， 通 过 外 部 接口 传送 给 主板 上 的 硬 
盘 控 制 器 。 从 外 部 接口 传送 给 硬盘 控制 器 时 的 传输 速率 ， 就 是 硬盘 的 
外 部 传输 速率 。 这 个 动作 是 由 硬盘 的 接口 电路 来 发 起 和 控制 的 。 接 口 
电路 和 磁头 控制 电路 是 不 同 的 部 分 ， 磁 头 电 路 部 分 是 超 精密 高 成 本 的 


部 件 ， 可 以 保证 磁头 读 写 时 的 高 速率 。 但 是 因为 磁头 要 被 不 断 地 打 
断 ， 所 以 外 部 接口 传输 速率 无 须 和 磁头 传输 速率 一 样 ， 只 要 满足 最 终 
的 实际 速率 即 可 。 人 外 部 接口 的 速率 通常 大 于 实际 使 用 中 磁头 读 瑟 数据 
的 速率 〈《 计 入 换 道 的 损失 ) 。 


3.8 ”并行 传 输 和 串 行 传 输 
3.8.1 ”并行 传输 


来 举 一 个 例子 ， 有 8 个 数字 从 1 到 8， 需 要 传送 给 对 方 。 此 时 我 们 可 
以 与 对 方 连接 8 条 线 ， 每 条 线 上 传输 一 个 字符 ， 这 就 是 并 行 传输 。 并 行 
传输 要 求 通信 双方 之 间 的 距离 足够 短 。 因 为 如 果 距 离 很 长 ， 那 么 这 8 条 
线 上 的 数字 因为 导线 电阻 不 均衡 以 及 其 他 各 种 原因 的 影响 ， 最 终 到 达 
对 方 的 速度 就 会 显现 出 差距 ， 从 而 造成 接收 方 必须 等 8 条 线 上 的 所 有 数 
字 都 到 达 之 后 ， 才 能 发 起 下 一 轮 传送 。 


并 行 传输 应 用 到 长 距离 的 连接 上 就 无 优点 可 言 了 。 首 先 ， 在 长 距 
离 上 使 用 多 条 线路 要 比 使 用 一 条 单独 线路 昂贵 ; 其次， 长 距离 的 传输 
要 求 较 粗 的 导线 ， 以 便 降 低 信号 的 衰减 ， 这 时 要 把 它们 捆 到 一 条 单独 
电缆 里 相当 困难 。IDE 硬 盘 所 使 用 的 40 或 者 80 必 电缆 就 是 典型 的 并 行 
传输 。40 心 中 有 32 心 是 数据 线 ， 其 他 8 心 是 承载 其 他 控制 信号 用 的 。 所 
以 ， 这 种 接口 一 次 可 以 同时 传输 32b 的 数据 ， 也 就 是 4B。 


提示 : IO 延迟 与 Queue Depth 

IO 延迟 是 指控 制 器 将 IO 指令 发 出 之 后 ， 直 到 IO 完成 的 过 程 中 
所 耗费 的 时 间 。 目 前 业界 有 不 成 文 的 规定 ; 只 要 IO 延迟 在 
20ms 以 内 ， 此 时 IO 的 性 能 对 于 应 用 程序 来 说 都 是 可 以 接受 


的 ， 但 是 如 果 延 迟 大 于 20ms， 应 用 程序 的 性 能 将 会 受到 比较 
大 的 影响 。 

我 们 可 以 推算 出 ， 存 储 设备 应 当 满 足 的 最 低 IOPS 要 求 应 该 为 
1000/20= 二 50， 即 只 要 存储 设备 能 够 提供 每 秒 50 次 IO， 则 就 能 
够 满足 IO 延迟 小 于 等 于 20ms 的 要 求 。 但 是 每 秒 50 次 ， 这 显然 
太 低 估 存 储 设备 的 能 力 了 。 

单 块 SATA 硬 盘 能 够 提供 最 大 两 倍 于 这 个 最 低 标准 的 数值 ， 而 
FC 磁 盘 则 可 以 达到 4 倍 于 这 个 数值 。 对 于 大 型 磁盘 阵列 设 
备 ， 由 若干 磁盘 共同 接受 IO ， 加 上 若干 个 IO 通道 并 行 工 作 ， 
目前 中 高 端 设备 达到 十 几 万 的 IOPS 已 经 不 成 问题 。 

然而 ， 不 能 总 以 最 低 标准 来 要 求 存 储 设备 。 当 接受 IO 很 少 的 
时 候 ，IO 延 迟 一 般 会 很 小 ， 比 如 1ms 甚 至 小 于 1ms。 此 时 ， 每 
个 IO 通 道 的 IOPS = 二 1000/1 二 1000， 这 个 数值 显然 也 不 对 ， 上 
文 所 述 的 几 十 万 IOPS， 如 果 每 个 IO 通道 仅 提 供 1000 的 IOPS ， 
那么 达到 几 十 万 ， 需 要 几 百 路 IO 通道 ， 这 显然 不 切实 际 。 那 
么 几 十 万 的 IOPS 是 怎么 达到 的 呢 ? 这 就 引出 了 另 一 个 概念 : 
Queue Depth。 

控制 器 向 存储 设备 发 起 的 指令 ， 不 是 一 条 一 条 顺序 发 送 的 ， 
而 是 一 批 一 批 地 发 送 ， 存 储 目标 设备 批量 执行 IO ， 然 后 将 数 
据 和 结果 返回 控制 器 。 也 就 是 说 ， 只 要 存储 设备 肚 量 和 消化 
能 力 足 够 ， 在 IO 比较 少 的 时 候 ， 处 理 一 条 指令 和 同时 处 理 多 
条 指令 将 会 耗费 几乎 相同 的 时 间 。 控 制 器 所 发 出 的 批量 指令 
的 最 大 条 数 ， 由 控制 器 上 的 Queue Depth 决 定 。 如 果 连 接 外 部 
独立 磁盘 阵列 ， 则 一 般 主机 控制 器 端 可 以 将 其 Queue Depth 设 
置 为 64、128 等 值 ， 视 情况 而 定 。 

如 果 给 出 Queue Depth、IOPS、IO 延 迟 三 者 中 的 任意 两 者 ， 则 
可 以 推算 出 第 三 者 ， 公 式 为 : IOPS 二 (Queue Depth) / (IO 


Latency) 。 实 际 上 ， 随 着 Queue Depth 的 增加 ，IO 延 迟 也 会 
随即 增加 ， 二 者 是 互相 促进 的 关系 ， 所 以 ， 随 着 IO 数 目的 增 
多 ， 将 很 快 达到 存储 设备 提供 的 最 大 IOPS 处 理 能 力 ， 此 时 IO 
延迟 将 会 陡峭 地 升 高 ， 而 IOPS 则 增加 缓慢 。 好 的 存储 系统 ， 
其 IO 延迟 的 增加 应 该 是 越 缓慢 越 好 ， 也 就 是 说 存储 设备 内 部 
应 该 具有 快速 IO 消化 能 力 。 而 对 于 消化 不 恨 的 存储 设备 ， 其 
IO 延迟 将 升 高 得 很 快 ， 以 至 于 在 IOPS 较 低 时 ，IO 延 迟 已 经 达 
到 了 20ms 的 可 接受 值 。 消 化 能 力 再 高 ， 也 有 饱和 的 时 候 。 图 
3-31 所 示 为 IO 延迟 与 Queue Depth 示 意图 。 


图 3-31 ” IO 延迟 与 Queue Depth 示 意图 


3.8.2 ” 串 行 传输 


还 是 上 面 的 例子 ， 如 果 只 用 一 条 连 线 来 连接 到 对 方 ， 则 我 们 依次 
在 这 条 线 上 发 送 这 8 个 数字 ， 需 要 发 送 8 次 才能 将 数字 全 部 传送 到 对 
方 。 串 行 传输 在 效率 上 ， 显 然 比 并 行 传输 低 得 多 。 但 是 串 行 也 有 串 行 
的 优势 ， 就 是 凭借 这 种 优势 使 得 硬盘 的 外 部 接口 已 经 彻底 被 串 行 传输 
所 占领 。USB 接 口 、IEEE 1394 接 口 和 和 COM 接口， 这 些 都 是 串 行 传输 
的 计算 机 外 部 接口 。 


并 行 传输 表面 上 看 来 比 串 行 传输 效率 要 高 很 多 倍 ， 但 是 并 行 传输 
有 不 可 和 逾越 的 技术 困难 ， 那 就 是 它 的 传输 频率 不 可 太 高。 由 于 在 电路 
高 速 赫 荡 的 时 候 ， 数 据 线 之 间 会 产生 很 大 的 干扰 ， 造 成 数据 出 错 ， 所 
以 必须 增加 屏 沿 线 。 即 使 加 了 屏 茹 线 ， 也 不 能 保证 屏 洲 掉 更 高 的 频率 
干扰 。 所 以 并 行 传输 效率 高 但 是 速度 慢 。 而 串 行 传输 则 刚好 相反 ， 效 
率 是 最 低 的 ， 每 次 只 传输 一 位 ， 但 是 它 的 速度 非常 高 ， 现 在 已 经 可 以 
达到 10Gb/s 的 传输 速率 ， 但 传输 导线 不 能 太 多 。 


这 样 算 来 ， 串 行 传输 反而 比 并 行 传输 的 总 体 速率 更 快 。 串 行 传输 
不 仅仅 用 于 远 距 离 通信 ， 现 在 就 连 PCI 接 口 都 转向 了 串 行 传输 方式 。 
PCIE 接 口 就 是 典型 的 串 行 传输 方式 ， 其 单条 线路 传输 速率 高 达 
2.5Gb/s， 还 可 以 在 每 个 接口 上 将 多 条 线路 并 行 ， 从 而 将 速率 翻 倍 ， 比 
如 4X 的 PCIE 最 高 可 达 16X， 也 就 是 说 将 16 条 2.5Gb/s 的 线路 并 行 连接 到 
对 方 。 这 仿佛 又 回 到 了 并 行 时 代 ， 但 是 也 只 有 在 短 距离 传输 上 ， 比 如 
主板 上 的 各 个 部 件 之 间 ， 才 能 承受 如 此 高 速 的 并 行 连接 ， 远 距离 传输 


是 达 不 到 的 。 


3.9 ”磁盘 的 IOPS 和 传输 带宽 (吞吐 量 ) 


3.9.1 IOPS 


磁盘 的 IOPS， 也 就 是 每 秒 能 进行 多 少 次 IO， 每 次 IO 根 据 写 入 数据 
的 大 小 ， 这 个 值 也 不 是 固定 的 。 如 果 在 不 频繁 换 道 的 情况 下 ， 每 次 IO 
都 写 入 很 大 的 一 块 连续 数据 ， 则 此 时 每 秒 所 做 的 IO 次 数 是 比较 低 的 ; 
如 果 磁 头 频繁 换 道 ， 每 次 写 入 数据 还 比较 大 的 话 ， 此 时 IOPS 应 该 是 这 
块 硬盘 的 最 低 数值 了 ; 如 果 在 不 频繁 换 道 的 条 件 下 ， 每 次 写 入 最 小 的 
数据 块 ， 比 如 512B ， 那 么 此 时 的 IOPS 将 是 最 高 值 ; 如 果 使 IO 的 
payload 长 度 为 0， 不 包含 开销 ， 这 样 形成 的 IOPS 则 为 理论 最 大 极限 
值 。IOPS 随 着 上 层 应 用 的 不 同 而 有 很 大 变化 。 


提示 : 如 何 才 算 一 次 IO 呢 ? 这 是 很 多 人 都 没有 弄 清 楚 的 问 
题 ， 也 是 定义 很 混乱 的 一 个 问题 。 其 根本 原因 就 在 于 一 次 IO 
在 系统 路 径 的 每 个 层次 上 都 有 自己 的 定义 。 整 个 系统 是 由 一 
个 一 个 的 层次 模块 组 合 而 成 的 ， 每 个 模块 之 间 都 有 各 自 的 接 
口 ， 而 在 接口 间 流 动 的 数据 就 是 IO。 那 么 如 何 才 算 “一 次 ”IO 
呢 ? 以 下 列举 了 各 个 层次 上 的 “一 次 ”IO 的 定义 。 


应 用 程序 向 操作 系统 请 求 :“ 读 取 C:Nead.txt 到 我 的 缓冲 区 ”。 
操作 系统 读 取 后 返回 应 用 程序 一 个 信号 ， 这 次 IO 就 完成 了 。 
这 就 是 应 用 程序 做 的 一 次 IO。 

文件 系统 向 磁盘 控制 器 驱动 程序 请 求 :“ 读 取 从 LBA10000 开 
始 的 后 128 个 局 区 ”， 然 后 “请 读 取 从 LBA50000 开 始 的 后 64 扇 
区 ”， 这 就 是 文件 系统 向 下 做 的 两 次 IO。 这 两 次 IO ， 假 设 对 
应 了 第 一 步 里 那个 应 用 程序 的 请 求 。 

磁盘 控制 器 驱动 程序 用 信号 来 驱动 磁盘 控制 器 向 磁盘 发 送 
SCSI 指 令 和 数据 。 对 于 SCSI 协 议 来 说 ， 完 成 一 次 连续 LBA 地 
址 扇 区 的 读 写 就 算 一 次 IO。 但 是 为 了 完成 这 次 读 或 者 写 ， 可 
能 需要 发 送 若干 条 SCSI 指 令 帧 。 从 最 底层 来 看 ， 每 次 向 磁盘 
发 送 一 个 SCSI 帧 ， 就 算 一 次 IO ， 这 也 是 最 细 粒 度 的 IO。 但 是 
通常 说 磁盘 IO 都 是 指 完成 整个 一 次 SCSIT 读 或 者 写 。 

如 果 在 文件 系统 和 磁盘 之 间 再 插入 一 层 卷 管理 层 ， 或 在 磁盘 
控制 器 和 磁盘 之 间 再 插入 一 层 RAID 虚 拟 化 层 ， 那 么 上 层 的 一 
次 IO 就 往往 会 演变 成 下 层 的 多 次 IO。 


对 于 磁盘 来 说 ， 每 次 IO 就 是 指 一 次 SCSI 指 令 交互 回合 。 一 个 回合 
中 可 能 包含 了 若干 SCSI 指 令 ， 而 这 一 个 回合 里 却 只 能 完成 一 次 IO， 比 
如 “ 读 取 从 LBA10000 开 始 的 后 128 个 局 区 ”。 


例如 ， 写 入 10000 个 大 小 为 1KB 的 文件 到 硬盘 上 ， 耗 费 的 时 间 要 比 
写 入 一 个 10MB 大 小 的 文件 多 得 多 ， 虽 然 数据 总 量 都 是 10OMB。 因 为 写 
入 10000 个 文件 时 ， 根 据 文件 分 布 情况 和 大 小 情况 ， 可 能 需要 做 好 几 万 
甚至 十 几 万 次 IO 才能 完成 。 而 写 入 一 个 10MB 的 大 文件 ， 如 果 这 个 文 
件 在 磁盘 上 是 连续 存放 的 ， 那 么 只 需要 几 十 个 IO 就 可 以 完成 。 


对 于 写 入 10000 个 小 文件 的 情况 ， 因 为 每 秒 需 要 的 IO 非常 高 ， 所 
以 此 时 如 果 用 具有 较 高 IOPS 的 磁盘 ， 将 会 提速 不 少 。 而 写 入 一 个 
10MB 文 件 的 情况 ， 就 算 用 了 有 较 高 IOPS 的 硬盘 来 做 ， 也 不 会 有 提 
升 ， 因 为 只 需要 很 少 的 IO 就 可 以 完成 了 ， 只 有 换 用 具有 较 大 传输 带宽 
的 硬盘 ， 才 能 体现 出 优势 。 


同一 块 磁盘 在 读 写 小 块 数据 的 时 候 速 度 是 比较 高 的 ， 而 读 写 大 块 
数据 的 时 候 速 度 比 较 低 ， 因 为 读 写 花费 的 时 间 变 长 了 。15000 转 的 硬盘 
比 10000 转 的 硬盘 性 能 要 高 。 图 3-32 所 示 为 磁盘 IOPS 性 能 与 1O SIZE 的 
关系 曲线 。 


图 3-32 ”磁盘 IOPS 性 能 与 IO SIZE 的 关系 曲线 
3.9.2 ”传输 带宽 


传输 带宽 指 的 是 硬盘 或 设备 在 传输 数据 的 时 候 数据 流 的 速度 。 还 
是 刚才 那个 例子 ， 如 果 写 入 10000 个 1KB 的 文件 需要 10s， 那 么 此 时 的 
传输 带宽 只 能 达到 每 秒 1MB， 而 写 入 一 个 10MB 的 文件 用 了 0.1s， 那 么 
此 时 的 传输 带宽 就 是 100MB/s。 所 以 ， 即 使 同一 块 硬盘 在 写 入 不 同 大 
小 的 数据 时 ， 表 现 出 来 的 带宽 也 是 不 同 的 。 具 有 高 带宽 规格 的 硬盘 在 
传输 大 块 连续 数据 时 具有 优势 ， 而 具有 高 IOPS 的 硬盘 在 传输 小 块 不 连 
续 的 数据 时 具有 优势 。 


同样 ， 对 于 一 些 磁盘 阵列 来 说 ， 也 有 这 两 个 规格 。 一 些 高 端 产 品 
同时 具备 较 高 的 IOPS 和 带宽 ， 这 样 就 可 以 保证 在 任何 应 用 下 都 能 表现 
出 高 性 能 。 


3.10 ”固态 存储 介质 和 固态 硬盘 


固态 存储 在 这 几 年 来 开始 大 行 其 道 ， 其 在 性 能 方面 相对 机 械 磁 盘 
来 讲 有 着 无 与 伦比 的 优势 ， 比 如 ， 没 有 机 械 寻 道 时 间 ， 对 任何 地 址 的 
访问 耗费 开销 都 相等 ， 所 以 随机 IO 性 能 很 好 。 关 于 SSD 的 一 些 性 能 指 
标 ， 本 市 不 再 列 出 。 


但 是 SSD 也 存在 一 些 致命 的 缺点 ， 现 在 我 们 就 来 了 解 一 下 固态 存 
储 。 


提示 : 关于 固态 硬盘 的 一 些 细节 标准 和 操作 指南 请 参考 《 固 


态 硬盘 火力 全 开 一 一 超 高 速 SSD 应 用 详解 与 技巧 》， 清 华 大 
学 出 版 社 。 


3.10.1 SSD 固态 硬盘 的 硬件 组 成 


SSD (Solid State Drive) 是 一 种 利用 Flash 心 片 或 者 DRAM 心 片 作 
为 数据 永久 存储 的 硬盘 ， 这 里 不 可 以 再 说 磁盘 了 ， 因 为 Flash Drive 不 
再 使 用 磁 技 术 来 存储 数据 。 利 用 DRAM 作 为 永久 存储 介质 的 SSD， 又 
可 称 为 RAM-Dsk， 其 内 部 使 用 SDRAM 内 存 条 来 存储 数据 ， 所 以 在 外 
部 电源 断 开 后 ， 需 要 使 用 电池 来 维持 DRAM 中 的 数据 。 现 在 比较 常见 
的 SSD 为 基于 Flash 介 质 的 SSD。 所 有 类 型 的 ROM (比如 EPROM、 
EEPROM) 和 Flash 心 片 使 用 一 种 叫做 “浮动 门 场 效应 晶体 管 ”的 晶体 管 
来 保存 数据 。 每 个 这 样 的 晶体 管 叫 做 一 个 “Cell*"， 即 单元 。 有 两 种 类 
型 的 Cell: 第 一 种 是 Single Level Cell (SLC) ， 每 个 Cell 可 以 保存 1bit 
的 数据 ; 第 二 种 为 Multi Level Cell (MLC) ， 每 个 Cell 可 以 保存 2bit 的 
数据 。MLC 容 量 为 SLC 的 两 倍 ， 但 是 成 本 却 与 SLC 大 致 相当 ， 所 以 相 
同 容量 的 SSD，MLC 忌 片 成 本 要 比 SLC 忌 片 低 很 多 。 此 外 ，MLC 由 于 
每 个 Cell 可 以 存储 4 个 状态 ， 其 复杂 度 比较 高 ， 所 以 出 错 率 也 很 高 。 不 


SLC 还 是 MLC， 都 需要 额外 保存 ECC 校 验 信息 来 做 数据 的 错误 恢 


oO 


各 式 


我 们 来 看 一 下 这 种 场 效 应 晶体 管 为 何 可 以 保存 数据 。 由 于 计算 机 
的 数据 只 有 0 和 1 两 种 形式 ， 那 么 只 要 让 某 种 物质 的 存在 状态 只 有 两 
种 ， 并 且 可 以 随时 检测 其 状态 ， 那 么 这 种 物质 就 可 以 存储 1bit 数 据 。 
磁盘 使 用 一 块 磁 粒子 区 域 来 保存 1 或 者 0， 那 么 对 于 心 片 来 讲 用 什么 来 
表示 呢 ? 当然 非 电 倚 莫 属 。 比 如 充满 电表 示 0， 放 电 后 表示 1 (这 里 指 
电子 而 不 是 正 电荷 ) 。 浮 动 门 场 效应 晶体 管 就 是 利用 这 种 方法 。 


如 图 3-33 所 示 ， 浮 动 门 场 效应 ”图 333 六 动 [J 入 

管 由 Controler Gate (CG) 、Floating 

Gate (FG) 、 半 导体 二 氧化 硅 绝缘 层 以 及 输入 端 源 极 和 输出 端 汲 极 触 
点 等 逻辑 元 件 组 成 。 浮 动 门 是 一 块 氮 氧化 物 ， 其 四 周 被 二 氧化 硅 绝 缘 
层 包 早 着 ， 其 外 部 为 男 一 个 门 电 路 〈 即 控制 门 ) 。 在 Word Line ( 字 
线 ) 上 拾 高 电势 ， 会 在 S 和 DD 之 间 区 域 感 生 出 一 个 电场 ， 从 而 导 通 S 和 
D、S 和 DD 之 间 有 电流 通过 ， 这 会 使 一 部 分 电子 穿 过 绝缘 层 到 达 浮 动 门 
内 的 氮 氧 化 物 ， 在 这 个 充电 过 程 中 ， 电 子 电荷 被 存储 在 了 浮动 门 中 。 
随后 Word Line 恢 复 电 势 ， 控 制 门 断 开 电场 ， 但 是 此 时 电子 仍然 在 被 绝 
缘 层 包 时 的 浮动 门 电路 中 ， 所 以 此 时 浮动 门 被 充电 ， 并 且 这 些 电 答 可 
以 在 外 部 电源 消失 之 后 依然 依然 可 以 保存 一 段 时 间 。 不 同 规格 的 Flash 
其 保存 时 间 不 同 ， 通 常 为 数 个 月 。 这 为 系统 设计 带 来 了 复杂 性 ，Flash 
控制 器 必须 确保 每 个 Cell 在 电荷 逐渐 泄露 到 无 法 感知 之 前 ， 恢 复 其 原 
先 的 状态 ， 也 就 是 重新 充电 。 而 且 要 逐渐 调整 感知 时 间 ， 由 于 对 Cell 
的 读 操作 是 通过 预 充 电 然后 放电 来 比 对 基准 电压 ， 进 而 判断 1 或 0 的 ， 
如 果 其 中 的 电荷 所 剩 不 多 ， 那 么 感知 基准 电压 的 变化 就 需要 更 长 的 等 
待 时 间 ， 控 制 器 需要 精确 的 做 预 判 才 可 以 保证 性 能 。 


所 谓 “ 浮 动 门 ”(Floating Gate，FG) 的 名 称 也 就 是 由 此 而 来 的 ， 
即 这 块 氮 氧化 物 是 被 二 氧化 硅 绝 缘 层 包 嘻 住 而 浮动 在 空中 的 ， 如 图 3- 
33 右 图 所 示 ， 电 流 从 Source 极 进入 ， 从 Drain 极 流出 ， 浮 动 门 一 头 与 S 
极 接触 ， 一 头 与 DD 极 接触 ， 由 于 被 包 于 有 绝缘 层 ， 当 电路 电压 达到 一 
定 阀 值 之 后 ， 可 以 被 击 穿 导电 ， 从 而 被 充电 或 者 放电 。 被 充电 到 一 定 
电势 阀 值 的 Cell 的 状态 被 表示 为 “0”， 如 果 是 MLC， 可 以 保存 4 个 电势 
状态 ， 分 别 对 应 00、01、10、11，MLC 能 够 用 一 个 Cell 存 储 两 位 ， 也 
是 这 个 道理 ， 要 存 哪 个 数值 ， 就 充电 到 哪个 电势 档 位 。FG 上 方 有 一 片 
金属 ， 称 为 控制 门 (CG) ， 连 接着 字 线 ， 当 需要 用 这 个 Cell 表 示 “0” 的 
时 候 ， 只 需要 在 控制 门 上 加 一 个 足够 高 的 正 电 压 ， 导 通 S 和 DD， 产生 电 
流 ， 从 而 电子 从 Source-Drain 电 极 穿越 冲 入 到 FG 中 。 向 FG 中 充电 之 
后 ，Cell 表 示 0， 将 FG 放电 ，Cell 表 示 1。 


提示 : 这 有 些 难以 记忆 ， 因 为 按照 常规 思维 ， 充 电 应 当 表 示 
1 而 放电 表示 0， 这 里 恰好 相反 。 


至 此 我 们 了 解 到 : Cell 是 利用 FG 中 的 电势 值 来 与 阀 值 对 比 从 而 判 
断 其 表示 1 或 者 0 的 。 那 么 是 否 可 以 让 一 个 Cell 有 多 个 阀 值 ， 让 每 一 个 
阀 值 都 表示 一 种 状态 呢 ? 答案 是 可 以 。MLC 类 型 的 Cell 就 是 这 样 做 
的 。MLC 模 式 的 SSD， 其 每 个 Cell 具 有 4 个 电势 阀 值 ， 每 次 充电 用 特定 
电路 掌握 住 火 候 ， 充 到 一 定 阀 值 之 上 但 是 低 于 下 一 个 阀 值 ， 这 样 ， 利 
用 4 个 闪 值 就 可 以 表示 4 种 状态 了 ，4 个 阀 值 依次 表示 00、01、10、11。 
要 向 其 写 入 什么 值 ， 只 需要 向 其 充 多 少 火候 的 电 就 可 以 了 。 


如 图 3-33 (物理 图 ) 和 3-34 ( 抽 ”>34 Ce 下 有 序 有 国 
象 图 ) 为 Cell 阵 列 的 有 序 排列 图 。 我 
们 可 以 看 到 每 个 Cell 串 是 由 多 个 Cell 串 联 而 成 的 ， 每 个 Cell 串 每 次 只 能 
读 写 其 中 一 个 Cell， 多 个 Cell 串 并 联 则 可 以 并 行 读 写 多 位 数据 。 通 常 一 


个 Page 中 的 所 有 位 中 的 每 个 位 均 位 于 一 个 Cell 串 相同 的 位 置 上 ， 那 么 
对 于 一 个 使 用 2122B ( 含 ECC) /Page 的 芯片 来 讲 ， 就 需要 16896 个 Cell 
串 ， 需 要 16896 条 串联 导线 。 如 图 所 示 ， 将 每 个 Cel 串 上 所 有 Cell 串 联 
起 来 的 导线 称 为 “位 线 "， 也 就 是 串联 每 个 Cell 的 S 和 D 极 的 那 根 导线 ， 
同时 也 是 电源 线 ; 将 多 个 并 联 的 Cell 串 中 相同 位 置 的 Cell 的 CG 金 属 片 
水 平 贯穿 起 来 (并联 ) 的 那 根 导 线 组 称 为 “ 字 线 "， 这 样 就 组 成 了 一 个 
二 维 Cell 和 矩阵 。 


将 多 个 这 样 的 Cell 排 列 在 一 起 形成 阵列 ， 就 可 以 同时 操作 多 个 比 
特 了 。NAND 就 是 利用 大 量 这 种 Cell 有 序 排列 而 成 的 一 种 Flash 芯 片 。 
如 图 3-35 所 示 为 一 片 16GB 容 量 的 Flash 芯 片 的 逻辑 方 框图 。 每 4314x8 二 
34512 个 Cell 逻 辑 上 形成 一 个 Page， 每 个 Page 中 可 以 存放 4KB 的 内 容 和 
218B 的 ECC 校 验 数据 ，Page 也 是 Flash 世 片 IO 的 最 小 单位 。 每 128 个 
Page 组 成 一 个 Block， 每 2048 个 Block 组 成 一 个 区 域 (Plane) ， 一 整 片 
Flash 心 片 由 两 个 区 域 组 成 ， 一 个 区 域 存储 奇数 序号 的 Block， 另 一 个 
则 存储 偶数 序号 的 Block， 两 个 Plane 可 以 并 行 操 作 。Flash 忆 片 的 Page 
大 小 可 以 为 2122B ( 含 ECC) 或 者 4313B ( 含 ECC) ， 一 般 单 片 容量 较 
大 的 Flash 其 Page Size 也 大 。 相 应 地 ，Block Size 也 会 根据 单 片 容量 的 不 
同 而 不 同 ， 一 般 有 32KB、64KB、128KB、512KB (不 含 ECC) 等 规 
格 ， 视 不 同 设计 而 定 。 


图 3-35 ”Flash 心 片 逻 辑 图 


如 图 3-36 所 示 为 Intel X-25M 固 态 硬盘 的 拆 机 图 ， 可 以 看 到 它 使 用 
了 10 片 NAND Flash 心 片 ， 左 上 方 为 SSD 控 制 器 ， 左 下 方 为 RAM 
Buffer。 最 左 侧 为 SATA 物 理 接口 。 


图 3-36 ”Cell 阵 列 有 序 排 布 


如 图 3-37 所 示 为 某 SSD 控 制 器 心 片 的 方 框图 。 其 中 包含 多 个 逻辑 
模块 ， 外 围 接口 部 分 和 底层 供电 部 分 我 们 就 不 去 关心 了 。 这 里 将 目光 
集中 在 右 半 边 ， 其 中 8051CPU 通 过 将 ROM 中 的 Firmware 载 入 IRAM 中 
执行 来 实现 SSD 的 数据 IO 和 管理 功能 。Flash Controller 负 责 向 所 有 连接 
的 NAND Flash 心 片 执 行 读 写 任 务 ， 每 个 NAND 必 片 用 8b 并 行 总 线 与 
Flash Controller 上 的 每 个 通道 连接 ， 每 时 钟 周期 并 行 传递 8b 数 据 。 
Flash Controller 与 Flash 心 片 之 间 也 是 通过 指令 的 方式 来 运作 的 ， 地 址 
言 息 与 数据 信息 都 在 这 8 位 总 线 上 传送 ， 由 于 总 线 位 宽 太 罕 ， 所 以 一 个 
简单 的 寻 址 操作 就 需要 多 个 时 钟 周期 才能 传送 完毕 。 心 片 容量 越 大 ， 
那么 地 址 也 就 越 长 ， 寻 址 时 间 也 就 越 长 ， 所 以 ， 对 于 小 块 随机 IO， 
Flash 会 随 着 容量 的 增加 而 变 得 越 来 越 低 效 。 新 的 Flash 心 片 已 经 有 16b 
总 线 的 设计 了 。 总 绪 频率 目前 一 般 为 33MHz， 最 新 也 有 40MHz 的 。 


图 3-37 ”Flash 控 制 心 片 方 框图 


对 于 数据 写 入 来 说 ， 待 写 入 的 数据 必须 经 过 ECC 校 验 之 后 ， 将 数 
据 和 ECC 校 验 信息 一 并 写 入 已 片 ， 对 于 数据 读 取 来 说 ， 数 据 会 与 其 对 
应 的 ECC 信 息 一 起 读 出 并 作 校 验 ， 校 验 正确 后 才 会 通过 外 部 接口 发 送 
出 去 。ECC 运 算 器 位 于 Flash Controller 中 。 整 个 SSD 会 有 一 片 很 大 容量 
的 RAM (相对 于 机 械 磁 盘 来 讲 ) ， 通 常 是 64MB 甚 至 128MB， 其 原因 
将 在 下 文 讲述 。CPU 执 行 的 代码 相对 于 机 械 磁盘 来 讲 也 是 比较 复杂 
的 ， 天 于 CPU 都 需要 执行 哪些 功能 ， 也 一 并 在 下 文 讲述 。 


3.10.2 ”从 Flash 必 片 读 取 数 据 的 过 程 


MOS 的 导 通 并 不 是 非 通 即 断 的 ， 残 算 截止 状态 ， 也 会 有 电流 漏 
过 ， 只 是 非常 弱 而 已 。 这 里 还 要 明确 一 点 ， 向 绝缘 层 内 充电 是 指 充 入 


电子 ， 芭 入 负电 倚 ， 栅 极 电压 越 负 ，nMOS 就 越 导 不 通 ， 也 就 是 说 ， 
闭 电 电 六 就 越 弱 。 如 果 不 充电 ， 反 而 漏电 电流 还 高 一 些 。 


正 是 在 这 种 前 提 下 ， 从 而 可 以 检测 出 这 种 微弱 电流 的 差别 ， 用 什 
么 手段 ? 还 得 SAMP 上 阵 了 ， 老 生 常 谈 ， 首 先 强 制导 通 未 选中 的 所 有 
Cell 的 MOS， 要 读 取 的 MOS 栅 极 不 加 电压 ， 然 后 给 位 线 预 充电 ( 充 正 
电荷 ， 拉 高 电 平 ) ， 然 后 让 位 线 自己 漏电 ， 如 果 对 应 的 Cell 里 是 充 了 
电 的 ( 充 的 是 电子 负电 荷 ) ， 那 么 MOS 截 止 性 会 加 强 (等 效 于 开启 电 
压 升 高 ) ， 漏 电 很 慢 (电压 相对 维持 在 高 位 ) ， 如 果 没 充电 ， 则 漏电 
很 快 (电压 相对 维持 在 低位 ) ， 所 以 最 终 SAMP 比 较 出 这 两 种 差别 
来 ， 翻 译 成 数字 信号 就 是 ， 充 了 电 二 电压 下 降 的 慢 = 电 压 比 放 了 电 的 
位 线 高 = 逻辑 1， 这 么 想 你 就 错 了 。 此 处 你 忽略 了 一 点 ， 也 就 是 SAMP 
不 是 去 比 对 充 了 电 的 Cell 位 线 和 没 充电 的 Cell 位 线 ， 而 是 把 每 一 根 位 线 
与 一 个 参考 电压 比 对 ， 所 以 ， 这 个 参考 电压 一 定 要 位 于 两 个 比 对 电压 
之 间 。 具 体 过 程 是 这 样 的 ， 假 设 所 有 位 线 预 充电 结束 时 瞬间 电压 为 
1.0v， 然 后 让 位 线 自然 放电 (或 者 主动 将 位 线 一 端 接 地 放电 ) 一 段 时 
间 (非常 短 ) ， 在 这 段 时 间 之 后 ， 原 先 被 充 了 电 的 Cell 其 位 线 压 降 速 
度 慢 ， 可 能 到 0.8v 左 右 ， 而 原先 未 被 充电 的 Cell 其 位 线 讨 降 速度 较 快 ， 
可 能 到 0.4v 左 右 ， 每 一 种 Flash 颗 粒 会 根据 大 量 测 试 之 后 ， 最 终 确 定 一 
个 参考 电压 ， 比 如 0.6v， 也 就 是 位 于 0.4 和 0.8 之 间 。 那 么 当 SAMP 比 对 
充电 Cell 位 线 时 ， 参 考 电 压 小 于 位 线 电压 ，SAMP 普 遍 都 是 按照 参考 电 
压 > 比 对 电压 则 为 逻辑 ， 小 于 则 为 逻辑 0 的 ， 所 以 最 终 的 输出 便 是 ， 充 
电 Cell 反 而 表示 0， 放 了 电 的 Cell 反 而 表示 1。 这 也 正 是 NAND 中 的 “N” 
(NOT， 非 ) 的 来 历 ，AND 则 是 “与 ”， 表 示 Cell 的 S 和 D 是 串 接 起 来 
的 ， 相 当 于 串联 的 开关 ， 它 们 之 间 当 然 是 AND 逻 辑 了 。 


图 3-38” 读 Page 时 的 电压 状态 


如 图 3-38 所 示 ， 当 需要 读 出 某 个 Page 时 ，Flash Controller 控 制 Flash 
心 片 将 相应 这 个 Page 的 字 线 ， 也 就 是 串 接 (实际 上 属于 并 联 ) 同一 个 
Page 中 所 有 Cell 上 的 CG 的 那 根 导线 ， 电 势 置 为 0， 也 就 是 不 加 电压 ， 其 
他 所 有 Page 的 字 线 的 电势 则 升 高 到 一 个 值 ， 也 就 是 加 一 个 电压 ， 而 这 
个 值 又 不 至 于 把 FG 里 的 电子 吸出 来 ， 之 所 以 抬 高 电势 ， 是 为 了 让 其 他 
Page 所 有 的 Cell 的 S 和 D 处 于 导 通 状态 ， 而 没 被 加 电压 的 Cell (CG 上 的 
电势 为 0V) ， 也 就 是 我 们 要 读 取 的 那些 Cell， 其 S 和 D 的 通 断 ， 完 全 取 
决 于 其 FG 中 是 否 存 有 电子 。 


SSD 的 IO 最 小 单位 为 1 个 Page。 所 以 ， 对 于 NAND Flash， 通 过 “ 强 
行 导 通 所 有 未 被 选中 的 CellYAND“ 检 测 位 线 的 通 断 状态 ”= 二“ 被 选中 的 
Cell 的 通 断 状态 >”，NOT“ 被 选中 的 Cell 的 通 断 状态 ”三 “位 线 的 1/0 值 ”。 
把 这 整个 Page 的 1 或 者 0 传输 到 心 片 外 部 ， 放 置 于 SSD 的 RAM Buffer 中 
保存 ， 这 就 完成 了 一 个 Page 内 容 的 读 出 。SSD 的 IO 最 小 单位 为 1 个 
Pageo 


3.10.3 ”向 Flash 心 片 中 写 入 数据 的 过 程 


对 Flash 芯 片 的 写 入 有 一 些 特殊 的 步骤 。Flash 心 片 要 求 在 修改 一 个 
Cell 中 的 位 的 时 候 ， 在 修改 之 前 ， 必 须 先 Erase ( 即 擦 除 掉 ) 这 个 
Cell。 我 们 暂且 先 不 在 此 介绍 为 何 要 先 Erase 再 修改 的 原因 ， 先 说 一 说 
这 个 “Erase” 的 意思 ， 这 里 有 点 误导 之 意 。 我 们 以 机 械 磁 盘 为 例 ， 机 械 
磁盘 上 的 “数据 ?是 永远 都 抹 不 掉 的 ， 如 果 你 认为 将 扇 区 全 部 写 入 0 就 算 
抹 掉 的 话 ， 那 也 是 有 问题 的 ， 你 可 以 说 它 存放 的 全 是 数字 0， 这 也 是 数 
据 。 那 么 SSD 领 域 却 给 出 了 这 个 概念 ， 是 不 是 SSD 中 存在 一 种 介 于 1 和 
0 之 间 的 第 三 种 状态 呢 ， 比 如 虚无 状态 ? 有 人 可 能 会 联想 一 下 ， 
Cell“ 带 负电 *、“ 带 正 电 ”、“ 不 带电 ”， 这 不 就 正好 对 应 了 3 种 状态 么 ? 


我 们 可 以 将 “不 市 电 ” 规 定 为 “虚无 ”状态 ， 是 否 将 Cell 从 市 电 状 态 改 为 不 
市 电 状 态 束 是 所 谓 Erase 呢 ? 不 是 的 。 上 文中 叙述 过 ，Cell 审 电表 示 0， 
不 市 电 则 表示 1，Cell 只 能 市 负电 傈 ， 即 电子 ， 而 不 能 审 正 电 傈 。 所 以 
Cell 只 有 两 种 状态 ， 而 这 两 种 状态 都 表示 数据 。 


思考 : 为 何不 以 “ 带 正 电 ” 表 示 1,“ 带 负电 ”表示 0, “不 带电 >” 
表示 中 间 状 态 ? 如 果 引 入 这 种 机 制 ， 那 么 势必 会 让 电路 设计 
更 加 复杂 ， 电 压 值 需要 横 跨 正 负 两 个 域 ， 对 感应 电路 的 设计 
也 将 变 得 复杂 ， 感 应 电路 不 但 需要 感应 “有 无 ”还 要 感应 “ 正 
负 ”， 这 将 大 大 增加 设计 成 本 和 器 件数 量 。 另 外 ， 感 应 电路 的 
状态 也 只 能 有 两 种 ， 即 表示 为 0 或 者 表示 为 1， 如 果 0 表 示 带 负 
电 ，1 表 示 市 正 电 ， 那 么 就 缺少 一 种 用 来 表示 不 市 电 的 电路 状 
态 ， 而 这 第 三 种 状态 在 感应 电路 中 是 无 法 表示 的 ， 也 就 是 说 
感应 电路 即使 可 以 感知 到 三 种 状态 但 是 也 只 能 表示 出 两 种 状 


APANAO 


其 实 ， 这 里 的 Erase 动 作 其 实 就 是 将 一 大 片 连续 的 Cell 一 下 子 全 部 
放电 ， 这 一 片 连 续 的 Cell 就 是 一 个 Block。 即 每 次 Erase 只 能 一 下 擦 除 一 
整个 Block 或 者 多 个 Block， 将 其 中 所 有 的 Cell 变 为 1 状态 。 但 是 却 不 能 
单独 擦 除 某 个 或 者 某 段 Page， 或 者 单个 或 多 个 Cell。 这 一 点 是 造成 后 
面 将 要 叙述 的 SSD 的 致命 缺点 的 一 个 根本 原因 。Erase 完 成 之 后 ，Cell 
中 全 为 1， 此 时 可 以 向 其 中 写 入 数据 ， 如 果 遇 到 待 写 入 某 个 Cell 的 数据 
位 恰好 为 1 的 时 候 ， 那 么 对 应 这 个 Cell 的 电路 不 做 任何 动作 ， 其 结果 依 
然 是 1; 如 果 遇 到 待 写 入 某 个 Cell 的 数据 位 为 0 的 时 候 ， 则 电路 将 对 应 
Cell 的 字 线 电压 提高 到 足以 让 电子 穿 过 绝缘 体 的 高 度 ， 这 个 电压 被 加 
到 Control Gate 上 ， 然 后 使 得 FG 从 电源 线 (也 就 是 位 线 上 ) 汲取 电子 ， 
从 而 对 Cell 中 的 FG 进行 充电 ， 充 电 之 后 ，Cell 的 状态 从 1 变 为 0， 完 成 


了 写 入 ， 这 个 写 0 的 动作 又 叫做 Programm ， 即 对 这 个 Ce 进行 了 


Programmo 


如 图 3-39 所 示 ， 要 写 入 某 个 图 3-39 写 入 Cell 时 的 电压 状态 

Cell， 首 先 也 必须 先 选中 其 所 在 的 

Page， 也 就 是 将 这 个 Page 的 字 线 加 高 电压 ， 对 应 这 个 Cell 的 位 线 加 0V 
电压 ， 同 一 个 串 里 的 所 有 其 他 Page 的 字 线 也 加 一 个 高 电压 但 是 不 如 待 
写 入 Page 的 高 ， 同 时 不 需要 写 入 操作 的 那些 串 对 应 的 位 线 加 一 个 对 应 
字 线 相同 的 电压 ， 结 果 就 是 ， 不 需要 写 入 数据 的 Cell 的 字 线 和 位 线 电 
压 抵消 ， 电 子 不 动 ; 需要 写 入 数据 的 Cell， 也 就 是 需要 充电 的 Cell， 由 
电势 差 将 电子 从 位 线 中 汲取 过 来 充电 。 仔 细 看 一 下 这 个 过 程 ， 就 会 发 
现 ， 根 本 无 法 在 这 个 二 维和 矩阵 中 做 到 同时 给 一 个 Page 里 〈 一 横行 ) 的 
不 同 Cell 既 充电 又 放电 ， 可 以 自己 推演 一 下 对 应 字 线 和 位 线 的 电压 状 
态 ， 你 会 发 现 永 远 做 不 到 ， 是 个 矛盾 ， 这 也 是 Flash 挥 之 不 去 的 痛 。 我 
们 可 以 思考 一 下 ， 虽 然 不 能 够 同时 对 一 些 cell 有 的 写 0、 有 的 写 1， 那 么 
是 否 可 以 把 一 个 page 的 写 入 分 成 两 个 周期 来 做 呢 ， 比 如 第 一 个 周期 先 
把 要 写 入 0 的 所 有 Cell 写 0， 第 二 个 周期 则 要 把 写 入 1 的 所 有 Cell 写 1， 或 
者 反之 ? 完全 可 以 ， 但 是 设计 者 并 没有 选择 这 么 做 ， 因 为 对 于 Cell 来 
讲 ， 每 个 Cell 都 有 一 定 的 绝缘 体 击 穿 次 数 ， 比 如 MLC 一 个 Cell 可 击 穿 一 
万 次 ， 那 么 就 意味 着 ， 每 个 Page 被 写 入 1 万 次 就 会 报废 ， 这 显然 不 能 接 
受 ， 有 个 办 法 就 是 让 所 有 Cell 循 环 写 入 ， 不 写 到 原 地 ， 每 次 覆盖 写 要 
新 写 入 其 他 位 置 ， 这 样 就 能 够 保证 所 有 Cell 轮 流 被 写 入 ,平衡 整体 寿 
命 。 所 以 设计 者 选择 了 先 预 先 准备 好 大 片 已 经 写 满 了 全 1 的 Cell， 每 次 
写 入 都 写 到 这 些 预先 备 好 的 地 方 ， 只 写 0， 如 果 是 覆盖 写 ， 就 需要 把 之 
前 的 Page 地 址 做 一 个 重 定向 ， 所 以 Flash 控 制 器 还 需要 保存 一 张 地 址 重 
定向 表 。 还 有 一 个 原因 不 用 两 个 周期 来 实现 对 一 个 page 的 写 入 ， 那 就 
是 如 果 每 次 写 入 都 要 耗费 2 个 周期 ， 写 性 能 便 会 又 降 ， 所 以 设计 者 不 得 


不 采用 一 下 子 擦 除 大 片 的 Block， 也 就 是 说 不 用 写 10 一 次 就 放电 一 次 ， 
而 是 类 似 “ 批 发 "*， 然 后 写 入 的 时 候 只 需要 1 个 周期 即 可 ， 所 付出 的 的 代 
价 就 是 后 台 需 要 不 断 地 “批发 "*， 一 旦 断 链 ， 那 么 性 能 便 会 又 降 。 


SSD 会 以 Page 为 单位 进行 写 入 操作 ， 写 完 一 个 Page， 有 再 写 下 一 个 
Pageo 


Flash 领域 里 ， 写 又 被 称 为 Programm。 由 于 Flash 的 最 常见 表现 形 
式 一 一 EPRROM 一 般 是 只 读 的 ， 但 是 一 旦 要 更 改 其 中 的 程序 ， 则 需要 
重新 写 入 ， 即 Re-Programm ， 所 以 就 顺便 将 写 入 Flash 的 过 程 叫做 
Programm 了 。 一 块 帘 新 的 SSD 上 所 有 Cell 都 是 已 经 被 Erase 好 的 ， 也 可 
以 使 用 特殊 的 程序 对 整个 SSD 重 新 整 盘 Erase。 


提示 : 为 何 字 线 并 联 了 所 有 Cell 的 CG (也 就 是 所 有 Cell 共 享 
CG 的 控制 信号 ) ， 而 不 是 让 每 个 Cell 的 CG 可 以 被 单独 控制 
呢 ? 这 样 做 实际 上 还 是 为 了 成 本 和 芯片 面积 考虑 ， 技 术 上 其 
实 都 可 以 实现 ， 关 键 是 钱 的 问题 。 


3.10.4 Flash 芯片 的 通病 


Flash 心 片 在 写 入 数据 的 时 候 有 诸多 效率 低下 的 地 方 。 包 括 现 在 常 
用 的 U 盘 以 及 SSD 中 的 Flash 心 片 ， 或 者 BIOS 常 用 的 EEPROM， 它 们 都 
不 可 避免 。 


1。EFlash 必 片 存储 的 通病 之 一 : Erase Before Overwrite 
对 于 机 械 磁 盘 来 说 ， 磁 盘 可 以 直接 用 磁头 将 对 应 的 区 域 磁 化 成 任 


何 信号 ， 如 果 之 前 保存 的 数据 是 1， 新 数据 还 是 1， 则 磁头 对 1 磁化 ， 结 
果 还 是 1; 如 果 新 数据 是 0(， 则 磁头 对 1 磁化 ， 结 果 就 变 成 了 0。 而 Flash 


则 不 然 ， 如 果 要 向 某 个 Block 写 入 数据 ， 则 不 管 原来 Block 中 是 1 还 是 
0， 新 写 入 的 数据 是 1 还 是 0， 必 须 先 Erase 整 个 Block 为 全 1， 然 后 才能 
向 Block 中 写 入 新 数据 。 这 种 额外 的 Erase 操 作 大 大 增加 了 覆盖 写 的 开 
销 。 


更 难 办 的 是 ， 如 果 仅 仅 需 要 更 改 某 个 Block 中 的 某 个 Page， 那 么 此 
时 就 需要 Erase 整 个 Block， 然 后 再 写 入 这 个 Page。 那 么 这 个 Block 中 除 
这 个 Page 之 外 的 其 他 Page 中 的 数据 在 Erase 之 后 岂 不 是 都 变 成 1 了 人 么 ? 
是 的 ， 所 以 ， 在 Erase 之 前 ， 需 要 将 全 部 Block 中 的 数据 读 入 SSD 的 
RAM Buffer， 然 后 Erase 整 个 Block， 再 将 待 写 入 的 新 Page 中 的 数据 在 
RAM 中 履 盖 到 Block 中 对 应 的 Page， 然 后 将 整个 更 新 后 的 Block 写 入 
Flash 心 片 中 。 可 以 看 到 ， 这 种 机 制 更 加 大 了 写 开 销 ， 形 成 了 大 规模 的 
与 惩罚 。 这 也 是 为 何 SSD 的 缓存 通常 很 大 的 原因 。 


就 像 CDRW 光 盘 一 样 ， 如 果 你 只 需要 更 改 其 上 的 几 KB 数 据 ， 那 么 
就 要 先 复制 出 全 盘 700MB 的 数据 ， 然 后 探 除 所 有 700MB ， 然 后 再 写 入 
更 改 了 几 KB 数 据 的 700MB 数 据 。 


SSD 的 这 种 写 惩 罚 被 称 为 Write Amplification 〈 写 扩大 ) ， 我 们 依 
然 使 用 写 惩 罚 这 个 词 。 写 惩罚 有 不 同 的 惩罚 倍数 ， 比 如 ， 需 要 修改 一 
个 512KB 的 Block 中 的 一 个 4KB 的 Page ， 此 时 的 写 惩罚 倍数 = 
512KB/4KB 二 128。 小 块 随机 写 IO 会 产生 大 倍数 的 写 惩 罚 。 


当 SSD 当 向 Flash 中 的 Free Space 中 写 入 数据 时 ， 并 没有 写 惩 昼 ， 
为 Free Space 自 从 上 次 被 整 盘 Erase 后 是 没有 发 生 任何 写 入 动作 的 。 这 
里 又 牵 渗 到 一 个 比较 有 趣 的 问题 ， 即 存储 介质 如 何 知道 哪里 是 Free 
Space， 哪 里 是 Occupied Space 呢 ? 本 书 中 多 个 地 方 论述 过 这 一 点 。 只 
有 文件 系统 知道 存储 介质 中 哪些 数据 是 没 用 的 ， 而 哪些 正在 被 文件 系 


统 所 占用 ， 这 是 绝对 无 可 置疑 的 ， 除 非 文 件 系统 通过 某 种 途径 通告 存 
储 介质 。SSD 也 不 例外 ， 一 块 刚 被 全 部 Erase 的 SSD， 其 上 所 有 Block 对 
于 文件 系统 或 者 SSD 本 身 来 讲 ， 都 可 以 认为 是 Free Space。 随 着 数据 不 
断 的 写 入 ，SSD 会 将 曾经 被 写 入 的 块 的 位 置 记 录 下 来 ， 记 录 到 一 份 
Bitmap 中 ， 每 一 比特 表示 Flash 中 的 一 个 Block。 对 于 文件 系统 而 言 ， 删 
除 文 件 的 过 程 并 不 是 向 这 个 文件 对 应 的 存储 介质 空间 内 覆盖 写 入 全 0 或 
者 1 的 过 程 ， 而 只 是 对 元 数据 的 更 改 ， 所 以 只 会 更 改元 数据 对 应 的 存储 
介质 区 域 ， 因 此 ， 删 除 文件 的 过 程 并 没有 为 存储 介质 自身 制造 Free 
Space。 所 以 说 ， 对 于 SSD 本 身 来 讲 ，Free Space 只 会 越 来 越 少 ， 最 后 
导致 没有 Free Space ， 导 致 每 个 写 动 作 都 产生 写 惩 罚 ， 类 似 Copy On 
Write， 而 且 Copy 和 Write 很 有 可 能 都 是 一 些 在 文件 系统 层 已 经 被 删除 
的 数据 ， 做 了 很 多 无 用 功 ， 写 性 能 急剧 下 降 。 对 于 一 块 使 用 非常 久 的 
SSD 来 讲 ， 就 算 它 在 被 挂 载 到 文件 系统 之 后 ， 其 上 没有 检测 到 任何 文 
件 ， 文 件 系 统 层 剩余 空间 为 100%， 这 种 情况 下 ， 对 于 SSD 本 身 来 讲 ， 
Free Space 的 比例 很 有 可 能 却 是 0， 也 就 是 说 只 要 曾经 用 到 过 多 少 ， 那 
么 那个 水 位 线 就 永远 被 标记 在 那里 。 


每 个 Block 中 的 Page 必 须 被 按照 一 个 方向 写 入 ， 比 如 每 个 Block 为 
128 个 Page， 共 512KB， 则 当 这 个 Block 被 擦 除 之 后 ，SSD 控 制 器 可 以 
先 向 其 中 写 入 前 32 个 Page (或 者 10 个 Page， 数 量 不 限 ) ， 一 段 时 间 之 
后 ， 可 以 再 向 这 个 Block 中 追加 写 入 剩余 的 Page (或 者 多 次 追加 一 定数 
量 的 Page 写 入 ) 而 不 需要 再 次 擦 除 这 个 Block。 SSD 控 制 器 会 记录 每 个 
Block 中 的 大 段 连续 空余 空间 。 但 是 不 能 够 跳跃 的 追加 ， 比 如 先 写 入 0 
~~31 这 32 个 Page， 然 后 写 入 64~~127 这 64 个 Page， 中 间 空 出 了 32 个 Page 
没有 和 追加， 控制 器 是 不 会 使 用 这 种 方式 写 的 ，Page 都 是 连续 排 布 的 。 
但 是 一 般 来 讲 ， 控 制 器 都 是 尽量 一 次 写 满 整个 Block 的 从 而 可 以 避免 很 
多 额外 开销 。 


2。Flash 忌 片 存储 的 通病 之 二 : Wear Off 


随 着 FG 充 放电 次 数 的 增多 ， 二 氧化 硅 绝 缘 层 的 绝缘 能 力 将 遭 到 损 
耗 ， 最 后 逐渐 失去 绝缘 性 ， 无 法 保证 EFG 中 保有 足够 的 电荷 。 此 时 ， 这 
个 Cell 就 被 宣判 为 损坏 ， 即 Wear Off。 


损坏 的 Cell 将 拖累 这 个 Cell 所 在 的 整个 Page 被 标记 为 损坏 ， 因 为 
SSD 寻 址 和 IO 的 最 小 单位 为 Page。 损 坏 的 Page 对 应 的 逻辑 地 址 将 被 重 
定向 映射 到 其 他 完好 的 预 留 Page，SSD 将 这 些 重 定向 表 保 存在 ROM 
中 ， 每 次 加 电 均 被 载 入 RAM 以 供 随时 查询 。 


MLC 由 于 器 件 复杂 ， 其 可 擦 写 的 寿命 比较 低 ， 小 于 10000 次 。 而 
SLC 则 高 一 些 ， 十 倍 于 MLC， 小 于 100000 次 。 这 个 值 是 很 惊人 的 ， 对 
于 某 些 场合 下 ， 有 可 能 一 天 就 可 以 废 掉 一 大 堆 Cell/Page， 几 个 月 之 内 
当 预 留 的 Page 都 被 耗 尺 后 ， 就 会 废 掉 整 个 SSD。 这 是 绝对 不 能 接受 
的 。 


写 惩罚 会 大 大 加 速 Wear Off， 因 为 写 惩罚 做 了 很 多 无 用 功 ， 增 加 
了 不 必要 的 擦 写 ， 这 无 疑 使 本 来 就 很 严峻 的 形势 雪上 加 霜 。 但 是 对 于 
读 操作 ， 理 论 上 每 个 Cell 可 以 承受 高 数量 级 的 次 数 而 不 会 损耗 ， 所 以 
对 于 读 来 说 ， 无 须 担心 。 


3.10.5 NAND 与 NOR 


3.10.2 节 已 经 讲 过 ， 这 里 再 强调 一 下 ， 当 需要 读 出 某 个 Page 时 ， 
Flash Controller 控 制 Flash 心 片 将 相应 这 个 Page 的 字 线 【也 就 是 串 连 
(实际 上 属于 并 联 ) 同一 个 Page 中 所 有 Cell 上 的 CG 的 那 根 导 线 】 电 势 
置 为 0， 也 就 是 不 加 电压 ， 其 他 所 有 Page 的 字 线 的 电势 则 升 高 到 一 个 


值 ， 也 就 是 加 一 个 电压 ， 人 之 
所 以 抬 高 电势 ， 是 为 了 让 其 他 Page 所 有 Cell 的 S 和 D 处 于 导 通 状态 ， 而 
没 被 加 电压 的 Cell (CG 上 的 电势 为 0V) ， 也 就 是 我 们 要 读 取 的 那些 
Cell， 其 S 和 D 的 通 断 完全 取决 于 其 FG 中 是 否 存 有 电子 。 说 白 了 ， 未 被 
选中 的 所 有 Cell ， 均 强制 导 通 ， 被 选中 的 Cell 的 FG 里 有 电 ， 那 么 串联 
这 一 串 Cell 的 位 线 就 会 被 导 通 ， 这 是 一 种 AND (也 就 是 与 ) 的 关系; 
被 选中 Cell 的 FG 里 如 果 没 电 ， 那 么 其 所 处 的 Cell 串 的 位 线 就 不 能 导 通 
(虽然 串 上 的 其 他 Cell 均 被 强制 导 通 ) ， 这 也 是 AND 的 关系 。 也 就 是 
一 串 Cell 必 须 全 导 通 ， 其 位 线 才 能 导 通 ， 有 一 个 不 导 通 ， 整 条 位 线 就 
不 通 。 这 就 是 NAND Flash 中 的 AND 的 意义 。 那 N 表 示 什 么 ? N 表 示 
Not， 也 就 是 非 ，NAND 就 是 “ 非 与 的 意思 。 为 什么 要 加 个 非 ? 很 简 
单 ， 导 通 反 而 表示 为 0， 因 为 只 有 FG 中 有 电 才 导 通 ， 上 文 也 说 了 ,FG 
中 有 电 反 而 表示 为 0， 所 以 这 就 是 “ 非 ” 的 意义 所 在 。 


还 有 一 类 NOR Flash，NOR 就 是 “ 非 或 ”的 意思 ， 大 家 自然 会 想到 ， 
位 线 一 定 不 是 串联 的 ， 而 是 并 联 的 ， 才 能 够 产生 “或 ”的 逻辑 。 实 际 
上 ， 在 NOR Flash 里 ， 同 样 一 串 Cell， 但 是 这 串 Cell 中 的 每 个 Cell 均 引出 
独立 的 位 线 ， 然 后 并 联接 到 一 根 总 位 线 上 ; 另外 一 点 很 重要 的 是 ， 每 
个 Cell 的 S 和 D 之 间 虽 然 物 理 上 是 串 连 ， 但 是 电路 上 不 再 是 串联 ， 而 是 
各 自 有 各 自 的 接地 端 ， 也 就 是 每 个 Cell 的 S 和 D 之 间 的 通 断 不 再 取决 于 
其 他 Cell 里 S 和 DD 的 通 断 了 ， 只 取决 于 自己 。 以 上 两 点 共同 组 成 了 “或 ” 
的 关系 ， 同 时 每 个 Cell 具 有 完全 的 独立 性 ， 此 时 只 要 通过 控制 对 应 的 
地 线 端 ， 将 未 被 选中 的 Cell 地 线 全 部 断 开 ， 这 样 它们 的 S 和 D 极 之 间 永 
远 无 法 导 通 (逻辑 0 状态 ) ， 由 于 每 个 Cell 的 位 线 并 联 上 联 到 总 位 线 ， 
总 位 线 的 信号 只 取决 于 选中 的 Cell 的 导 通 与 否 ， 对 于 被 选中 的 Cell， 
NOT { (“地 线 接 通 ?AND“FG 是 否 有 电 ”) OR“ 未 被 选中 Cell 的 输出 ”} 二 
“总 位 线 的 1/0 值 ”， 这 就 是 NOR 非 与 门 的 逻辑 。 


由 于 NOR Flash 多 了 很 多 导线 ， 包 括 独 立地 线 (通过 地 址 译 码 器 与 
Cell 的 地 线 相连 ) 和 多 余 的 上 联 位 线 ， 导 致 面积 增 大 。 其 优点 是 Cell 独 
立 寻 址 ， 可 以 直接 用 地 址 线 寻 址 ， 读 取 效 率 比 NAND 要 高 ， 所 以 可 以 
直接 当做 RAM 用 ， 但 是 由 于 擦 除 单位 较 小 ， 擦 除 效率 要 比 NAND 低 ， 
所 以 不 利于 写 频 每 的 场景 。 


3.10.6 ”SSD 给 自己 开 的 五 剂 良药 


面 对 病 入 富 育 的 SSD 写 入 流程 设计 ， 是 不 是 无 可 救 药 呢 ? 好 在 
SSD 开 出 了 五 个 药方 。 


1. 药方 1: 透支 体力 ， 拆 东 墙 补 西 墙 


为 了 避免 同一 个 Cell 被 高 频率 擦 写 ，SSD 有 这 样 一 个 办 法 : 每 次 针 
对 某 个 或 者 某 段 逻辑 LBA 地 址 的 写 都 写 到 SSD 中 的 Free Space 中 ， 即 上 
一 次 全 盘 Erase 后 从 未 被 写 过 的 Block/Page 中 ， 这 些 Free Space 已 经 被 放 
电 ， 直 接 写 入 即 可 ， 无 须 再 做 Copy On Write 的 操作 了 。 如 果 再 次 遇 到 
针对 这 个 或 者 这 段 LBA 地 址 的 写 操 作 ， 那 么 SSD 会 再 次 将 待 写 入 的 数 
据 重 定向 写 到 Free Space 中 ， 而 将 之 前 这 个 逻辑 地 址 占用 的 Page 标 记 为 
“Garbage”， 可 以 回收 再 利用 。 等 到 Block 中 一 定 比例 (大 部 分 ) 的 
Page 都 被 标记 为 “Garbage” 时 ， 并 且 存 在 大 批 满足 条 件 的 Block，SSD 会 
批量 回收 这 些 Block ， 即 执行 Copy On Write 过 程 ， 将 尚未 被 标记 为 
“Garbage” 的 Page 复 制 到 RAM Buffer， 将 所 有 Page 汇 集 到 一 起 ， 然 后 写 
入 一 个 新 Erase 的 Block， 再 将 所 有 待 回收 的 Block 进 行 Erase 操 作 ， 变 成 
了 Free Space。 SSD 这 样 做 就 是 为 了 将 写 操作 平衡 到 所 有 可 能 的 Block 
中 ， 降 低 单 位 时 间 内 每 个 Block 的 擦 写 次 数 ， 从 而 延长 Cell 的 寿命 。 


重 定向 写 的 设计 可 谓 是 一 箭 双 膨 ， 既 解决 了 Wear Off 过 快 问题 ， 
又 解决 了 大 倍数 写 惩 罚 问题 (因为 每 次 写 都 尽量 重 定向 到 Free Space 
中 ， 无 须 CoW) 。 但 是 ， 正 如 上 文 所 述 ，SSD 自 己 认为 的 纯 Free Space 
只 会 越 来 越 少 ， 那 么 重 定向 写 的 几率 也 就 会 越 来 越 少 ， 最 后 降 至 0， 此 
时 大 倍数 写 惩 罚 无 可 避免 。 


由 于 Page 的 逻辑 地 址 对 应 的 物理 地 址 是 不 断 被 重 定向 的 ， 所 以 
SSD 内 部 需要 维护 一 个 地 址 映射 表 。 可 以 看 到 这 种 设计 是 比较 复杂 
的 ， 需 要 SSD 上 的 CPU 具 有 一 定 的 能 力 运 行 对 应 的 算法 程序 。 这 种 避 
免 Wear Off 过 快 的 重 定向 算法 称 为 Wear Leveling， 即 损耗 平衡 算法 。 


Wear Leveling 的 实现 方法 随 不 同 厂商 而 不 同 ， 有 些 以 一 块 大 区 域 
为 一 个 平衡 范围 ， 有 些 则 完全 顺序 地 写 完整 个 SSD 的 Free 空 间 ， 然 后 
再 回来 顺序 地 写 完 整个 被 回收 的 Free 空 间 ， 无 限 循环 直到 Free 空 间 为 0 
为 止 。 传 统 机 械 硬 盘 中 ， 逻 辑 上 连续 LBA 地 址 同样 也 是 大 范围 物理 连 
续 的 ， 但 是 对 于 SSD， 人 逻辑 和 物理 的 映射 随 着 使 用 时 间 的 增长 而 越 来 
越 乱 ， 好 在 SSD 不 需要 机 械 寻 址 ， 映 射 天 系 乱 只 会 影响 CPU 计算 出 结 
果 的 时 间 而 不 会 影响 数据 IO 的 速度 ， 而 CPU 运算 所 耗费 的 时 间 与 数据 
IO 的 时 间 相 比 可 以 忽略 不 计 ， 所 以 映射 关系 再 怎么 乱 也 不 会 对 IO 的 性 


能 有 多 少 影 响 。 


利用 这 种 方式 ，SSD 内 部 实现 了 垃圾 回收 清理 以 及 新 陈 代谢 ， 使 
得 新 擦 除 的 Block 源 源 不 断 地 被 准备 好 从 而 供应 写 操作 。 


有 必要 一 提 的 是 ，Flash 控 制 器 的 这 种 机 制 又 可 以 被 称 为 RoW， 也 
就 是 Redirect On Write， 每 遇 到 需要 更 新 的 页 面 ，Flash 控 制 器 便 将 其 组 
存 到 RAM 中 ， 当 缓冲 的 待 写 入 页 面 达 到 了 一 个 Block 容 量 的 时 候 ， 便 
会 直接 将 这 些 页 面 写 入 到 一 个 已 经 擦 好 的 Block 中 。 如 果 待 写 入 的 页 面 


未 攒 够 一 个 Block 的 容量 ， 必 要 时 也 可 以 写 入 一 个 探 好 的 Block， 此 时 
这 个 Block 处 于 未 写 满 状态 ， 随 后 可 以 继续 写 入 页 面 直到 写 满 为 止 ， 当 
然 ， 要 做 到 这 一 点 ，Flash 控 制 器 就 需要 为 每 个 Block 记 录 断 点 信息 
了 。 


每 次 被 更 新 的 页 面 在 更 新 之 前 所 处 的 位 置 ， 会 在 该 页 面 被 重 定 向 
写 入 到 其 他 Block 之 后 ， 在 映射 表 中 标记 为 垃圾 ， 可 以 想象 ， 随 着 使 用 
时 间 的 加 长 ，Flash 中 Block 里 的 这 种 垃圾 孔洞 越 来 越 多 ， 而 且 越 来 越 
不 连续 ， 到 处 都 是 ， 可 谓 是 千 净 百 孔 。 垃 圾 回收 程序 最 喜欢 的 就 是 一 
个 Block 里 全 是 垃圾 的 状态 ， 此 时 最 好 ， 但 是 如 果 多 数 Block 都 处 于 一 
种 “不 塌 不 炊 ? 的 状态 ， 比 如 50% 内 容 是 垃圾 ， 但 是 另外 50% 的 内 容 却 
未 被 标记 为 垃圾 ， 那 么 此 时 到 底 是 否 回收 ?要 回收 这 50% 的 垃圾 ， 就 
需要 先 把 那些 非 垃圾 内 容 读 出 到 RAM 中 存放 ， 随 后 和 新 数据 一 起 一 视 
同仁 地 写 入 到 擦 好 的 Block 中 ， 此 时 产生 50% 不 必要 的 读 和 50% 不 必要 
的 写 操 作 ， 这 些 都 属于 惩罚 操作 ， 越 是 不 乱 不 粹 ， 后 人 台 的 惩罚 融 越 
多 ， 性 能 融会 越 差 。 


2. 药方 2: 定期 清除 体内 垃圾 ， 轻 装 上 阵 


通过 上 面 的 论述 我 们 知道 ， 影 响 一 块 SSD 寿 命 和 写 入 性 能 的 最 终 
决定 因素 就 是 Free Space， 而 且 是 存储 介质 自身 所 看 到 的 Free Space 而 
不 是 文件 系统 级 别 的 Free Space。 但 是 SSD 目 身 所 认识 的 Free Space 永 
远 只 会 少 于 文件 系统 的 Free Space， 并 且 只 会 越 来 越 趋 于 0。 所 以 ， 要 
保持 SSD 认 识 到 自身 更 多 的 Free Space， 就 必须 让 文件 系统 来 通知 
SSD， 告 诉 它 哪些 逻辑 地 址 现在 并 未 被 任何 文件 或 者 元 数据 所 占用 ， 
可 以 被 探 除 。 这 种 思想 已 经 被 实现 了 。 所 有 SSD 广 商 均 会 提供 一 个 工 
具 ， 称 为 “wiper"， 在 操作 系统 中 运行 这 个 工具 时 ， 此 工具 扫描 文件 系 


统 内 不 用 的 逻辑 地 址 ， 并 将 这 些 地 址 通知 给 SSD，SSD 便 可 以 将 对 应 
的 Block 做 擦 除 并 回收 到 Free Space 空 间 内 。 如 果 用 户 曾 经 向 SSD 中 写 
满 了 文件 随后 又 删除 了 这 些 文件 ， 那 么 请 务必 运行 Wiper 来 让 SSD 回 收 
这 些 垃圾 空间 ， 人 否则 就 会 遭遇 到 大 写 惩罚 。 


Wiper 并 不 是 实时 通知 SSD 的 ， 这 个 工具 只 是 一 次 性 清理 垃圾 ， 清 
理 完 后 可 以 再 次 手动 清理 。 所 以 ， 这 个 工具 需要 手动 或 者 设置 成 计划 
任务 等 每 隅 一 段 时 间 执 行 一 次 。 


这 种 垃圾 回收 与 上 文中 的 那 种 内 部 垃圾 回收 不 在 一 个 层面 上 ， 上 
文中 所 讲 的 是 SSD 内 部 自身 的 重 定 向 管理 所 产生 的 垃圾 ， 而 本 节 中 所 
述 的 则 是 文件 系统 层面 可 感知 的 垃圾 ， 被 映射 到 SSD 内 部 ， 也 就 变 成 
了 垃圾 。 


3. 药方 3: 扶正 固 本 ， 调 节 新 陈 代 谢 使 其 持续 清除 体内 垃圾 


定期 执行 垃圾 清理 确实 可 以 解 燃 眉 之 急 ， 但 是 有 没有 一 种 方法 ， 
可 以 让 文件 系统 在 删除 某 个 文件 之 后 实时 地 通知 SSD 回 收 对 应 的 空间 
呢 ? 这 种 方法 是 有 的 。TRIM 便 是 这 种 方法 的 一 个 实现 。TRIM 是 ATA 
指令 标准 中 的 一 个 功能 指令 ， 在 Linux Kernal 2.6.28 中 已 经 宫 括 ， 但 是 
并 不 完善 。Windows 7 以 及 Windows Server 2008R2 中 已 经 提供 了 完善 
的 TRIM 支 持 。 一 些 较 早出 现 的 SSD 也 可 以 通过 升级 Firmware 来 获得 对 
TRIM 的 支持 。 


TRIM 可 以 使 SSD 起 死 回 生 ， 经 过 实际 测试 ， 开 启 了 TRIM 支 持 的 
SSD， 在 操作 系统 TRIM 的 支持 下 ， 可 以 成 功 地 将 性 能 提高 到 相对 于 
SSD 初 始 化 使 用 时 候 的 95% 以 上 ， 写 惩罚 倍数 维持 在 1.1 倍 左右 。 


提示 : 台湾 闪存 三 商 PhotoFast 银 箭 已 经 发 布 了 带 有 自行 回收 
垃圾 空间 的 SSD ， 不 依赖 于 Trim 指 令 ， 在 此 可 以 推断 其 SSD 
内 部 一 定 被 植 入 了 可 识别 NTFS 格 式 数 据 的 代码 ， 所 以 可 以 自 
行 识 别 NTFS 文 件 系 统 中 不 被 文件 占用 的 空间 。 


4. 药方 4: 精神 修炼 法 ， 提 升 内 功 


Delay Write 是 一 种 存储 系统 常用 的 写 IO 优 化 措施 。 比 如 有 先后 两 
个 针对 同一 个 地 址 的 IO 一 一 write1l、Write2， 先 后 被 控制 器 收 到 ， 而 在 
Write1 尚 未 被 写 入 永久 存储 介质 之 前 ， 恰 好 Write2 进 入 ， 此 时 控制 器 就 
可 以 直接 在 内 存 中 将 Write2 覆 盖 Writel1， 在 写 入 硬盘 的 时 候 只 需要 写 入 
一 次 即 可 。 这 种 机 制 为 “ 写 命中 ”的 一 种 情况 (其 他 情况 见 本 书后 面 章 
节 ) 。 它 减少 了 不 必要 的 写 盘 过 程 ， 对 于 SSD 来 讲 ， 这 是 很 划算 的 。 


然而 ， 如 果 一 旦 遇 到 这 种 IO 顺序 比如 Writel、Read2、Write3， 如 
此 时 控制 器 先 将 Write3 覆 盖 到 Write1 ， 然 后 再 处 理 Read2 的 话 ， 那 么 
Read2 原 本 是 应 该 读 出 Write1 的 内 容 的 ， 经 过 Delay Write 履 盖 之 后 ， 却 
读 出 了 Write3 的 内 容 ， 这 就 造成 了 数据 不 一 致 。 


所 以 ， 控 制 器 在 处 理 Delay Write 时 要 非常 小 心 ， 一定 要 检测 两 个 
针对 同一 个 地 址 的 写 IO 之 间 是 否 插 有 针对 同一 个 地 址 的 读 IO， 如 果 有 
读 IO， 首 先 处 理 读 ， 然 后 再 覆盖 。 


Combine Write 是 另 一 种 存储 系统 控制 器 常用 的 写 IO 优 化 方法 。 对 
于 基于 机 械 硬盘 的 存储 系统 ， 如 果 控 制 器 在 一 段 时 间 内 收 到 了 多 个 写 
IO 而 这 些 写 IO 的 地 址 在 逻辑 上 是 连续 的 ， 则 可 以 将 这 些小 的 写 IO 合 并 
为 针对 整体 连续 地 址 段 的 一 个 大 的 IO ， 一 次 性 写 入 对 应 的 磁盘 ， 节 约 
了 很 多 SCSI 指 令 周 期 ， 提 高 了 效率 。 对 于 SSD 来 讲 ， 由 于 SSD 中 的 逻 


辑 地 址 本 来 就 是 被 杂乱 地 映射 到 可 能 不 连续 的 物理 地 址 上 的 ， 但 是 并 
影响 多 少 性 能 ， 所 以 ，SSD 控 制 器 可 以 整合 任何 地 址 的 小 块 写 IO 成 
一 个 大 的 写 IO 而 不 必 在 乎 小 块 写 IO 针对 的 逻辑 地 址 是 否 连续 。 整 合 之 
后 的 大 写 IO 被 直接 写 向 一 个 Free 的 Block 中 ， 这 样 做 大 大 提高 了 写 效 


率 。 


5。 药方 5: 救命 稻草 ， 有 备 无 患 


为 了 防止 文件 系统 将 数据 写 满 的 极端 情况 ，SSD 干 脆 自 己 预 留 一 
部 分 备用 空间 用 于 重 定向 写 。 这 部 分 空间 并 不 通告 给 操作 系统 ， 只 有 
SSD 自 己 知道 ， 也 就 是 说 文件 系统 永远 也 写 不 满 SSD 的 全 部 实际 物理 
空间 ， 这 样 ， 就 有 了 一 个 永远 不 会 被 占用 的 一 份 定额 的 Free Space 用 于 
重 定向 写 。Intel X25-E 系 列 企 业 级 SSD 拥 有 20% 的 多 余 空间 。 其 他 普 
通 SSD 拥 有 6%~7% 的 比例 。 


思考 : 为 何 用 普通 碎片 整理 程序 在 文件 系统 层 整理 碎片 对 于 
SSD 来 说 是 雪上 加 和 钉 ， 理 解 这 个 问题 的 关键 在 于 理解 对 于 
SSD 来 讲 ， 逻 辑 上 连续 的 地 址 不 一 定 在 物理 上 也 连续 ， 如 果 
使 用 普通 碎片 整理 程序 ， 不 但 不 能 达到 效果 ， 反 而 还 会 因为 
做 了 大 量 无 用 功 而 大 大 减少 SSD 的 寿命 。 


因为 SSD 需 要 对 数据 进行 合并 以 及 其 他 优化 处 理 以 适应 Flash 的 这 
些 劣势 ， 所 以 SSD 自 身 对 接收 的 写 IO 数 据 使 用 Write Back 模 式 ， 即 接收 
到 主机 控制 器 的 数据 后 立即 返回 成 功 ， 然 后 异步 的 后 台 处 理 和 刷 盘 。 
所 以 ， 一 旦 遇 到 突然 掉 电 ， 那 么 这 些 数据 将 会 丢失 ， 正 因 如 此 ，SSD 
需要 一 种 掉 电 保护 机 制 ， 一 般 是 使 用 一 个 超级 电容 来 维持 掉 电 之 后 的 
脏 数 据 刷 盘 。 


关于 SSD 性 能 方面 的 更 详细 的 内 容 请 参考 本 书 第 19 章 中 的 部 分 内 
容 。 


3.10.7 SSD 如何 处 理 Cell 损 坏 


对 于 机 械 硬 盘 ， 如 果 出 现 被 划 伤 的 磁道 或 者 损坏 的 扇 区 ， 也 就 意 
味 着 对 应 的 磁道 或 者 扇 区 中 的 磁粉 出 现 问 题 ， 不 能 够 被 成 功 地 磁化 ， 
那么 磁头 会 感知 到 这 个 结果 ， 因 为 磁化 成 功 必定 对 应 着 电流 的 扰动 ， 
如 果 针 对 某 块 磁粉 区 磁化 不 成 功 ， 磁 头 控制 电路 迟 迟 没 感知 到 电流 扰 
动 ， 或 者 扰动 没有 达到 一 定 程度 ， 那 么 就 证 明 这 片区 域 已 经 损坏 。 而 
对 于 Flash 中 的 Cell， 当 Cell 中 的 绝缘 体 被 击 穿 一 定 次 数 (SLC 10 万 
次 ，MLC 1 万 次 ) 之 后 ， 损 坏 的 几率 会 变 得 很 高 ， 有 时候 不 见得 非 要 
到 这 个 门限 值 ， 可 能 出 厂 就 有 一 定量 损坏 的 Cell， 使 用 一 段 时 间 之 后 
也 可 能 时 不 时 出 现 损 坏 。 那 么 SSD 如 何 判断 某 个 Cell 损 坏 了 呢 ? 我 们 知 
道 Cell 损 坏 之 后 的 表现 是 只 能 表示 1 而 无 法 再 被 充电 并 且 屏 数 住 电子 
了 ， 如 果 某 个 Cell 之 前 被 充 了 电 ， 为 0， 某 时 刻 Cell 损 坏 ， 漏 电 了 ， 变 
为 1， 那 么 在 读 取 这 个 Cell 的 值 的 时 候 ， 电 路 并 不 会 感知 到 这 个 Cell 之 
前 的 值 其 实 是 0， 电 路 依然 读 出 的 是 1， 那 么 此 时 间 题 就 出 现 了 。 解 决 
这 个 问题 的 办 法 是 使 用 ECC 纠 错 码 ， 每 次 读 出 某 个 Page 之 后 ， 都 需要 
进行 ECC 校 验 来 纠 错 。 每 种 Flash 生 产 厂商 都 会 在 其 Datasheet 中 给 出 一 
个 最 低 要 求 ， 即 使 用 该 种 颗粒 起 码 需 要 配合 使 用 何 种 力度 的 纠 错 码 ， 
比如 8b@512B 或 者 24b@1KB 等 。8b@512B 意 味 着 如 果 在 512 字 节 范 围 
内 出 现 8b 的 错误 ， 则 是 可 以 纠 错 恢复 的 ， 如 果 超 过 了 8b， 那 么 就 无 法 
纠 错 了 ， 此 时 只 能 向 上 层 报 “ 不 可 恢复 错误 ”， 同 理 ，24b@1KB 也 是 一 
样 的 意思 。 厂 商 给 出 的 纠 错 码 力度 越 低 ， 就 证 明 这 种 Flash 颗 粒 的 品质 
越 好 ， 损 坏 率 越 低 。 


3.10.8 SSD 的 前 景 


以 上 一 切 缓 解 SSD 效 率 问 题 的 方法 ， 都 是 治标 不 治本 。 随 着 Cel] 的 
不 断 损坏 ， 最 后 的 救命 稻草 一 一 SSD 私 自 保留 的 空间 也 将 被 耗 尽 ， 没 
了 救命 稻草 ， 加 之 文件 系统 空间 已 满 的 话 ， 那 么 SSD 效 率 就 会 大 大 降 
低 。 


但 是 ， 我 们 在 这 里 讨论 的 SSD 写 效率 降低 ， 不 是 与 机 械 硬盘 相 比 
的 。 瘦 死 的 骆驼 比 马 大 ，SSD 比 起 机 械 硬盘 来 讲 其 优势 还 是 不 在 一 个 
数量 级 上 的 。 


可 以 将 多 块 SSD 组 成 Raid 阵 列 来 达到 更 高 的 性 能 。 但 是 可 惜 的 
是 ，Raid 卡 目前 尚未 支持 TRIM。 


为 了 适应 Flash 的 存储 方式 ， 有 多 种 Flash Aware FS 被 开发 出 来 ， 这 
些 Flash FS 包括 TrueFFS、ExtremeFFS 等 。 这 些 能 够 感知 Flash 存 储 方式 
的 FS， 可 以 将 大 部 分 SSD 内 部 所 执行 的 逻辑 拿 到 FS 层 来 实现 ， 这 样 就 
可 以 直接 在 上 层 解 决 很 多 问题 。 


SSD 看 似 风 光 无 限 ， 但 是 其 技术 壁 垄 比较 大 ， 为 了 解决 所 产生 的 
多 个 问题 ， 设 计 了 多 种 补救 措施 ， 需 要 靠 TRIM 维 持 ， 而 且 数 据 不 能 
空间 太 满 ， 否 则 无 药 可 救 。 基 于 目前 NAND Flash 的 SSD 很 有 可 能 是 县 
花 一 现 。 目 前 市 场 上 已 经 出 现 SRAM、RRAM 等 更 快 的 永久 存储 介 
质 ， 随 着 科技 的 发 展 ， 更 多 更 优良 的 存储 介质 和 存储 方式 必 将 替代 机 
械 硬 盘 的 磁 碟 ，SSD 数 据 存储 次 世代 即将 到 来 。 


此 外 ，SSD 在 使 用 的 时 候 也 比较 槛 输 ，SSD 的 成 本 还 是 太 高 ， 比 
如 用 户 需 要 一 个 10TB 的 存储 系统 ， 不 可 能 都 用 SSD， 此 时 怎么 规划 ? 
对 某 个 Raid 组 专门 使 用 SSD 来 构建 ， 比 如 8 个 256GB 的 SSD 组 成 某 Raid 


组 ， 有 效 容量 1TB， 再 在 其 上 划分 若干 LUN。 用 户 使 用 一 段 时 间 后 发 
现 原来 人 工 预 测 的 热点 数据 已 经 ; 伶 了 ， 而 原来 的 冷 数据 热 了 ， 那 么 此 
时 需要 数据 迁移 ， 这 就 要 兴 师 动 众 了 。 或 者 用 户 发 现 某 个 应 用 所 需 的 
数据 量 庞 大 ， 但 是 又 不 可 能 将 其 分 割 开 一 部 分 放 到 SSD 中 一 部 分 放 到 
传统 磁盘 中 。 这 些 塌 砍 的 境况 都 限制 了 SSD 的 应 用 ， 也 是 多 个 三 商 相 
继 开发 了 Automatically Storage Tiering 技 术 的 原因 〈 见 后 面 章节 ) 。 


针对 传统 SSD 使 用 时 候 的 旭 众 境况 ，Seagate 等 厂商 也 相继 推出 了 
SSD 十 HDD 混 合式 存储 硬盘 。 这 种 硬盘 其 实 是 将 Flash 片 用 于 磁盘 的 
二 级 缓存 ， 一 级 缓存 是 Ram， 二 级 是 Flash， 三 级 则 是 磁盘 片 。 利 用 这 
种 多 级 缓存 更 大 程度 地 降低 了 磁头 寻 道 的 影响 。 有 人 质疑 说 ， 传 统 磁 
盘 自身 已 经 有 了 多 达 64MB 的 RAM 缓 存 ， 还 需要 Flash 再 作为 下 一 级 的 
缓存 么 ”是 的 ，64MB 的 容量 还 是 太 小 ， 虽 然 速 度 高 ， 但 是 很 快 就 被 
充满 ， 同 时 没有 掉 电 保护 机 制 ， 所 以 盘 阵 控制 器 不 会 让 磁盘 以 
WriteBack 模 式 操 作 ， 充 满 了 则 一 定 要 连续 地 刷 到 盘 片 中 ， 这 样 就 不 可 
避免 地 直接 导致 可 见 的 性 能 又 降 ; 而 使 用 Flash 心 片 再 加 入 一 级 缓存 ， 
比如 用 8GB 甚 至 16GB 的 Flash 心 片 ， 数 据 从 RAM 缓 存 出 来 后 先 被 存 入 
Flash， 不 用 寻 道 ， 同 时 可 以 掉 电 保护 ，Write Back 之 后 ， 了 磁盘 驱动 器 
再 在 后 台 将 数据 从 Flash 中 写 入 磁盘 片 保存 并 清空 Flash 中 的 内 容 。 这 样 
的 做 法 ， 既 比 传统 纯 SSD 便 宜 ， 还 保证 了 性 能 ， 有 效 屏 贡 了 磁头 寻 道 
带 来 的 高 延迟 ， 同 时 又 保证 了 容量 (数据 后 台 被 刷 入 磁盘 片 ) ， 传 统 
SSD 在 容量 方面 的 问题 就 这 么 被 解决 了 。 这 种 磁盘 短期 内 尚 无 法 取代 
传统 纯 SSD ， 因 为 其 读 取 操 作 依然 需要 从 磁盘 片 中 读 取 几 乎 所 有 数据 
而 不 是 从 Flash 中 ， 无 法 与 纯 SSD 抗 衡 ， 但 是 其 取代 传统 磁盘 的 趋势 是 
存在 的 ， 今 后 的 磁盘 如 果 都 这 么 做 ， 会 大 大 增加 单个 磁盘 的 随机 写 性 
能 ， 对 磁盘 阵列 控制 器 的 更 新 与 设计 也 是 一 个 挑战 。 


提示 : 试想 一 下 ,磁盘 阵列 控制 器 作为 一 个 府 在 主机 与 后 站 
物理 磁盘 之 间 的 角色 ， 其 一 个 本 质 作用 就 是 提升 性 能 ， 其 性 
能 提升 的 原理 就 是 让 众多 磁盘 同时 工作 以 屏 贡 磁头 寻 道 所 溪 
费 的 时 隙 ， 而 现在 ， 每 块 磁盘 自身 就 能 够 利用 Flash 心 片 来 屏 
贡 寻 道 的 时 除 ， 如 何 办 ”充分 地 想象 吧 。 


3.11 Memblaze 内 存 产 品 介 绍 


机 械 磁 盘 由 于 其 高 复杂 度 的 机 械 部 件 、 心 片 及 固件 ， 让 人 望 而 却 
步 ， 其 技术 只 被 掌握 在 少数 几 家 巨头 手中 。 因 为 初期 成 本 非常 高 ， 如 
果 没 有 销量 ， 那 就 是 赔本 。 而 近年 来 出 现 越 来 越 多 的 国产 企业 级 固态 
存储 产品 ，SSD 相 对 机 械 磁 盘 为 何 会 有 这 么 低 的 门槛 ? 那 是 必须 的 。 
组 成 SSD 的 主要 是 Flash 颗 粒 和 控制 器 ， 而 这 些 部 件 ， 都 可 以 从 各 种 渠 
道 购买 ， 当 然 ， 品 质 和 规格 也 是 参差 不 齐 ， 但 是 ，SSD 是 对 各 种 部 件 
的 集成 ， 只 要 有 足够 的 集成 能 力 ， 能 快速 看 懂 这 些 部 件 提供 商 的 手 
册 ， 对 整个 存储 系统 有 基本 了 解 ， 那 么 只 要 具有 一 定 水 平和 经 验 的 硬 
件 研 发 者 ， 都 可 以 进入 这 个 领域 。 


但 是 ， 目 前 各 种 固态 介质 充斥 市 场 ， 从 TFE 卡 、U 盘 到 消费 级 SATA 
SSD， 再 到 企业 级 SATA SSD ， 再 到 企业 级 PCIE 闪 存 卡 ， 每 个 档次 要 求 
很 不 一 样 。 


要 做 成 企业 级 SSD， 不 但 需要 有 技术 能 力 ， 还 得 有 充分 的 产品 定 
制 化 能 力 。 我 们 很 欣喜 地 看 到 Memblaze 同 时 具有 了 这 两 种 能 力 。 


3.11.1 ”技术 能 力 


评判 一 个 存储 团队 的 技术 能 力 ， 第 一 看 他 们 是 贴 牌 还 是 有 自己 的 
特色 ; 第 二 看 其 产品 设计 采用 硬 加 速 还 是 软 加 速 。 说 到 软 加 速 ， 也 就 
是 把 原本 由 硬件 芯片 实现 的 功能 ， 上 提 到 由 主机 CPU 运行 代码 来 实 
现 ， 也 就 是 常 说 的 “软件 定义 ”概念 里 的 一 个 意思 。 个 人 感觉 软件 定义 
是 个 好 事情 ， 但 是 不 能 过 分 定义 ， 否 则 会 适得其反 。 比 如 一 些 硬 加 速 
DSP、 底 层 特 定 协议 编 解 码 器 ， 这 些 如 果 用 通用 CPU 来 实现 也 可 以 ， 
只 要 你 能 忍受 性 能 的 极度 下 降 以 及 几 近 100% 的 CPU 负 荷 。 曾 经 有 某国 
外 厂商 的 PCIE 闪 存 卡 使 用 的 就 是 软 加 速 方案 。 


我 们 首先 得 了 解 一 下 对 于 Flash 闪 存 卡 ， 其 控制 器 都 需要 做 哪些 工 
作 ， 然 后 才能 判断 到 底 是 软 加 速 就 够 了 ， 还 是 必须 用 硬 加 速 。 通 过 本 
章 前 文 的 描述 ， 我 们 已 经 充分 了 解 了 对 Flash 的 读 写 过 程 ， 也 深 知 其 复 
杂 性 ， 就 因为 不 能 够 对 同一 个 Page 里 的 不 同 Cell 同 时 放电 和 充电 ， 导 
致 了 后 续 一 系列 严重 后 果 ， 此 外 ，Flash Cell 单 元 的 低 寿命 和 高 出 错 
率 ， 也 是 个 令 人 头疼 的 事 。 处 理 所 有 这 堆 烂 挫 子 的 角色 ， 其 学 术 名 词 
叫做 FTL (Flash Translation Layer) ， 其 意思 一 个 是 把 Flash 基 于 页 面 为 
最 小 IO 单元 映射 成 传统 的 块 设 备 以 512B 扇 区 为 最 小 IO 单位 ， 另 一 个 是 
把 远 辑 IO 地 址 映射 为 物理 IO 地 址 ， 因 为 每 个 Page 的 实际 物理 地 址 都 会 
不 断 变化 。 当 然 ， 这 只 是 地 址 方面 的 映射 处 理 ，FTL 需 要 同时 掌管 映 
射 处 理 和 对 Flash 的 磨损 均衡 、 垃 圾 回收 、 纠 错 等 等 处 理 。 


我 们 继续 分 析 这 套 架构 都 需要 哪些 数据 结构 。 首 先 需 要 多 张 超大 
二 维 表 来 存储 逻辑 地 址 、 物 理 地 址 的 映射 记录 ， 后 端 挂 接 的 Flash 颗 粒 
容量 越 大 ， 这 些 表 (数组 ， 就 越 大 ， 其 次 是 为 了 加 速 查询 所 做 的 索 
引 、 位 图 之 类 的 元 数据 结构 ; 还 有 就 是 存储 IO 栈 里 常用 的 一 种 数据 结 
构 一 一 链表 ， 或 者 称 其 为 “描述 体 *"， 用 来 追踪 分 散在 多 个 物理 内 存 处 


但 是 逻辑 上 是 一 个 整体 的 事物 ， 比 如 远 辑 连续 空间 ， 或 者 茶 个 IO 任务 
等 ; 另外 ， 状 态 机 也 非常 复杂 。 


我 们 分 析 一 下 ， 上 面 这 套数 据 结 构 和 状态 机 ， 如 果 完 全 将 其 运行 
在 主机 OS 底 层 的 设备 驱动 层 ， 或 者 干脆 运行 在 用 户 态 (一 般 都 会 是 在 
用 户 态 运行 ， 因 为 驱动 层 不 适合 做 复杂 的 逻辑 处 理 ) ， 效 率 究 竟 有 多 
高 。 这 一 点 想 想 就 可 以 大 致 推断 ， 比 如 TCPIP 协 议 栈 是 个 纯 软 协议 
栈 ， 其 不 需要 维护 太 多 元 数据 ， 多 数 计算 量 位 于 状态 机 的 判断 和 输出 
上 ， 即 便 是 这 样 ， 一 个 万 兆 网 口 之 上 承载 iSCSI 协议 的 场景 ， 在 IOPS 
跑 满 之 后 ，CPU 利 用 率 基 本 都 超过 50% 了， 何况 是 需要 查 表 映射 的 场 
景 。 另 外 ， 软 加 速 方案 需要 设备 传输 更 多 的 信息 给 驱动 程序 ， 这 直接 
导致 中 断 次 数 激增 。 还 有 ， 软 加 速 方案 需要 在 主机 端 保存 大 量 的 元 数 
据 ， 对 内 存 的 占用 是 不 可 小 视 的 ， 通 常 1GB 起 步 ， 量 多 加 价 ， 而 硬 加 
速 方案 只 有 主机 端 驱 动 运行 耗费 一 部 分 内 存 ， 通 常 1MB 起 步 。 


如 果 是 使 用 硬 加 速 方案 ， 所 有 的 元 数据 、 状 态 机 ， 都 在 Flash 控 制 
器 内 部 维护 和 计算 ， 就 能 大 大 降低 主机 端 CPU 的 负荷， 主机 端 CPU 的 
负荷 只 体现 在 响应 外 部 设备 的 中 断 上 了 。 硬 加 速 的 好 处 就 是 可 以 将 一 
些 专用 逻辑 直接 做 成 硬 逻辑 电路 ， 在 一 个 或 者 几 个 时 钟 周期 内 融 可 以 
完成 通用 CPU 需 要 耗费 几 百 个 或 者 几 千 个 时 钟 周期 才能 完成 的 任务 。 
举 个 例子 ， 对 ECC 码 的 计算 ， 就 可 以 单独 拿 出 来 做 成 硬 加 速 电路 。 有 
些 逻 辑 不 能 完全 被 翻译 成 纯 数 字 电 路 ， 比 如 地 址 映射 查 表 等 ， 一 小 部 
分 逻辑 必须 依靠 通用 CPU 来 运行 对 应 的 固件 (或 者 说 微 码 ) 来 协调 完 
成 全 部 逻辑 ， 当 然 那些 重复 运算 还 是 交 给 数字 电路 ， 微 码 只 是 负责 协 
调和 总 控 ， 这 一 点 如 果 是 一 些 比较 复杂 的 逻辑 的 话 ， 靠 纯 数字 电路 是 
无 法 完成 的 。 这 里 的 “通用 CPU” 并 非 指 主机 端 CPU， 而 是 指控 制 器 内 


部 的 能 入 式 CPU 核 心 ， 一 个 控制 其 心 片 内 部 集成 的 通用 CPU 核心 数量 
可 能 在 几 个 到 十 几 个 这 种 级 别 。 


我 们 可 以 看 到 ， 如 果 用 硬 加 速 方案 ， 对 设计 者 的 要 求 ， 不 仅仅 是 
了 解 Flash FTL 层 的 全 部 逻辑 ， 还 得 有 充分 的 技术 实力 把 这 些 逻 辑 梳理 
成 数据 结构 ， 然 后 判断 哪些 逻辑 可 以 被 硬 加 速 ， 然 后 还 得 具备 将 软件 
翻译 成 硬件 逻辑 的 技能 ， 除 此 之 外 ， 还 得 具有 熟练 驾驭 FPGA 的 技 
能 ， 因 为 不 可 能 让 建筑 师 去 烧 窖 制造 砖头 ， 砖 头 衣 定 是 要 买 ，FPGA 
也 得 用 现成 的 。 


另外 ， 一 款 固态 存储 产品 ， 选 择 使 用 什么 样 的 IO 协议 也 是 至 关 重 
要 的 。 对 于 基于 ATA 协 议 的 SATA 接 口 来 讲 ， 是 无 法 发 挥 出 Flash 最 优 性 
能 的 ， 直 接 使 用 PCIE 接 口 接 入 主机 总 线 是 目前 离 CPU 最 近 的 途径 ， 但 
是 这 样 就 无 法 使 用 SATA 协 议 的 一 切 已 有 软 硬 件 了 ， 包 括 成 熟 的 SATA 
控制 器 硬件 ， 以 及 主机 端 0S 系 统 内 核对 SATA 的 原生 驱动 支持 。 选 择 
PCIE 就 意味 着 必须 自己 开发 一 套 轻 量 级 IO 访问 协议 。 


提示 : 目前 针对 PCIE Flash 的 专用 IO 协议 有 NVMe 和 SCSIe 两 
种 ， 现 在 看 来 VNMe 似 乎 已 经 占 了 上 风 ， 因 为 SCSI 协 议 得 的 
庞大 腔 肿 已 经 完全 不 适合 Flash 这 种 高 速 介 质 了 。Memblaze 在 
第 一 代 产 品 中 并 没有 使 用 NVMe， 而 是 使 用 了 自己 的 私有 协 
议 ， 下 一 代 产 品 很 有 可 能 会 过 渡 到 NVMe 标 准 上 来 。 


Memblaze 很 显然 是 充分 掌握 了 这 条 线 上 的 所 有 技能 。 图 3-40 是 
Memblaze 的 Flash 控 制 器 框图 。 其 使 用 了 成 品 FPGA， 其 中 IP 硬 核 部 分 
为 PCIE 控 制 器 及 DDR3 控 制 器 ; IP 软 核 部 分 为 DMA 控 制 器 、 赃 入 式 通 
用 CPU 等 等 ， 可 以 任意 生成 ， 其 他 都 是 需要 用 户 自 定义 设计 的 部 分 。 
其 中 纯 硬 逻 辑 包 含 Flash 通 道 控 制 器 、ECC 计 算 电 路 等 ， 需 要 机 入 式 通 


用 CPU 辅助 的 有 : 地 址 映射 器 、 磨 损 均 衡 和 垃圾 回收 模块 以 及 整个 控 
制 器 的 中 央 协 调控 制 逻 辑 处 理 部 分 等 。 


图 3-40 ”Memblaze 的 Flash 控 制 器 框图 


除了 对 硬件 的 掌控 能 力 之 外 ，Memblaze 还 拥有 IO 延 时 平滑 的 专利 
技术 ， 可 以 针对 个 别 超 长 延 时 的 IO 请 求 进行 削 峰 滤波 处 理 (类 似 电 容 
器 滤 除 高 电压 脉冲 的 工作 原理 ， 对 IO 延 时 进行 滤波 ) ， 当 运行 在 较 高 
IOPS 情 况 下 ， 控 制 器 会 自动 调整 垃圾 回收 算法 和 内 部 等 待 队列 深度 ， 
并 将 IO 延 时 进行 平滑 处 理 ， 从 而 避免 产生 超 长 延 时 的 IO ， 减 少 对 后 端 
系统 的 影响 ， 使 得 用 户 的 应 用 运行 得 更 加 平稳 顺 滑 。 图 3-41 为 实测 结 
果 ， 可 以 看 到 拌 动 很 少 ， 有 些 场景 根本 没有 拌 动 。 这 项 技术 主要 是 采 
用 排队 论 和 现代 控制 理论 对 SSD 的 一 些 指 标 进行 采样 ， 根 据 采 样 结果 
去 控制 系统 通路 上 的 参数 ， 用 来 优化 IO 的 抖动 和 延迟 。 比 如 ， 用 户 发 
给 SSD 的 请 求 可 能 是 顺序 写 入 ， 也 可 能 是 随机 写 入 。 不 同 的 写 入 模式 
对 应 的 写 放大 倍数 是 不 同 的 。 在 这 种 情况 下 ， 后 端的 处 理 速 度 在 不 同 
的 输入 下 就 会 有 不 同 的 通道 阻塞 程度 ， 对 于 IO 来 说 就 会 造成 抖动 和 服 
务 质量 较 低 。 如 果 采 用 通道 的 阻塞 程度 作为 控制 变量 ， 运 用 自动 控制 
理论 ， 就 可 以 动态 地 均衡 前 端的 压力 ， 降 低 整 个 系统 的 延 返 和 抖动 。 


图 3-41 Memblaze 的 时 延平 滑 技 术 


最 后 ， 对 于 固态 存储 厂商 来 讲 ， 能 够 驾驭 各 Flash 颗 粒 厂 丙 的 
NAND Flash 也 显得 至 关 重 要 。 不 同 颗粒 使 用 不 同 的 规格 ， 比 如 ECC 位 
比例 、 页 面 大 小 、 访 问 协 议 等 等 。 这 些 都 需要 化 上 足够 的 时 间 去 测 
试 、 调 优 。 


提示 : 本 文 落笔 时 ，Memblaze 的 最 终 产 品 性 能 已 经 可 以 达到 
70w 十 的 IOPS， 已 经 是 目前 PCIe 闪 存 卡 的 最 高 纪录 。 


另外 ，NAND Flash 的 写 放 大 是 导致 性 能 和 寿命 下 降 的 主要 原因 ， 
是 否 能 够 充分 降低 写 放 大 效应 ， 也 是 体现 技术 实力 的 地 方 。 如 图 3-42 
所 示 ，Memblaze 对 写 放 大 的 压制 还 有 很 不 错 的 。 


图 3-42 ”Memblaze 对 写 放 大 的 压制 


3.11.2 ”产品 能 力 


技术 是 技术 ， 产 品 是 产品 ， 有 好 技术 不 一 定 能 出 好 产品 ， 但 是 没 
有 好 技术 一 定 出 不 了 好 产品 ， 当 然 ， 忽 悠 除外 。 令 人 眼前 一 亮 的 是 ， 
Memblaze 对 产品 这 个 概念 还 是 非常 有 感觉 的 ， 深 知 “ 个 性 ”对 于 一 款 产 
品 来 说 是 多 么 重要 。 


在 我 们 的 脑海 里 ，PCIE 闪 存 卡 就 是 一 儿 子 买卖 ， 比 如 ， 卡 上 焊 上 
了 多 少 容量 的 Flash 颗 粒 ， 它 就 是 多 大 容量 了 ， 比 如 1TB 容 量 ， 如 果 用 
户 不 需要 这 么 大 容量 ， 比 如 只 需要 500GB 容 量 ， 那 么 厂商 就 不 得 不 再 
去 定制 一 批 只 焊 了 500GB 容 量 颗粒 的 板子 。 这 个 问题 谁 都 清楚 ， 但 是 
Memblaze 是 第 一 个 提出 方案 并 且 成 功 商用 的 公司 。 


“琴键 ”技术 是 他 们 对 这 个 技术 的 命名 ， 通 过 将 Flash 控 制 器 与 Flash 
颗粒 之 间 的 连接 方式 从 完全 PCB 布 线 转 为 插 槽 的 形式 ， 然 后 通过 生产 
不 同 容量 的 子 卡 (琴键 ) 插 在 插 槽 上 从 而 生成 不 同 整体 容量 的 闪存 卡 
产品 ， 如 图 3-43 和 图 3-44 所 示 。Memblaze 组 合 容量 和 规格 如 图 3-45、 
图 3-46 所 示 。 


图 3-43 “Memblaze 的 琴键 技术 


图 3-44 ”Memblaze 的 琴键 技术 
图 3-45 ”Memblaze 的 琴键 技术 不 同 组 合 容量 
图 3-46 ”Memblaze 闪 存 卡 其 他 规格 


说 明 : Memblaze 是 一 家 让 人 钦佩 的 初创 公司 ， 在 此 我 也 得 知 
他 们 后 续 有 很 长 远 的 规划 ， 也 非常 期 待 能 够 早日 见 到 其 更 有 
特色 的 产品 。 


3.12 小结: 网 中 有 网 ， 网 中 之 网 
我 们 用 图 3-47 来 作为 本 章 的 结束 。 


图 3-47 三 台 计 算 机 组 成 的 网 一 一 网 中 有 网 


第 4 章 “七星 北斗 -一 大 话 /详解 七 
种 RAID 
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第 3 章 介绍 了 磁盘 的 内 部 原理 、 构 造 以 及 外 部 的 接口 系统 。 但 一 块 
磁盘 的 容量 是 有 限 的 ， | 对 一 些 应 用 来 说 ， 可 能 需 
上 百 吉 字 节 (GB) 0 节 (TB) 大 小 的 分 区 来 存放 数据 。 目 
前 的 磁盘 单 块 容量 最 三 这 对 于 现代 应 用 程序 来 说 远 远 不 
够 。 


那么 必须 要 制造 单 盘 容量 更 大 的 硬盘 么 ?为 解决 这 个 问题 ， 人 们 
发 明了 RAID 技 术 ， 即 Redundant Array of Independent Disks 技 术 ， 中 文 
意思 是 由 独立 的 磁盘 组 成 的 具有 宛 余 特 性 的 阵列 。 既 然 是 阵列 ， 那 一 


定 需 要 很 多 磁盘 来 组 成 ,既然 是 具有 允 余 特性 的 ， 那 一 定 可 以 允许 某 
块 磁盘 损坏 之 后 ， 数 据 仍然 可 用 。 下 面 我 们 就 来 看 一 下 RAID 是 怎样 炼 
成 的 。 


4.1 ”大话 七 种 RAID 武 器 


话说 几 干 年 前 ， 有 位 双 刀 大 侠 ， 左 右手 各 拿 一 把 大 刀 。 开 始 的 时 
候 ， 他 总 是 单独 使 用 每 把 刀 ， 要 么 用 左手 刀 ， 要 么 用 右手 刀 ， 但 是 总 
被 人 打败 ， 郁 闷 至 极 ， 于 是 杏 心 悟道 ， 静 心 修炼 。 他 逐渐 摸索 出 一 套 
刀 法 ， 自 称 “ 合 一 刀 法 ”， 即 双 刀 并 用 。 外 人 看 不 见 他 的 第 二 把 刀 ， 只 
能 看 到 他 拿 着 一 把 刀 。 他 把 两 把 刀 的 威力 ， 合 二 为 一 ， 成 为 一 把 大 
2 


而 这 种 双 刀 合 一 的 刀 法 ， 又 可 以 分 为 两 条 路 子 。 一 条 是 常规 路 
子 ， 即 这 把 合 二 为 一 的 大 刀 ， 其 实 每 出 一 招 只 有 原来 一 把 刀 的 威力 ， 
但 是 后 劲 更 足 了 。 一 把 刀 顶 不 起 来 的 时 候 ， 可 以 第 二 把 刀 上 阵 。 对 于 
政和 人 来 说 ， 还 是 只 看 见 一 把 大 刀 。 另 一 条 是 野 路 子 ， 野 路 子 往往 效果 
很 好 ， 每 出 一 招 总 是 具有 两 把 刀 的 威力 之 和 ， 而 且 也 具有 两 把 刀 的 后 
劲 ! 他 实现 这 个 野 路 子 的 方法 ， 便 是 界 内 早 有 的 思想 一 一 分 而 治之 ! 
也 就 是 说 他 把 一 把 刀 又 分 成 了 很 多 细小 的 元 素 ， 每 次 出 招 时 把 两 把 刀 
的 元 素 组 合 起 来 ， 所 以 不 但 威力 大 了 ， 后 劲 也 足 了 ! 


不 过 大 侠 的 这 个 刀 法 有 个 致命 的 弱点 ， 就 是 双 刀 息息相关 。 一 旦 
其 中 一 把 刀 有 所 损坏 ， 另 一 把 刀 相 应 的 地 方 也 跟着 损坏 。 如 果 一 把 刀 
完全 失去 效力 ， 那 么 另 一 把 刀 也 跟着 失效 。 


双 刀 大 侠 一 直到 临终 也 没有 收 一 个 徒 息 ， 不 是 因为 他 武艺 不 精 ， 
而 是 因为 他 的 合 一 刀 法 在 当时 被 认为 是 野 路 子 ， 和 到 | 门 甩 路 的 功夫 ， 所 


以 邦 冰 一 生 。 临 终 时 他 用 尽 目 己 最 后 一 点 力气 在 纸 上 写 下 了 4 句 诗 后 ， 
抱 憾 而 终 ! 


刀 于 我 手 不 为 刀 ， 
横 分 坚 割 成 龙 毕 。 
化 作 神 龙 游 天 际 ， 
龙 在 我 心 任 道 遥 


这 就 是 后 世 流传 的 “ 合 一 刀 谱 ”! 俗称 “ 龙 谱 ”。 


世上 最 高 的 刀 法 在 心中 ， 而 不 是 手 上 ! 双 刀 大 侠 练 就 的 是 一 门 * 洗 
瀚 ”绝学 ， 一 招 一 式 都 是 铺天盖地 ， 势 不 可 挡 ! 


几 百 年 后 ,七星 大 侠 在 修炼 了 磁盘 大 挪移 神功 和 龙 谱 之 后 的 某 一 
天 ， 他 突然 两 眼 发 恨 :“ 我 悟 到 了 ! ”然后 奋 笔 疾 书 ， 成 就 了 “七 星 北斗 
阵 ” 这 个 空前 绝 后 的 阵 式 ! RAID 0 阵 式 就 是 这 个 阵 式 的 第 一 个 阵 式 ! 
下 面 来 看 看 这 个 阵 式 的 绝妙 之 处 吧 ! 


4.1.1 RAID 0 阵 式 


首先 ， 这 位 七 星 大 侠 一 定 是 对 磁盘 大 挪移 神功 有 很 高 的 造 刘 ， 
为 他 熟知 每 块 磁盘 上 面 的 磁性 区 域 的 构造 ， 包 括 磁道 、 磁 头 、 局 区 和 
柱 面 等 ， 这 些 口 读 心 法 已 经 烂熟 于 心 。 在 他 看 来 ， 盘 片 就 像 一 个 蜂 
宽 ， 上 面 的 每 一 个 孔 都 是 一 个 局 区 ， 可 以 说 他 已 经 参透 了 磁盘 。 其 
次 ,七 星 大 侠 一 定 是 对 合 一 刀 法 的 精髓 有 很 深 的 领悟 ， 即 他 能 领会 双 
刀 大 侠 那 4 句 诗 的 含义 ， 特 别 是 第 二 句 给 了 他 很 大 的 启发 !“ 横 分 竖 割 
成 龙 缘 ”， 暗 示 着 双 刀 大 侠 把 他 的 刀 在 心中 分 割 成 了 横 条 带 和 竖 条 市 ， 
所 以 叫 “ 横 分 竖 割 "。 分 割 完毕 之 后 ， 双 刀 大 侠 把 这 些 分 割 后 所 谓 的 


“ 缘 ”"， 即 细 条 带 ， 在 心中 组 合 起 来 形成 一 条 虚拟 的 “ 龙 *"， 然 后 用 龙 来 
当 作 武器 ， 即 “ 龙 在 我 心 任 道 逐 ”。 


这 显然 给 了 七 星 大 侠 很 大 的 启发 ， 何 不 把 几 块 磁盘 也 给 “ 横 分 竖 
割 "”， 然 后 组 成 “ 龙 ” 呢 ? 对 ， 就 这 么 干 ! 七 星 大 侠 卖 血 换 来 两 块 磁盘 ， 
找 了 个 破 庙 ， 在 后 面 搭 了 个 日 堆 ， 成 天 摆弄 他 那 两 块 用 血 换 来 的 磁 
盘 。 白 天 出 去 要 饭 ， 晚 上 回来 潜心 钻研 ! 他 首先 决定 把 两 块 磁盘 都 分 
割 成 条 市 ， 形 成 “ 缘 "， 可 是 该 怎么 分 好 呢 ? 合 一 刀 法 的 思想 主要 有 两 
条 路 ; 一 条 是 懒 人 做 法 ， 不 想 动 脑子 ， 即 威力 小 、 后 劲 足 那 种 ; 另 一 
种 是 需要 动脑 子 算 的 ， 即 威力 足 、 后 劲 也 足 那 种 。 


第 一 种 怎么 实现 呢 ? 七 星 大 侠 冥 思 昔 想 ， 却 发 现 被 误导 了 。 因 为 
第 一 种 根本 不 需要 做 “ 缘 ”"。 双 刀 大 侠 的 诗 只 是 描述 了 威力 巨大 的 第 二 
种 路 子 。 所 以 三 下 五 除 二 ， 七 星 大 侠 写 出 了 RAID 0 阵 式 中 的 第 一 个 套 
路 : 累加 式 。 也 就 是 说 ， 磁 盘 还 是 那些 磁盘 ， 什 么 都 不 动 ， 也 不 用 "“ 横 
分 竖 割 "。 数 据 来 了 ， 先 往 第 一 块 磁盘 上 写 。 等 写 满 之 后 ， 再 往 第 二 块 
上 写 。 然 后 将 这 两 块 磁盘 在 心中 组 成 一 条 龙 ， 这 就 符合 了 合 一 刀 法 的 
思想 。 只 不 过 这 条 龙 威力 比较 弱 ， 因 为 每 次 IO 只 用 到 了 一 块 磁盘 ， 另 
一 块 磁盘 没有 动作 。 但 是 这 条 龙 的 后 劲 ， 比 单个 磁盘 足 了 ， 因 为 容量 
相对 一 块 磁 盘 来 说 ， 增 大 了 。 


第 一 套路 子 实现 了 ， 可 第 二 套路 子 就 难 了 。 其 实 磁 盘 已 经 被 分 割 
了 ， 忆 区 不 就 是 被 分 着 的 么 ?但 是 一 个 局 区 只 有 512B 大 小 ， 这 不 符合 
合 一 刀 法 。 因 为 合 一 刀 法 中 是 “ 缘 " 而 不 是 “ 粒 ”， 分 割 成 粒 的 话 ， 不 仅 
开销 太 大 ， 而 且 组 合 起 来 也 很 困难 。 所 以 七 星 大 侠 决 定 完 全 照搬 合 一 
刀 法 的 思想 ， 但 是 又 不 能 丢弃 磁盘 已 经 分 割 好 的 扇 区 ， 所 以 七 星 绞 尽 
脑汁 想 出 这 么 一 个 办 法 ， 如 图 4-1 和 图 4-2 所 示 。 


图 4-1 正常 的 4 块 硬盘 图 4-2 ”被 分 割 的 4 块 硬盘 


图 4-1 所 示 的 是 4 块 普通 硬盘 ， 其 上 布 满 了 局 区 。 局 区 是 实 实在 在 
存在 于 盘 片 上 的 ， 具 有 自己 的 格式 。 图 4-2 所 示 的 是 引入 分 割 思 想 之 后 
的 硬盘 。 由 于 许多 文件 系统 或 者 卷 管理 软件 都 使 用 块 而 不 是 局 区 作为 
基本 存储 单元 ， 所 以 图 4-2 中 也 使 用 由 4 个 局 区 组 成 的 块 作为 基本 单 
元 。 不 同 磁 盘 的 相同 偏 移 处 的 块 组 合成 Stripe， 也 就 是 条 带 。 


块 的 编号 也 是 以 横向 条 带 方 向 开始 一 条 一 条 的 向 下 。 这 样 ， 对 于 
一 个 全 新 的 文件 系统 和 RAID 0 磁盘 组 ， 如 果 有 大 块 数 据 写 入 时 ， 则 数 
据 在 很 大 几率 上 可 以 以 条 带 为 单位 写 入 。 也 就 是 说 数据 被 分 成 多 块 写 
入 4 个 硬盘 ， 而 不 是 单 硬盘 系统 中 的 顺序 写 入 一 个 硬盘 ， 这 就 大 大 提高 
了 速度 。 图 4-3 所 示 的 为 多 块 磁盘 组 成 的 逻辑 磁盘 示意 图 。 


图 4-3 心中 之 龙 


提示 : 磁盘 上 实 实 在 在 存在 的 只 有 局 区 结构 ，Stripe 并 不 是 
一 个 实 实在 在 的 结构 ， 它 只 是 由 程序 根据 算法 公式 现 套现 用 
的 。 就 像 戴 了 一 副 有 格子 的 眼镜 看 一 张 白 纸 ， 那 么 会 认为 这 
张 白 纸 被 格式 化 了 ， 其 实 并 没有 。 另 外 ， 条 带 化 之 后 的 多 块 
硬盘 ， 数 据 是 被 并 行 写 入 所 有 磁盘 的 ， 也 就 是 多 管 齐 下 ， 而 
不 是 模 同 与 满 一 个 条 审 ， 再 写 下 一 个 条 市 。 


七 星 大 侠 就 这 样 埋头 兰若 思考 了 整整 1 年 ， 基 于 合 一 刀 法 的 横 分 竖 
割 的 思想 ， 完 成 了 “七 星 北斗 阵 ” 的 第 一 个 阵 式 一 一 RAID 0 阵 式 。 


4.1.2 RAID 1 阵 式 


伦 开 七 打 ， 各 表 其 一 。 话 说 七 星 在 完成 RAID 0 阵 式 之 后 ， 并 没有 
沾沾自喜 ， 而 总 是 想 在 合 一 刀 法 上 有 所 创新 。 


提示 : RAID 0 阵 式 纵然 威力 无 比 ， 但 弱点 也 很 明显 : 一 旦 其 
中 一 块 磁盘 废 掉 ， 整 个 阵 式 将 会 被 轻易 攻破 。 因 为 每 次 出 招 
靠 的 就 是 “ 合 一 "， 如 果 任 意 一 块 坏 掉 ， 也 就 没有 “ 合 ” 的 意义 
了 。 也 就 是 说 ， 数 据 被 我 在 心中 分 割 ， 本 来 老 老 实 实 写 到 一 
块 盘 就 完事 了 ， 可 为 了 追求 威力 ， 非 要 并 发 瑟 盘 ， 第 一 、 
Ss 块 数据 写 到 了 1 号 盘 ， 第 二 、 四 、 六 、.….…… 块 数 
据 写 到 了 2 号 盘 。 但 是 对 于 外 界 来 说 ， 会 认为 是 把 数据 都 写 到 
了 我 心中 的 一 块 虚拟 盘 上 。 这 样 不 坏 则 已 ， 一 旦 其 中 任何 一 
块 磁盘 损坏 ， 融 会 数据 全 毁 ， 因 为 数据 是 被 分 割 开 存放 在 所 
有 磁盘 上 的 。 不 行 ， 太 不 保险 了 。 为 了 追求 威力 ， 冒 的 险 太 
大 ， 要 想 个 稳妥 的 办 法 。 


于 是 七 星 再 次 下 思 苦 想 ， 终 于 创 出 了 RAID 1 阵 式 ! 


这 话 要 说 到 800 年 前 ， 有 位 “独行 侠 ”， 心 独身 独 终日 孤单 一 人 。 据 
称 他 每 次 出 招 从 来 不 用 双手 ， 总 是 单 手 打出 单 掌 ， 练 就 了 一 门 “独孤 影 
子 掌 ”。 虽 说 此 掌 法 威力 不 高 ， 但 是 自 有 其 妙 处。 每 当 他 政 不 过 他 人 ， 
单 掌 被 击 演 的 时 候 ， 就 会 立即 换 用 另 一 只 从 来 都 没 用 过 的 掌 继 续 出 
招 。 这 一 绝学 往往 令 自 以 为 已 经 占 了 上 风 的 敌人 在 还 没有 回 过 神 来 的 
情况 下 ， 就 被 打 个 落花 流水 ! 不 但 他 的 掌 法 绝妙 ， 就 连 他 的 身 法 都 达 
到 了 炉火纯青 的 地 步 。 他 能 修炼 出 一 个 影子 ， 这 个 影子 平时 总 是 跟随 
着 他 ， 他 做 什么 ， 影 子 就 做 什么 。 一 旦 真 身 损 毁 ， 其 影子 便 代替 他 的 
真 身 来 动作 。 这 位 独行 侠 和 遗留 的 “孤独 影子 掌 ” 秘 访 如 下 : 


心 腾 有 及， 掌 腰 胱 。 
掌 由 独 心 生 。 
身 腾 胱 ， 影 腰 胱 。 
身影 心 相同 。 
花 腊 肛 ， 夜 腾 肋 。 
独 饮 赏 月 容 。 
灯 滕 及， 人 滕 胱 。 
此 景 何 时 休 ? 


独行 侠 的 这 上段 诗句 不 难 理解 ， 孤 独 给 了 他 灵感 ， 身 独 心 也 独 ， 如 
此 练 就 的 功夫 ， 也 是 独孤 残 影 。 最 后 一 句 说 出 了 大 侠 的 无 奈 ， 其 实 他 
也 不 想 孤独 ， 但 是 没 人 能 理解 他 。 


七 星 大 侠 领 悟 了 独行 侠 的 苦衷 ， 感 受 了 他 的 心境 。 独 行 侠 练 就 的 
是 一 门 “无 奈 ” 绝 学 ， 处 处 体现 着 凄惨 与 滚 担 。 只 有 残 了 ， 才 能 重 获 新 
生 。 一 只 学 断 了 ， 另 一 只 掌 才 能 接替 ， 这 是 何等 凄惨 ”简直 凄惨 至 
极 ! 不 过 往往 孤独 丫 苦 的 人 都 很 注意 自 保 ， 虽然 招式 的 威力 是 最 小 
的 ， 但 是 这 门 学 问 是 武林 中 用 于 自 保 的 最 佳 选 择 。 


七 星 大 侠 没 有 理由 不 选择 这 门 自 保 神功 来 解决 他 在 RAID 0 阵 式 中 
的 破绽 ， 也 就 是 安全 问题 。 之 无 疑问 ，RAID 0 是 强大 的 ， 但 是 也 是 脆 


七 星 大 侠 决 定 完全 抛弃 RAID 0 的 思想 ， 采 用 独行 侠 的 思想 。 将 两 
块 磁盘 中 的 一 块 用 于 正常 使 用 ， 另 一 块 用 作 正 常 使 用 磁盘 的 影子 。 影 
子 总 是 跟随 主人 ， 主 人 做 什么 ， 影 子 就 做 什么 。 工 作 盘 写 了 一 个 数 
据 ， 影 子 盘 在 相同 位 置 也 写 上 了 数据 。 读 数据 的 时 候 ， 因 为 数据 有 两 
份 ， 可 以 在 工作 盘 读 ， 也 可 以 到 影子 盘 读 ， 所 以 增加 了 并 发 性 。 即 修 


炼 这 个 阵 式 的 人 ， 可 以 同时 应 付 两 个 政 人 的 挑 邮 ， 自 身 应 付 一 个 ， 影 
子 应 付 一 个 ， 这 无 疑 是 很 高 明 的 ! 


但 是 应 付 一 个 敌人 的 时 候 ， 不 像 RAID 0 阵 式 那样 可 以 同时 使 用 多 
块 磁盘 ， 只 能 使 用 一 块 磁盘 。 当 其 中 一 块 磁盘 坏 掉 ， 或 者 其 中 一 块 磁 
盘 上 有 某 个 区 域 坏 挤 ， 那 么 对 应 影子 盘 或 者 影子 盘 上 对 应 的 位 置 便 会 立 
即 接替 工作 盘 ， 政 人 看 不 出 变化 。 可 能 独行 侠 一 生 都 没有 遇 到 同时 和 
两 个 对 手 过 招 的 情况 ， 所 以 在 他 的 秘 肪 中 ， 并 疫 有 体现 “并 发 读 ” 这 个 
功能 ， 只 体现 了 安全 自 保 。 


然而 七 星 并 没有 全 面 抛 奔 双 刀 大 侠 的 思想 ， 而 是 保留 了 双 刀 的 精 
华 ， 即 “ 横 分 坚 割 ”的 基本 思想 ， 抛 弄 了 他 的 算法 ， 即 鲁莽 而 不 计 后 果 
的 并 发 往 各 个 磁盘 上 写 数 据 的 方法 。 所 谓 算法 ， 也 即 指 大 侠 对 付 收 人 
招数 的 时 候 ， 在 心中 盘算 的 过 程 。 心 算 的 速度 远 远 快 于 出 招 的 速度 ， 
所 以 心算 引发 的 延 时 并 不 会 影响 出 招 。 现 在 江湖 人 士 也 大 多 都 是 精 于 
钻研 算法 ， 而 只 有 制造 兵器 的 铁匠 才 去 钻研 如 何 用 料 ， 考 虑 如 何 才 能 
减轻 兵器 重量 而 不 影响 兵器 的 硬度 和 耐 磨 度 等 。 


可 以 说 ， 兵 器 的 材质 、 设 计 加 上 大 侠 们 精心 的 算法 才 形成 了 江湖 
上 形形色色 的 功夫 秘 肪 ! 而 材质 在 很 大 程度 上 发 展 是 很 慢 的 ， 想 有 突 
破 非常 困难 。 但 是 算法 就 不 同 了 ， 大 侠 可 以 研究 出 各 种 使 用 兵器 的 方 
法 ， 将 兵器 用 得 神 平 其 神 ! 磁盘 的 转速 、 磁 密度 、 电 路 等 ， 虽 然 一 直 
在 提升 ， 但 是 终究 太 慢 。 所 以 出 现 了 以 七 星 大 侠 为 代表 的 算法 派 ， 他 
们 苦 研 算法 ， 用 来 提高 磁盘 的 整体 性 能 。 假 想 某 天 一 旦 某 个 铁匠 造 出 
了 履 龙 刀 、 倚 天 剑 这 般 的 神器 ， 我 想 七 星 这 等 大 侠 也 就 无 用 武之 处 
了 。 可 惜 这 两 把 神器 已 经 在 自 相 残杀 中 玉石 俱 焚 了 。 


七 星 大 侠 最 后 给 这 个 阵 式 起 名 叫做 *RAID 1”。 图 4-4 显 示 了 RAID 
1 组 成 的 逻辑 磁盘 。 


图 4-4 ”RAID 1 示意 图 
但 是 七 星 也 深 深 认识 到 ， 这 个 RAID 1 阵 式 还 是 有 两 个 大 弱点 。 


在 修炼 的 时 候 ， 速 度 会 稍 慢 ， 因 为 每 次 修炼 ， 除 了 练 真 身 之 外 ， 
还 要 练 影子 。 不 然 影子 不 会 ， 出 招 的 时 候 影子 就 无 法 使 用 。 这 会 对 实 
际 使 用 有 一 定 影响 ， 数 据 写 到 工作 盘 上 ， 也 必须 写 到 影子 盘 上 一 份 。 


虽然 自己 有 个 影子 ， 但 是 影子 没有 给 真 身 增加 后 劲 。 真 身 累 了 ， 
影子 也 会 被 拖累 。 不 管 修炼 了 几 个 影子 ， 整 体 的 耐力 和 体力 只 等 于 其 
中 一 个 的 体力 耐力 ， 也 就 是 真 身 的 体力 和 耐力 。 整 体 的 体力 和 耐力 都 
被 限制 在 体力 耐力 最 小 的 影子 盘 或 者 真 身 上 。 也 就 是 说 RAID 1 提供 的 
最 大 容量 等 于 所 有 组 成 RAID 1 的 磁盘 中 容量 最 小 的 一 块 ， 剩 余 容 量 不 
被 使 用 ，RAID 1 磁盘 组 的 写 性 能 等 于 所 有 磁盘 中 性 能 最 低 的 那 块 磁盘 
的 写 性 能 。 


七 星 看 了 看 RAID 0， 又 看 了 看 RAID 1， 一 个 鲁莽 急躁 但 威力 无 
比 ， 一 个 独孤 残 苦 自嘲 自 保 。 人 矣 ! 鸣 呼 哉 ! ! 七 星 心 想 ， 我 怎么 走 了 
两 个 极端 呢 ? 不 妥 ， 不 受 ， 二 者 皆 不 合 我 意 ! 于 是 ， 七 星 大 侠 又 开始 
了 苦心 钻研 ， 这 一 下 就 是 2 年 ! 


4.1.3 ”RAID 2 阵 式 
史话 : 话说 明 末 清 初 时 期 ， 社 会 动荡 ， 英 雄 辈 出 。 有 这 么 一 


位 英雄 ， 号 称 “ 优 雅 剑侠 ”"， 他 持 双手 剑 ， 得 益 于 流传 甚 广 的 
合 一 刀 法 ， 并 加 入 了 自己 的 招式 ， 修 炼 成 了 一 套 “ 合 一 优雅 剑 


法 ”。 剑 侠 深 知 合 一 刀 法 的 鲁莽 招式 ， 虽 然 威力 巨大 ， 但 必 会 
酿 成 大 祸 。 所 以 他 潜心 研究 ， 终 于 找到 一 种 办 法 ， 可 以 避免 
合 一 的 鲁莽 造成 的 不 可 挽回 的 祸患 。 他 分 析 过 ， 合 一 之 所 以 
鲁莽 就 是 因为 他 没有 备份 措施 ， 兵 器 有 任何 一 点 损坏 都 会 一 
损 俱 损 。 那 么 是 不 是 可 以 找 一 种 方法 ， 对 兵器 上 的 每 个 条 珊 
都 做 一 个 备份 ， 融 像 当 年 独行 侠 那 样 ?” 但 是 又 不 能 一 个 对 一 
个 ， 那 就 和 独行 侠 无 异 了 。 


剑侠 的 脑子 很 好 用 ， 他 从 小 精 于 算术 ， 有 常人 不 及 之 算术 功夫 。 
如 今 他 终于 发 挥 出 他 的 算术 技能 了 ， 他 先 找 来 一 张 约 ， 然 后 把 他 的 两 
把 剑 和 这 张 纸 ， 并 排 摆 在 地 上 ， 然 后 对 剑 和 纸 进 行 横 分 坚 割 ， 然 后 一 
一 对 照 ， 将 第 一 把 剑 的 第 一 格 写 上 一 个 1， 然 后 在 第 二 把 剑 的 相同 位 置 
上 写 上 一 个 0， 然 后 在 纸 的 对 应 位 置 上 算出 前 二 者 的 和 和 ， 即 1 十 0 二 1。 
然后 剑侠 设想 ， 一 旦 第 一 把 剑 被 损坏 ， 现 在 只 剩 第 二 把 剑 和 那 张 记 满 
数字 的 纸 ， 剑 侠 悦 然 大 悟 : 原来 如 此 精妙 ! 


为 什么 呢 ? 虽然 第 一 把 剑 损坏 ， 但 是 此 时 仍然 可 以 出 招 ， 因 为 第 
一 把 全 上 的 数字 可 以 用 纸 上 对 应 位 置 的 数字 ， 减 去 第 二 把 剑 对 应 位 置 
上 的 数据 ! 也 就 是 1 一 0 二 1， 就 可 以 得 出 第 一 把 全 上 已 经 丢失 的 数字 ! 
而 在 敌人 看 来 ， 仍 旧 是 手持 一 把 大 剑 ， 只 不 过 威力 变 小 了 ， 因 为 每 次 
出 招 都 要 计算 一 次 。 而 且 修 炼 的 时 候 也 更 加 难 了 ， 因 为 每 练 一 招 就 要 
在 纸 上 记 录 下 双 剑 之 和 ， 而 且 还 需要 用 脑子 算 ， 速 度 比 合 一 刀 法 慢 了 


/IN 


哇 哈 哈 ， 剑 侠 仰 天 长 笑 ! 他 给 自己 的 剑 法 取 名 “优雅 合 一 剑 法 ”， 
意 即 他 的 剑 法 比 合 一 刀 法 虽然 威力 不 及 ， 但 也 差不多 少 。 最 重要 的 
是 ， 他 克服 了 合 一 刀 法 鲁 状 不计 后 果 的 弱点 ， 所 以 要 比 合 一 刀 法 来 得 
优雅 。 但 是 这 个 剑 法 也 有 弱点 ， 就 是 他 额外 增加 了 一 张 纸 和 用 了 更 多 


的 脑筋 来 计算 。 脑 子 计算 倒是 不 成 问题 ， 努 力学 习 算 法 便 可 ， 但 是 额 
外 增加 了 一 张 纸 ， 这 个 难免 有 些 遗 憾 ， 但 是 也 没有 办 法 ， 总 比 独行 侠 
那 一 套 目 保 好 得 多 。 目 保 的 代价 是 修炼 一 个 平时 几乎 用 不 到 的 影子 ， 
是 一 比 一 。 优 雅 合 一 剑 法 是 二 比 一 ， 降 低 了 修炼 的 代价 ， 而 威力 却 较 


合 一 刀 法 没 减 多 少 。 


然而 ， 这 套 剑 法 虽然 声名 大 品 ， 但 是 优雅 剑侠 还 是 被 一 个 突 如 其 
来 的 问题 一 直 折磨 着 ， 直 到 临终 也 没有 想 出 办 法 解决 。 


疑问 : 如 果 我 使 用 3 把 剑 、4 把 剑 、5 把 剑 ， 这 套 剑 法 还 奏效 
么 ? 因为 3 把 剑 的 数字 之 和 ， 就 不 是 一 个 数字 ， 而 是 两 个 数字 
了 ， 上 比如 1 十 0 十 1 二 10。 而 这 套 剑 法 只 有 一 张 纸 ， 一 个 格 不 能 
放 两 个 数字 ， 这 样 就 必须 再 加 一 张 纸 ， 这 样 不 就 和 独行 侠 那 
一 套 无 异 了 么 ? 比例 太 高 ， 不 妥 。 所 以 优雅 剑侠 一 直 再 考虑 
这 个 问题 ， 临 终 前 留 下 一 段 诗句 ， 也 抱 憾 而 终 。 


独行 合 一 上 皆 非 道 ， 
二 者 中 庸 方 优雅 。 
加 减 算 术 勤 思考 ， 


世间 正道 为 算法 ! 


优雅 剑侠 这 上 段 诗 的 最 后 一 句 ， 指 明了 后 人 若 要 解决 这 个 问题 ， 必 
须要 找到 一 种 算法 。 不 管 多 少 个 数字 ， 如 果 掩盖 一 个 数字 ， 可 以 将 其 
他 数字 代入 这 个 算法 ， 就 可 以 得 到 被 掩盖 的 数字 的 值 。 这 在 当时 简直 
就 是 不 可 能 的 事 。“ 世 间 正 道 为 算法 ”这 句 话 后 来 被 作为 推动 武林 发 展 
的 一 名 至 理 名 言 。 随 着 近代 西方 科技 传 入 中 国 ， 这 种 算法 终于 被 人 了 
解 了 ! 他 是 如 此 简单 而 美丽 ! 他 改变 了 整个 世界 ! 


峰回路转 ， 七 星 大 侠 在 优雅 剑 法 的 基础 上 ， 把 剑 换 成 了 磁盘 。 那 
张 记录 数字 之 和 的 纸 ， 七 星 也 改 用 磁盘 来 记录 。 这 样 ， 组 成 了 一 个 三 
磁盘 系统 ， 两 块 数 据 盘 ， 一 块 所 谓 “ 校 验 盘 ”"。 当 数据 损坏 时 ， 根 据 校 
验 盘 上 的 数字 ， 可 恢复 损坏 磁盘 上 的 数字 。 两 个 磁盘 系统 每 次 只 能 传 
输 2 路 数据 ， 因 为 数据 盘 就 两 块 ， 而 每 块 磁盘 每 次 就 传输 出 去 一 路 。 


RAID 2 的 具体 实现 如 图 4-5 所 示 。 
图 4-5” ”RAID 2 的 具体 实现 


看 看 RAID 2 的 具体 实现 。 值 得 研究 的 是 ， 七 星 大 侠 并 没有 使 用 加 
减法 来 进行 校 验 ， 而 是 用 了 一 种 算法 复杂 的 所 谓 “ 汉 明码 ”来 校 验 。 这 
可 不 是 信 手 牛 来 ， 而 是 有 一 定 原因 的 。 用 加 减 算法 进行 校 验 ， 并 没有 
对 数据 纠 错 的 能 力 。 加 减法 情况 下 ， 比 如 1 十 0 十 1 二 10， 这 段 数据 在 从 
磁盘 被 传输 给 控制 器 的 时 候 ， 校 验 位 会 一 同 传输 ， 即 数据 位 101， 校 验 
位 10， 此 时 经 过 控制 器 的 校 验 ， 他 会 算出 1 十 0 十 1 二 10， 和 一 同 传 过 来 
的 校 验 位 进行 比 对 。 如 果 相 同 ， 则 证 明 数 据 都 无 误 。 但 是 此 时 如 果 在 
传输 的 过 程 中 ， 电 路 受到 干扰 ， 数 据 位 其 中 有 一 位 畸变 了 ， 比 如 变 成 
111 了 ， 也 就 是 中 间 那 个 0 变 成 1 了， 其 他 不 变 ， 此 时 控制 器 进行 计算 1 
十 1 十 1 二 11， 和 一 同 传 过 来 的 10 不 同 ， 那 么 控制 器 会 怎么 认为 ? 它 可 
以 认为 数据 位 全 部 正确 ， 而 核验 位 被 畸变 ， 也 可 以 认为 数据 位 被 畸 
变 ， 校 验 位 正确 。 所 以 根本 不 能 判断 到 底 是 哪 种 情况 ， 所 以 不 能 修复 
错误 。 而 七 星 引 入 了 汉 明 码 ， 汉 明码 的 设计 使 得 接收 方 可 以 判断 到 底 
是 哪 一 位 出 错 了 ， 并 且 能 修正 一 位 错误 ， 但 是 如 果 有 两 位 都 错 了 ， 那 
么 就 不 能 修正 了 。 


Hamming Code ECC 〈 汉 明码 错误 检测 与 修正 ) 


RAID 2 算法 的 复杂 性 在 于 它 使 用 了 很 早期 的 纠 错 技术 
(Hamming Code) 校 验 技术 。 现 在 就 来 看 一 下 汉 明 码 的 算法 。 


汉 了 明码 


汉 明 码 在 原 有 数据 位 中 插入 一 定数 量 的 校 验 位 来 进行 错误 检测 和 
纠 错 。 比 如 ， 对 于 一 组 4 位 数据 编码 为 例 ， 汉 明码 会 在 这 4 位 中 加 入 3 个 
校 验 位 ， 从 而 使 得 实际 传输 的 数据 位 达到 7 位 ， 它 们 的 位 置 如 图 4-5 所 
示 。 


需要 被 插入 的 汉 明 码 的 位 数 与 数据 位 的 数量 之 间 的 关系 为 2P>P 十 
D 十 1， 其 中 P 代 表 汉 明码 的 个 数 ，D 代 表 数 据 位 的 个 数 。 比 如 4 位 数 
据 ， 加 上 1 就 是 5， 而 能 大 于 5 的 2 的 周 数 就 是 3 (23=8，22 三 4) 。 所 
以 ，7 位 数据 时 需要 4 位 汉 明 码 (24>4 十 7 十 1) ，64 位 数据 时 就 要 7 位 
汉 明 码 (27>64 十 7 十 1) 。 


在 RAID 2 中 ， 每 个 IO 下 发 的 数据 被 以 位 为 单位 平均 打 散 在 所 有 数 
据 盘 上 。 如 图 4.5 中 所 示 ， 左 边 的 为 数据 盘 阵 列 ， 如 果 某 时 刻 有 一 个 
4KB 的 IO 下 发 给 这 个 RAID 2 系统 ， 则 这 4KB 中 的 第 1、5、9、13 等 位 将 
被 存放 在 第 一 块 数据 盘 的 一 个 扇 区 中 ， 第 2、6、10、14 等 位 被 存放 在 
第 二 个 磁盘 的 对 应 条 带 上 的 扇 区 ， 依 此 类 推 。 这 样 ， 数 据 强 行 打 散 在 
所 有 磁盘 上 ， 人 迫使 每 次 IO 都 要 全 组 联动 来 存 取 ， 所 以 此 时 要 求 各 个 磁 
盘 主轴 同步 ， 才 能 达到 最 佳 效 果 。 因 为 如 果 某 时 刻 只 读 出 了 一 个 IO 的 
某 些 扇 区 ， 另 一 些 扇 区 还 没有 读 出 ， 那 么 先 读 出 来 的 数据 都 要 等 待 ， 
这 就 造成 了 瓶颈 。 主 轴 同 步 之 后 ， 每 块 磁盘 盘 片 旋转 同步 ， 某 一 时 刻 
每 块 磁盘 都 旋转 到 同一 个 扇 区 偏 移 的 上 方 。 同 理 ， 右 边 的 阵列 (我 们 
称 之 为 校 验 阵列 ) 则 存储 相应 的 汉 明 码 。 


RAID 2 在 写 入 数据 块 的 同时 还 要 计算 出 它们 的 汉 明 码 并 写 入 校 验 
阵列 ， 读 取 时 也 要 对 数据 即时 地 进行 校 验 ， 最 后 再 发 向 系统 。 通 过 上 


文 的 介绍 ， 我 们 知道 汉 明码 只 能 纠正 一 个 位 的 错误 ， 所 以 RAID 2 也 只 
能 允许 一 个 硬盘 出 问题 ， 如 果 两 个 或 以 上 的 硬盘 出 问题 ，RAID 2 的 数 
据 就 将 受到 破坏 。 


RAID 2 是 早期 为 了 能 进行 即时 的 数据 校 验 而 研制 的 一 种 技术 (这 
在 当时 的 RAID 0、1 等 级 中 是 无 法 做 到 的 ) ， 从 它 的 设计 上 看 也 是 主 
要 为 了 即时 校 验 以 保证 数据 安全 ， 针 对 了 当时 对 数据 即时 安全 性 非常 
敏感 的 领域 ， 如 服务 器 、 金 融 服 务 等 。 但 由 于 校 验 盘 数量 太 多 、 开 和 销 
太 大 及 成 本 昂贵 ， 目 前 已 基本 不 再 使 用 ， 转 而 以 更 高 级 的 即时 检验 
RAID 所 代替 ， 如 RAID 3、5 等 。 


七 星 大 侠 现 在 已 经 创造 了 三 种 阵 式 了 ， 根 据 合 一 刀 法 所 创 的 RAID 
0， 根 据 独 孤 掌 所 创 的 RAID 1， 根 据 优雅 合 一 剑 法 所 创 的 RAID 2。 而 
七 星 大 侠 的 郁闷 之 处 和 当年 优雅 剑侠 一 样 ， 就 是 苦于 找 不 到 一 种 一 劳 
永 锡 的 绝妙 算法 ， 一 种 集 各 种 优点 为 一 身 而 且 开销 小 的 算法 。 


4.1.4 RAID 3 阵 式 


话说 到 了 清末 ， 清 政府 开展 洋务 运动 ， 师 夷 长 技 以 治 夷 。 还 别 
说 ， 真 引入 了 不 少 好 技术 ， 比 如 布尔 逻辑 运算 式 。 这 话 要 从 布尔 说 
起 ， 布 尔 有 一 次 在 家 揭 鼓 继电器 ， 他 将 多 个 继电器 时 而 串联 ， 时 而 并 
联 ， 时 而 串 并 一 同 使 用 ， 逐 曾 措 索 出 一 些 规 律 。 比 如 两 个 继 电 问 在 串 
联 时 ， 必 须 同 时 闭合 两 个 开关 ， 电 路 才能 接 通 ， 灯 泡 才能 亮 。 如 果 把 
开关 闭合 当 作 1， 开 关 关 闭 当 作 0， 灯 泡 点 亮 当 作 1， 灯 泡 不 亮 当 作 0， 
那么 这 种 串联 电路 的 逻辑 就 可 以 这 样 写 : 1 和 1 二 1。 也 就 是 两 个 开关 都 
闭合 ， 灯 泡 才 能 亮 (等 于 1) 。 


然后 ， 他 还 发 现 一 个 逻辑 ， 如 果 在 这 个 串联 电路 上 增加 一 个 元 
件 ， 如 果 两 个 开关 都 闭合 的 时 候 ， 电 路 反而 是 断 开 的 。 有 人 说 不 可 
能 ， 那 么 请 仔细 想 一 想 ， 闭 合 开 关 电路 断 开 ， 这 有 什么 难 的 么 ?完全 
可 以 通过 继电器 来 实现 ， 比 如 电路 闭合 之 后 ， 电 磁铁 通电 ， 把 铁 片 吸 
引 下 来 ， 而 这 个 铁 片 是 另 一 个 电路 的 开关 ， 铁 片 下 来 了 ， 另 一 个 电路 
也 就 断 开 了 ， 所 以 通过 把 这 两 个 电路 组 合 ， 完 全 可 以 得 到 这 种 逻辑 : 1 
和 1 二 0。 


还 有 一 种 逻辑 ， 就 是 当 两 个 开关 任意 一 个 闭合 时 ， 电 路 就 通路 ， 
也 就 是 并 联 电路 。 这 种 逻辑 可 以 这 么 表达 : 1 或 1 二 1，1 或 0 二 1。 经 过 
多 种 组 合 ， 布 尔 得 到 了 1 或 1 二 1、1 或 0 二 1、1 和 1 二 1、1 和 0 二 0。 


这 就 是 4 种 基本 逻辑 电路 。 这 种 “和 ”、“ 或 ”的 运算 ， 很 多 人 都 不 理 
解 。 人 们 理解 的 只 是 加 减 运算 ， 因 为 加 减 很 常用。 人 们 不 理解 的 原因 
就 是 不 知道 除了 加 减 算术 之 外 ， 还 有 一 种 叫做 “逻辑 ”的 东西 ， 也 就 是 
因果 的 运算 。 人 们 往往 把 1 当成 数量 ， 代 表 1 个 ， 而 在 因果 率 中 ，1 不 代 
表 数 量 ， 它 只 代表 真 假 ， 其 实 我 们 完全 可 以 不 用 1 这 个 符号 来 代表 真 ， 
我 们 就 用 中 文 “ 真 ” 代 表 真 ， 可 否 ? 


当然 可 以 ， 但 是 因为 笔画 太 多 ， 不 方便 ， 还 是 用 1 和 0 代表 真 假 比 
较 方 便 。 其 实 磁盘 上 的 数据 ， 也 不 是 1 就 代表 1 个 ， 而 是 1 代表 磁性 的 取 
向 ， 因 为 磁性 只 有 两 个 取向 ， 仿 佛 对 称 融 是 组 成 宇宙 的 基石 一 样 ， 比 
如 正 、 负 ， 对 、 错 等 。 当 因果 率 被 用 数学 方程 式 表 达 出 来 并 赋予 电路 
的 物理 意义 之 后 ， 整 个 世界 也 就 进入 了 新 世纪 的 黎明 ， 这 个 世纪 是 计 
算 机 的 世纪 。 


提示 : 从 数学 到 物理 意义 ， 我 们 仿佛 看 出 点 什么 来 ， 现 代 量 
子 力学 那 一 大 堆 数 学 式 ， 折 服 了 太 多 的 科学 家 ， 包 括 爱 因 斯 


坦 ， 到 他 去 世 前 ， 爱 因 斯 坦 都 没有 理解 量子 力学 所 推演 出 来 
的 数学 式 子 在 物理 上 到 底 代 表 了 什么 意义 。 而 且 直 到 21 世 
纪 ， 也 没有 人 给 予 这 些 式 子 以 “目前 ”可 理解 的 物理 意义 。 我 
们 可 以 想象 一 下 布尔 逻辑 算式 公布 的 时 候 ， 物 理 意义 到 底 是 
什么 ?” 没 人 知道 ， 甚 至 布尔 自己 估计 也 不 知道 ， 就 只 是 一 对 
式 子 而 已 。 直 到 有 一 天 一 个 人 在 家 的 鼓 继电器 ， 突 然 风 马 牛 
不 相 及 地 想到 了 ， 这 不 就 是 布尔 逻辑 么 ? 从此， 数字 电路 ， 
计算 机 时 代 ， 改 变 了 我 们 的 世界 。 


七 星 在 学 习 了 布尔 逻辑 算式 之 后 ， 也 是 稀里糊涂 地 把 它 用 在 RAID 
2 那 一 直 困 扰 他 的 问题 上 面 ， 看 看 能 否 有 所 突破 。 


布尔 运算 中 有 一 个 XOR 运 算 ， 即 1 XOR 0 二 1,，1 XOR 1 二 0, 0 
XOR 0 二 0。 布 尔 也 总 结 出 了 与 加 法 结合 率 、 加 法 交换 率 等 类 似 的 逻辑 
运算 率 ， 并 发 现 了 一 些 规律 : 


1 XOR © XOR 1=0 
© XOR 1 XOR 0=1 


假如 第 一 个 式 子 中 ， 中 间 的 0 被 掩盖 ， 完 全 可 以 从 结果 推出 这 个 被 
掩盖 的 逻辑 数字 。 不 管 多 少 位 ， 进 行 逻 辑 运 算 之 后 还 是 一 位 。 仔 细 一 
想 也 是 理所当然 的 ， 逻 辑 结果 只 有 两 个 值 ， 不 是 真 ， 就 是 假 ， 当 然 只 
用 一 位 就 可 以 代替 了 。 


提示 : 大 家 可 以 自己 算 算 ， 不 管 等 式 左边 有 多 少 位 进行 运 
算 ， 这 个 规律 都 适用 。 但 是 在 加 减法 中 ， 若 要 保持 等 式 右边 
有 一 位 ， 则 左边 参与 运算 的 只 能 是 1 十 0 或 者 0 十 1， 再 多 一 个 
数 的 话 ， 右 边 就 是 两 位 了 。 但 是 逻辑 运算 中 等 式 右边 永远 都 


是 一 位 ! 就 是 如 此 绝妙 。 为 什么 如 此 精妙 呢 ? 没 人 能 解释 为 
什么 ， 就 像 问 为 什么 有 正 电 位 、 负 电荷 一 样 ， 它 们 到 底 是 什 
么 东西 ， 谁 也 说 不 清 。 


七 星 大 侠 开 始 并 不 觉得 这 是 真 的 ， 他 反复 演算 ， 想 举 出 一 个 伪 
证 ， 可 是 徒劳 无 功 。 七 星 不 得 不 为 布尔 的 绝学 所 折服 ! 同时 也 为 西方 
发 达 的 基础 科学 所 赞叹 ! 


至 此 ， 困 扰 七 星 大 侠 多 年 的 关于 算法 的 问题 ， 终 于 随 着 西方 科学 
的 介入 ， 得 以 顺利 解决 ! 而 且 解决 得 是 那么 完美 ， 那 么 畅快 ! 


七 星 立 即 决 定投 入 其 下 一 个 阵 式 RAID 3 的 创立 过 程 中 。 他 发 狂 似 
地 抛弃 了 那 元 余 的 让 人 看 着 就 不 顺眼 的 RAID 2 的 几 块 校 验 盘 ， 只 留 下 
一 块 。 按 照 布尔 的 思想 ， 数 据 盘 的 每 一 个 位 之 间 做 XOR 运 算 ， 然 后 将 
结果 写 入 校 验 盘 的 对 应 位 置 。 这 样 ， 任 何 一 块 数据 盘 损坏 ， 或 者 其 中 
的 任何 一 个 扇 区 损坏 ， 都 可 以 通过 剩余 的 位 和 校 验 位 一 同 进行 XOR 运 
算 ， 而 运算 的 结果 就 是 这 个 丢失 的 位 。8 位 一 起 校 验 可 以 找 出 一 个 丢失 
的 字 节 ，512 字 节 一 起 校 验 就 可 以 找到 一 个 丢失 的 扇 区 。 


做 到 这 里 ， 已 经 算是 成 功 了 ， 但 是 七 星 还 不 太 满 足 ， 因 为 他 还 有 
一 桩 心事 ， 就 是 RAID 2 中 数据 家 打 得 太 散 了 。 七 星 大 侠 索 性 把 RAID 3 
的 条 带 长 度 设置 成 为 4KB， 这 样 刚好 适 配 了 上 层 的 数据 组 织 ， 一 般 文 
件 系 统 常 用 的 是 以 4KB 为 一 个 块 。 如 果 用 4 块 数据 盘 ， 则 条 带 深 度 为 两 
个 局 区 或 者 1KB。 如 果 用 8 个 数据 盘 ， 则 条 帝 深 度 为 1 个 扇 区 或 者 说 
512B。 总 之 ， 要 保持 条 带 长 度 为 上 层 块 的 大 小 。 上 层 的 I0 一 般 都 会 以 
块 为 单位 ， 这 样 就 可 以 保证 在 连续 写 的 情况 下 ， 可 以 以 条 融 为 单位 写 
入 ， 大 大 提高 磁盘 并 行 度 。 


七 星 在 RAID 3 阵 式 中 ， 仍 旧 保 持 RAID 2 的 思想 ， 也 就 是 对 一 个 IO 
尽量 做 到 能 够 分 割 成 小 块 ， 让 每 个 磁盘 都 得 到 存放 这 些小 块 的 机 会 。 
这 样 多 磁盘 同时 工作 ， 性 能 高 。 所 以 七 星 在 RAID 3 中 把 一 个 条 带 做 成 
4KB 这 个 魔术 值 ， 这 样 每 次 IO 就 会 牵动 所 有 磁盘 并 行 读 写 。 到 此 我 们 
了 解 了 ，RAID 2 和 RAID 3 都 是 每 次 只 能 做 一 次 IO 《在 IO 块 大 于 Block 
SIZE 的 时 候 ) ， 不 适合 于 要 求 多 IO 并 发 的 情况 ， 因 为 会 造成 IO 等 待 。 
RAID 3 的 并 发 只 是 一 次 IO 的 多 磁盘 并 发 存 取 ， 而 不 是 指 多 个 IO 的 并 
发 。 所 以 和 RAID 2 一 样 ， 适 合 IO 块 大 、IO SIZE/IO PS 比值 大 的 情况 。 


提示 : 在 极端 优化 的 条 件 下 ，RAID 3 也 是 可 以 做 到 IO 并 发 
的 。 控 制 器 向 一 块 磁盘 发 送 的 读 写 指令 ， 其 中 包含 一 个 所 要 
读 取 扇 区 的 长 度 ， 如 果 下 一 次 IO 与 本 次 IO 在 物理 上 是 连续 的 
(连续 IO) ， 此 时 如 果 控 制 器 做 了 极端 的 优化 ， 则 可 以 将 这 
两 次 IO 合并 起 来 ， 向 磁盘 发 送 的 每 个 IO 指令 中 包含 了 两 次 上 
层 IO 的 数据 ， 这 样 也 算是 一 种 并 发 IO。 当 然 ， 这 种 优化 不 仪 
仅 可 以 在 磁盘 控制 器 这 一 层 实 现 ， 其 实 文件 系统 层 也 可 以 实 
现 。 

提示 : RAID 3 和 RAID 2 一 样 ， 要 达到 RAID 3 的 最 佳 性 能 ， 
需要 所 有 磁盘 的 主轴 同步 。 也 就 是 说 ， 对 于 一 块 数据 ， 所 有 
磁盘 最 好 同时 旋转 到 这 个 数据 所 在 的 位 置 ， 然 后 所 有 磁盘 同 
步 读 出 来 。 不 然 ， 一旦 有 磁盘 和 其 他 磁盘 不 同步 ， 就 会 造成 
等 待 ， 所 以 只 有 主轴 同步 才能 发 挥 最 大 性 能 。 


总 结 一 下 ，RAID 3 相 比 RAID 2 校 验 效 率 提 升 ， 成 本 减少 〈 使 用 磁 
盘 更 少 了 ) 。 缺 点 是 不 支持 错误 纠正 了 ， 因 为 XOR 算 法 无 法 纠正 错 
误 。 但 是 这 个 缺点 已 经 不 重要 ， 发 生 错 误 的 机 会 少 之 又 少 ， 可 以 完全 
靠 上 层 来 处 理 错误 了 。 正 可 谓 : 


与 非 异 或 同 ， 
一 语 解 干 秘 。 
今朝 有 酒 醉 ， 
看 我 数 风流 ! 


下 面 说 明 关 于 RAID 3 的 校 验 盘 有 没有 瓶颈 的 问题 。 


不 妨 用 一 个 例子 来 深入 理解 一 下 RAID 3。 通 过 刚才 的 讲解 ， 大 家 
知道 了 RAID 3 每 次 IO 都 会 分 散 到 所 有 盘 。 因 为 RAID 3 把 一 个 逻辑 块 又 
分 割 成 了 N 份 ， 也 就 是 说 如 果 一 个 逻辑 块 是 4KB (一 般 文件 系统 都 使 
用 这 个 值 ) ， 在 有 5 块 盘 的 RAID 3 系统 中 其 中 4 块 是 数据 盘 ，1 块 是 校 
验 盘 。 这 样 ， 把 4KB 分 成 4 块 ， 每 块 IKB， 每 个 数据 盘 上 各 占 1 块 ， 也 
就 是 两 个 扇 区 。 而 文件 系统 下 发 的 一 个 IO ， 至 少 是 以 一 个 逻辑 块 为 单 
位 的 ， 也 就 是 不 能 IO 半 个 逻辑 块 的 单位 ， 也 就 不 可 能 存在 一 个 IO ， 大 
小 是 小 于 4KB 的 ， 要 么 是 1 个 4KB ， 要 么 是 N 个 4KB。 但 这 只 是 针对 文 
件 系统 下 发 的 IO ， 磁 盘 控制 器 驱动 向 磁盘 下 发 的 IO 最 细 粒 度 可 以 为 一 
个 局 区 。 这 样 ， 就 保证 了 文件 系统 下 发 的 一 次 IO， 不 管 多 大 都 被 跨越 
了 所 有 数据 盘 。 


读 又 分 成 连续 读 和 随机 读 。 连 续 读 指 的 是 每 个 IO 所 需要 提取 的 数 
据 块 在 序号 上 是 连续 的 ， 磁 头 不 必 耗 费 太 多 时 间 来 回 寻 道 ， 所 以 这 种 
情况 下 寻 道 消耗 的 时 间 就 很 短 。 我 们 知道 ， 一 个 IO 所 用 的 时 间 约 等 于 
寻 道 时 间 加 上 旋转 延迟 时 间 再 加 上 数据 传输 时 间 。IOPS= 二 1/ 〈 寻 道 时 
间 十 旋转 延迟 时 间 十 数据 传输 时 间 ) ， 由 于 寻 道 时 间 相 对 于 传输 时 间 
要 大 几 个 数量 级 ， 所 以 影响 IOPS 的 关键 因素 就 是 寻 道 时 间 。 而 在 连续 
IO 的 情况 下 ， 仅 在 换 磁道 时 需要 寻 道 ， 而 磁道 都 是 相 邻 的 ， 所 以 寻 道 
时 间 也 足够 短 。 在 这 个 前 提 下 ， 传 输 时 间 这 个 分 母 就 显示 出 作用 来 
了 。 由 于 RAID 3 是 一 个 IO ， 必 定 平均 分 挫 到 了 N 个 数据 盘 上 ， 所 以 数 


据 传 输 时 间 是 单 盘 的 VN， 从 而 在 连续 IO 的 情况 下 ， 大 大 增加 了 
IOPS。 而 磁盘 总 体 传 输 速 率 约 等 于 IOPS 乘 以 IO SIZE。 不 管 IJO SIZE 多 
大 ，RAID 3 的 持续 读 性 能 几乎 就 是 单 盘 的 N 倍 ， 非 常 强大 。 


再 看 看 持续 写 ， 同 样 的 道理 ， 写 IO 也 必定 分 摊 到 所 有 数据 盘 ， 那 
么 寻 道 时 间 也 足够 短 (因为 是 持续 IO) 。 所 以 写 的 时 候 所 耗费 的 时 间 
也 是 单 盘 的 VN， 因 此 速率 也 是 单 盘 的 N 售 。 有 人 说 RAID 3 的 校 验 盘 是 
热点 盘 ， 是 瓶颈 。 理 由 是 RAID 3 写 校 验 的 上 时候， 需要 像 RAID 5 一 样 ， 
先 读 出 原来 的 校 验 块 ， 再 读 出 原来 的 数据 块 ， 接 着 计算 出 新 校 验 ， 然 
后 写 入 新 数据 和 新 校 验 。 实 际 上 RAID 3 中 每 个 IO 必定 要 改动 所 有 数据 
盘 的 数据 分 块 。 因 为 一 个 文件 系统 IO 的 块 已 经 被 分 割 到 所 有 盘 了 ， 只 
要 这 个 IO 是 写 的 动作 ， 那 么 物理 磁盘 上 的 所 有 分 块 ， 就 必定 要 全 部 都 
被 更 新 重 写 。 既 然 这 样 ， 还 有 “ 旧 数 据 * 和 “ 旧 校 验 ”* 的 概念 么 ? 没有 
了 ， 因 为 这 个 IO 上 的 所 有 分 割 块 需要 全 部 被 更 新 ， 包 括 校 验 块 。 数 据 
在 一 次 写 入 之 前 ， 控 制 器 就 会 计算 好 校 验 块 ， 然 后 同时 将 数据 块 和 校 
验 块 写 入 磁盘 。 这 就 没有 了 什么 瓶颈 和 热点 的 区 别 ! 


RAID 4 是 有 热点 盘 ， 因 为 RAID 4 系统 处 理 文件 系统 IO 不 是 每 次 都 
会 更 新 所 有 盘 的 ， 所 以 它 必 须 用 RAID 5 的 那个 计算 新 校 验 的 公式 ， 也 
就 是 多 出 4 个 操作 那个 步骤 ， 所 以 当然 有 瓶颈 了 ! 要 说 RAID 3 有 热点 
盘 ， 也 行 ， 所 有 盘 都 是 热点 盘 ， 数 据 、 校 验 ， 所 有 盘 ， 对 RAID 3 来 
说 ， 每 次 IJO 必 将 牵动 所 有 盘 ， 那 么 就 可 以 说 RAID 3 全 部 都 是 热点 盘 ! 


再 来 看 看 RAID 3 的 随机 读 写 。 所 谓 随 机 IO ， 即 每 次 IO 的 数据 块 是 
分 布 在 磁盘 的 各 个 位 置 ， 这 些 位 置 是 不 连续 的 ， 或 者 连续 几率 很 小 。 
这 样 ， 磁 头 就 必须 不 断 地 换 道 ， 换 道 操作 是 磁盘 操作 中 最 慢 的 环节 。 
根据 公式 IOPS=1/ ( 换 道 时 间 十 数据 传输 时 间 ) ， 随 机 IO 的 时 候 换 道 
时 间 很 大 ， 大 出 传输 时 间 几 个 数量 级 ， 所 以 传输 得 再 快 ， 翻 10 倍 也 才 


增高 了 一 个 数量 级 ， 远 不 及 换 道 时 间 的 影响 大 ， 所 以 此 时 可 以 忽略 传 
输 时 间 的 增加 效应 。 由 于 一 次 IO 同样 是 被 分 割 到 了 所 有 数据 盘 ， 那 么 
多 块 盘 同 时 换 道 ， 然 后 同时 传输 各 自 的 那个 分 块 ， 换 道 时 间 就 约 等 于 
单 盘 。 其 传输 时 间 是 单 盘 的 IN， 而 传输 时 间 训 来 的 增 效 可 以 忽略 。 所 
以 对 于 随机 读 写 的 性 能 ，RAID 3 并 没有 提升 ， 和 单 盘 一 样 ， 甚 至 不 及 
单 盘 。 因 为 有 时 候 磁 盘 不 是 严格 主轴 同步 的 ， 这 样 换 道 慢 的 磁盘 会 抑 
累 其 他 磁盘 。 


再 来 看 看 并 发 IO。 显 然 ，RAID 3 执行 一 次 IO 必 将 牵动 占用 所 有 
盘 ， 那 么 此 时 其 他 排队 的 IO 就 必须 等 待 ， 所 以 RAID 3 根本 就 不 能 并 发 
TIOo。 


注意 : 上 文中 的 “IO0” 均 指 文件 系统 下 发 的 IO ， 而 不 是 指 最 终 
的 磁盘 IO。 


4.1.5 RAID 4 阵 式 


七 星 自 从 学 习 了 西方 先进 的 基础 科学 之 后 ， 一 发 而 不 可 收 。 以 前 
已 经 是 以 钻研 为 乐 ， 现 在 成 了 以 钻研 为 生 了 。 以 前 狐 了 还 知道 去 要 饭 
吃 ， 现 在 七 星 已 经 感觉 不 到 饿 了 ， 只 要 有 东西 让 他 钻研 ， 就 等 于 吃饭 
了 。 


话说 某 天 七 星 正 在 闭 目 思 考 修炼 ， 他 回想 起 了 双 刀 时 代 的 辉 烛 、 
独行 时 代 的 凄 苦 和 优雅 剑 时 代 的 中 庸 之 乐 。 往 事 历历 在 目 ， 再 看 看 如 
今 已 经 是 穷困 濠 倒 的 自己 ， 他 不 茶 满 然 站 下 ， 老 泪 纵横 。 


他 给 上 面 的 三 种 思想 ， 分 别 划 分 了 门派 ，RAID 0 属于 激进 派 ， 
RAID 1 属于 保守 派 ，RAID 2，RAID 3 属于 中 庸 派 。 中 庸 派 的 思想 一 
方面 汲取 了 激进 派 的 横 分 竖 割 提高 威力 的 做 法 ， 一 方面 适当 地 降低 威 


力 来 向 保守 派 汲取 了 自 保 的 经 验 ， 而 创立 了 引 以 为 豪 的 校 验 盘 的 绝妙 
技术 。 


七 星 想 着 激进 派 似乎 已 经 没有 什么 可 以 让 中 庸 派 值得 借鉴 的 地 方 
了 ， 倒 是 保守 派 的 一 个 关键 技术 中 庸 派 还 没有 移植 过 来 ， 那 就 是 同时 
应 付 多 个 敌人 的 技术 。 虽 然 当 年 独行 侠 根本 就 没有 意识 到 他 的 独孤 影 
子 掌 可 以 同时 应 付 两 个 敌人 ， 因 为 独行 侠 一 生 都 没有 同时 和 两 个 人 区 
过 手 。 虽 然 独孤 掌 的 秘 站 中 也 没有 提 及 这 门 绝招 ， 但 是 七 星 任 他 积累 
多 年 的 知识 和 经 验 ， 强 烈 地 感觉 到 并 发 I1O 早 在 独孤 掌 时 代 就 已 经 被 实 
现 了 ， 只 不 过 没有 被 记载 ， 而 且 一 直 被 人 忽略 ! 要 想 有 所 突破 就 必须 
突破 这 一 关 ! 想到 这 里 ， 七 星 立 即 再 次 开始 了 他 的 实验 。 


RAID 2 阵 式 中 ， 数 据 块 被 以 位 为 单位 打 散 在 多 块 磁盘 上 存储 ， 这 
种 设计 确实 应 该 被 淘汰 了 ， 且 不 说 IO 设计 合理 与 否 ， 看 它 校 验 盘 的 数 
量 就 让 人 气 不 打 一 处 来 。 那 么 再 看 看 RAID 3， 在 RAID 3 的 IO 设计 中 还 
是 走 了 RAID 2 的 老路 子 ， 也 就 是 一 次 IO 尽量 让 每 块 磁盘 都 参与 ， 而 控 
制 器 的 一 次 IO 数据 块 不 会 很 大 ， 那 么 想 让 每 块 磁 盘 都 参与 这 个 IO， 就 
只 能 人 为 地 减 小 条 带 深度 的 大 小 。 


事实 证 明 这 种 IO 设计 在 IOSIZE/IOPS (比值 ) 很 大 的 时 候 ， 确 实 
效果 明显 。 但 在 现实 应 用 中 ， 很 多 应 用 的 IOSIZE/IOPS 都 很 小 ， 比 如 
随机 小 块 读 写 等 ， 这 种 应 用 每 秒 产生 的 IO 数目 很 大 ， 但 是 每 个 IO 所 请 
求 的 数据 长 度 却 很 短 。 如 果 所 有 磁盘 同一 时 刻 都 被 一 个 IO 占用 着 ， 且 
不 能 并 发 1O0， 只 能 一 个 IO 一 个 IO 的 来 做 ， 由 于 IO 块 长 度 小 ， 此 时 全 盘 
联动 来 传输 这 个 IO ， 得 不 偿 失 ， 还 不 如 让 这 个 IO 的 数据 直接 写 入 一 块 
磁盘 ， 空 余 的 磁盘 就 可 以 做 其 他 IO 了 。 


要 实现 并 发 TO ， 就 需要 保证 有 空 朵 的 磁盘 未 被 IO 占用 ， 以 便 其 他 
IO 去 占有 磁盘 进行 访问 。 唯 一 可 以 实现 这 个 目的 的 方法 就 是 增 大 条 珊 
深度 ， 控 制 器 的 一 个 IO 过 来 ， 如 果 这 个 IO 块 小 于 条 之 深度 ， 那 么 这 次 
IO 就 被 完全 “ 禁 铀 ”在 一 块 磁盘 上 ， 直 接 就 写 入 了 一 个 磁盘 上 的 Segment 
中 ， 这 个 过 程 只 用 到 了 一 块 磁盘 。 而 其 他 IO 也 可 以 和 这 个 IO 同时 进 
行 ， 前 提 是 其 他 IO 的 目标 不 是 这 个 IO 要 写 入 或 读 取 的 磁盘 。 所 以 实现 
IO 并 发 还 需要 增 大 数据 的 随机 分 布 性 ， 而 不 要 连续 在 一 个 磁盘 上 分 
布 。 这 里 七 星 大 侠 忽 略 了 一 个 非常 重要 的 地 方 ， 下 面 会 看 到 。 


在 这 些 分 析 的 基础 上 ， 七 星 将 RAID 3 进行 了 简单 的 改造 ， 增 大 了 
条 带 深度 ， 于 是 便 创 立 了 一 个 新 的 阵 式 ， 名 日 RAID 4。 
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4.1.6 RAID 5 阵 式 


话说 七 星 大 侠 正 在 为 创立 了 RAID 4 阵 式 而 欢喜 的 时 候 ， 麻 烦 来 
了 。 很 多 江湖 上 的 朋友 都 给 他 撒 信 说 ， 修 炼 了 RAID 4 阵 式 之 后 ， 在 IO 
写 的 时 候 ， 好 像 性 能 相对 于 RAID 3 并 没有 什么 提升 ， 不 管 
IOSIZE/IOPS 的 值 是 多 少 。 这 个 奇怪 的 问题 ， 让 七 星 大 侠 天 天 如 坐 针 
千 、 茶 饭 不 思 ， 终 日 思考 这 个 问题 的 原因 。 他 不 停 地 拿 着 两 块 磁盘 和 
一 张 纸 〈 校 验 盘 ) 比划 。 时 间 一 长 ， 七 星 有 一 天 突然 发 现 ， 纸 已 经 被 
他 画 的 不 成 样子 了 ， 需 要 另 换 一 张 。 这 引起 了 思维 活跃 的 七 星 大 侠 的 
思考 , “并 发 1JO， 并 发 1JO0， 并 发 TO ，.…… ”， 他 不 停 地 在 嘴 里 念 归 着 。 
突然 他 两 眼 一 睁 ， 骂 了 一 句 之 后 ， 开 始 奋 笔 疾 书 。 


七 星 大 侠 想 到 了 什么 让 他 悦 然 大 悟 呢 ? 原来 ， 七 星 经 过 思考 之 
后 ， 发 现 RAID 4 确实 是 他 的 一 大 败笔 ， 相 对 RAID 3 没有 什么 性 能 提 
升 ， 反 而 误 人 子弟 ， 浪 费 了 很 多 人 的 时 间 去 修炼 一 个 无 用 的 功夫 。 


七 星 创 立 RAID 4 时 ， 太 过 大 意 了 ， 竟 然 忽 略 了 一 件 事 情 。 每 个 IO 
写 操作 必须 占用 校 验 盘 ， 校 验 盘 每 一 时 刻 总 是 被 一 个 IO 占用 ， 因 为 写 
数据 盘 的 时 候 ， 同 时 也 要 读 写 校 验 盘 上 的 校 验 码 。 所 以 每 个 写 IO 不 管 
占用 了 哪 块 数据 盘 ， 校 验 盘 它 是 必须 占用 的 ， 这 样 校 验 盘 就 成 为 了 瓶 
颈 ， 而 且 每 个 写 入 IO 都 会 拖累 校 验 盘 ， 使 得 校 验 盘 没有 休息 的 时 间 ， 
成 了 “热点 盘 "， 非 常 容易 损坏 。 


没有 引入 核验 功能 ， 数 据 盘 可 以 被 写 IO 并 发 ， 引 入 了 核验 功能 
后 ， 数 据 盘 还 可 以 并 发 ， 但 是 核验 盘 不 可 以 并 发 ， 所 以 整体 上 还 是 不 
能 并 发 。 除 非 不 使 用 校 验 盘 ， 不 过 那 就 和 RAID 0 没什么 区 别 了 。 所 以 
七 星 在 RAID 4 上 掉 进 了 一 个 误区 ， 如 今 他 终于 醒悟 了 。 


创立 的 RAID 4 什么 都 不 是 ， 不 伦 不 类 。 七 星 这 个 郁 闵 啊 ! 为 了 实 
现 真正 的 写 IO 并 发 ， 他 这 次 是 寡 出 去 了 ， 一 定 要 创立 新 的 阵 式 ! 


思考 : RAID 4 的 关键 错误 在 于 忽略 了 校 验 盘 。 每 个 IO 不 管 目 
标 在 哪个 数据 盘 ， 但 是 一 定 要 读 写 校 验 盘 。 而 校 验 盘 只 有 一 
块 ， 不 读 也 得 读 ! 那 如 果 有 两 块 校 验 盘 ， 它 能 否 随 机 选择 一 
块 来 读 写 ? 不 行 ， 这 两 块 校 验 盘 之 间 也 要 同步 起 来 ， 类 似 
RAID 1， 这 样 开销 太 大 ， 成 本 太 高 。 


不 妨 作 一 下 演绎 ， 首 先 ， 我 们 的 目标 是 并 发 TO。 要 并 发 TO ， 校 验 
盘 某 一 时 刻 必须 可 以 被 多 个 IO 占用 ， 这 是 必须 的 ， 否 则 就 不 是 并 发 
IO。 但 是 “ 校 验 盘 某 一 时 刻 可 以 被 多 个 IO 占用 ”， 这 不 简直 是 扯淡 么 ? 
一 块 磁盘 怎么 可 以 同时 被 多 个 IO 占用 呢 ? 所 以 七 星 下 了 结论 ， 中 庸 派 
不 可 能 实现 并 发 IO。 


结论 下 了 ， 七 星 也 病 了 ， 彻 彻底 底 的 病 倒 了 。 他 不 甘心 ， 在 他 心 
中 一 定 有 一 个 完美 的 阵 式 。 他 拿 着 那 张 已 经 快 被 男 烂 的 纸 ， 气 愤 至 
极 ， 将 纸 撕 成 了 两 半 。 故 片 就 像 七 星 那 破 寿 的 心 ， 飘 飘落 下 ， 不 偏 不 
倚 ， 正 好 分 别 落 到 了 地 上 的 两 把 剑 上 ， 分 别 盖 住 了 剑 的 一 半 。 七 星 看 
着 这 情景 ， 一 发 情 ， 仿 佛 忆 夏 中 一 直 有 个 神仙 在 指引 着 他 似 的 ， 又 一 
次 让 七 星 茅 塞 顿 开 ， 恢 然 大 悟 :“ 老 天 助 我 啊 ! 哇 哈 哈哈 哈哈 ! ” 


七 星 疯 了 一 般 从 人 上 滚 沙 下 来 ， 他 又 找 来 一 把 剑 ， 把 纸 撕 成 三 
块 ， 分 别 盖 住 每 把 剑 的 三 分 之 一 。 同 样 ，4 把 剑 ， 把 纸 撕 成 4 块 ， 盖 住 
剑 的 四 分 之 一 。 良 久之 后 ， 七 星 仰 天 长 叹 :“ 完 美 ， 太 完美 了 ! ” 


七 星 赶 紧 静 下 心 来 ， 他 深 知 ， 必 须 经 过 深思 熟 虑 ， 才 不 会 出 现 问 
题 ， 不 能 重 蹈 RAID 4 的 覆 略 。 他 花 了 半 个 月 的 时 间 ， 用 树枝 在 地 上 男 
图 演算 ， 并 仔细 分 析 。 一 块 磁盘 同一 时 刻 不 能 被 多 个 IO 占用 ， 这 是 绝 
对 真理 ， 不 可 质疑 的 真理 。 那 么 以 前 也 曾经 想 过 ， 把 校 验 盘 做 成 多 
块 ， 可 否 ? 也 不 好 ， 不 完美 。 这 次 把 校 验 盘 分 割 开 ， 组 合 于 数据 盘 之 
中 ， 依 附 于 数据 盘 ， 这 样 就 完美 地 避 开 了 那个 真理 。 既 然 多 个 IO 可 以 
同时 刻 访问 多 块 数据 盘 ， 而 校 验 盘 又 被 打 散 在 各 个 数据 盘 上 ， 那 么 就 
意味 着 多 IO 可 以 同时 访问 校 验 盘 (的 “ 残 体 ”) 。 这 样 就 大 大 增加 了 多 
IO 并 发 的 几率 ， 纵 使 发 生 多 个 10 所 要 用 到 的 校 验 盘 的 “ 残 体 * 可 能 在 同 
一 块 数据 盘 上 ， 这 样 还 是 可 以 IO 排队 等 待 的 。 


如 果 数 据 盘 足够 多 ， 校 验 盘 打 散 的 部 分 就 会 分 布 得 足够 广泛 ， 多 
IO 并 发 的 几率 就 会 显著 增 大 ! 他 根据 这 个 推断 做 实验 ， 首 先是 两 个 数 
据 盘 。 把 纸 撕 成 两 半 ， 分 别 盖 住 两 把 剑 的 一 半 ， 这 样 实际 的 数据 盘 容 
量 其 实 是 一 把 剑 的 容量 ， 校 验 盘 容量 也 是 一 把 剑 的 容量 ， 它 们 分 别 占 
了 总 容量 的 二 分 之 一 。 由 于 2 块 盘 的 RAID 5 系统 ， 对 于 写 操 作 来 说 不 
能 并 发 1O0 ， 因 为 一 个 IO 访问 其 中 一 块 盘 的 数据 的 时 候 ， 校 验 信息 必定 
在 另 一 块 盘 ， 必 定 也 要 同时 访问 另 一 块 盘 。 同 样 ，3 块 盘 的 RAID 5 系 
统 也 不 能 并 发 IO ， 最 低 可 以 并 发 IO 的 RAID 5 系统 需要 4 块 盘 ， 而 此 时 
最 多 可 以 并 发 两 个 IO ， 可 以 算出 并 发 几率 为 0.0322。 更 多 磁盘 数量 的 
RAID 5 系统 的 并 发 几率 将 更 高 。 图 4-6 为 一 个 RAID 5 系统 的 示意 图 。 


图 4-6 ”RAID 5 系统 示意 图 


七 星 这 次 可 谓 是 红星 高 照 ， 脸 色 红 润 ， 病 态 全 无 。 他 把 这 个 新 创 
立 的 阵 式 叫 做 RAID 5。 正 可 谓 : 


心 似 剑 ， 剑 如 心 ， 
剑 心 合 ， 方 不 侵 。 
分 久 必 合 合 久 分 ， 
分 分 合 合 天 地 真 ! 


RAID 5 也 不 是 那么 完美 无 缺 的 ， 可 以 说 RAID 5 是 继 RAID 0 和 
RAID 1 之 后 ， 又 一 个 能 实现 并 发 IO 的 阵 式 ， 但 是 比 RAID 1 更 加 划算 ， 
比 RAID 0 更 加 安全 。RAID 5 浪费 的 资源 ， 在 2 块 盘 的 系统 中 与 RAID 1 
是 一 样 的 ， 都 是 二 分 之 一 。 但 是 随 着 磁盘 数量 的 增加 ，RAID 5 浪费 的 
容量 比例 越 来 越 小 ， 为 N 分 之 一 ， 而 RAID 1 则 永远 是 二 分 之 一 。 


RAID 5 和 RAID 0 都 是 利用 条 带 来 提升 性 能 ， 但 是 它 又 克服 了 
RAID 0 的 鲁莽 急躁 ， 对 数据 用 校 验 的 方式 进行 保护 。 但 是 RAID 5 的 设 
计 思 想 ， 注 定 了 它 的 连续 读 性 能 不 如 RAID 3，RAID 3 由 于 条 带 深度 很 
小 ， 每 次 IO 总 是 能 牵动 所 有 磁盘 为 它 服务 ， 对 于 大 块 连续 数据 的 读 写 
速度 很 快 。 但 是 RAID 5 的 条 带 深 度 比较 大 ， 每 次 IO 一 般 只 使 用 一 块 数 
据 盘 ， 而 且 通 用 RAID 5 系统 一 般 被 设计 为 数据 块 都 是 先 放 满 一 个 
Segment， 再 去 下 一 个 磁盘 的 Segment 存 放 ， 块 编号 是 横向 进行 的 。 


RAID 5 在 随机 读 方面 ， 确 实 是 首屈一指 的 ， 这 要 归功 于 它 的 多 IO 
并 发 的 实现 ， 这 里 指 的 是 随机 IO。 也 就 是 说 RAID 3 在 IOSIZE 值 大 的 时 
候 具 有 高 性 能 ，RAID 5 在 随机 IOPS 大 的 时 候 具 有 高 性 能 。 


RAID 5 的 一 大 缺点 就 是 写 性 能 较 差 。 写 性 能 差 是 中 庸 派 的 通病 ， 
其 根本 原因 在 于 它们 每 写 一 扇 区 的 数据 就 要 产生 其 校 验 扇 区 ， 一 并 写 


入 校 验 盘 。 尤 其 是 更 改 数据 的 时 候 ， 这 种 效应 的 影响 尤其 严重 。 


RAID 5 写 的 基本 过 程 是 这 样 的， 新 数据 过 来 之 后 ， 控 制 器 立即 读 
取 待 更 新 局 区 的 原 数 据 ， 同 时 也 要 读 取 这 个 条 带 上 的 校 验 数 据 。 三 者 
按照 公式 运算 ， 便 可 得 出 新 数据 的 校 验 数据 ， 然 后 将 新 数据 和 新 数据 
的 校 验 数据 写 到 磁盘 。 公 式 如 下 : 


新 数据 的 校 验 数据 三 ( 老 数据 EOR 新 数据 ) EOR 老 校 验 数 据 


鱼 和 熊 掌 不 可 兼 得 ! 最 后 七 星 总 结 了 这 么 一 句 话 。 也 就 是 说 随机 
并 发 IO 和 写 性 能 二 者 取 其 一 。 但 是 有 些 文件 系 统 巧 妙 地 减少 了 这 种 写 
惩罚 ， 使 得 RAID 4 的 缺点 被 成 功 前 减 ， 从 而 将 其 优点 显现 了 出 来 ， 本 
章 后 面 会 提 到 这 种 优化 操作 。 


思考 : RAID 5 一 次 写 的 动作 ， 其 实 要 浪费 掉 3 个 其 他 动作 ， 
也 就 是 要 先 读 出 老 数 据 ， 读 出 老 校 验 数据 ， 然 后 写 新 数据 和 
校 验 数据 ， 这 样 只 有 “ 写 新 数据 ”是 要 完成 的 目的 ， 而 撒 带 了 
三 个 额外 操作 。 纵 观 RAID 0 和 RAID 1 此 二 者 ，RAID 0 鲁 
莽 ， 写 就 是 写 ， 不 带 任何 考虑 ， 所 以 速度 最 快 。RAID 1 自 
保 ， 但 是 每 次 也 只 要 写 两 次 即 可 ， 只 是 额外 多 了 一 个 操作 。 
所 以 RAID 5 和 RAID 4 在 处 理 写 方面 是 失败 的 。 就 连 RAID 2 
和 RAID 3 都 比 RAID 5 写 性 能 强 ， 因 为 它们 的 条 带 深 度 很 小 ， 
任何 一 次 正常 点 的 IO 几乎 会 覆 写 所 有 盘 ， 均 会 将 这 整个 条 壳 
上 的 位 都 改变 。 所 以 RAID 2 和 RAID 3 不 用 顾忌 条 带 上 是 否 还 
有 未 被 更 新 的 数据 ， 所 以 它 不 会 管 老 数 据 如 何 ， 只 管 从 新 数 
据 计 算出 新 校 验 数 据 ， 然 后 同时 将 数据 位 和 校 验 位 分 别 写 到 
数据 盘 和 校 验 盘 ， 这 样 只 用 了 两 个 操作 ， 比 RAID 5 少 了 两 次 
读 的 过 程 。 


RAID 5E 和 RAID 5FE 阵 式 


七 星 大 侠 推 出 RAID 5 之 后 ， 得 到 了 极为 广泛 的 应 用 ， 江 湖上 的 武 
林 人 士 都 在 修炼 ， 有 些 练 成 的 大 侠 还 各 自 创 办 了 数据 库 、 网 站 等 生 
意 ， 得 益 于 RAID 5 的 随机 IO 并 发 特性 ， 这 些 人 赚 了 一 大 笔 ， 生 意 火 得 
一 塌 糊 涂 。 然 而 ， 七 星 还 是 那个 要 饭 的 七 星 ， 剑 还 是 那 把 剑 ， 依 然 终 
日 以 钻研 为 乐 ， 以 钻研 为 生 。 


话说 有 一 天 ， 有 个 侠客 专门 找到 了 七 星 大 侠 ， 侠 客 请 他 到 “纵横 
斋 " 需 酒 畅 钦 。 酒 过 三 过 ， 菜 过 五 味 ， 侠 客 进 入 了 正题 ， 向 七 星 叙 述 了 
一 件 事 情 。 他 说 他 已 经 炼 成 了 RAID 5 阵 式 ， 但 是 在 使 用 的 时 候 总 是 心 
里 没 底 。 其 原因 就 是 一 旦 一 块 磁盘 损坏 ， 虽 然 此 时 不 影响 使 用 ， 但 是 


总 有 顾虑 ， 不 敢 全 力 出 招 ， 就 怕 此 时 再 坏 一 块 磁盘 ， 整 个 阵 式 就 骨 涡 
了 。 


他 请 求 七 星 解决 这 个 问题 ， 临 走 的 时 候 留 下 了 几 块 市 面 上 品质 最 
好 的 硬盘 和 一 些 银子 供 七 星 研究 使 用 。 七 星 很 是 感动 ， 几 十 年 来 从 来 
没有 一 位 江湖 人 士 和 他 交流 切磋 过 ， 也 从 来 没有 一 个 人 来 帮助 过 他 。 
此 景 让 他 泪 流 满面 ， 感 动 得 不 知 说 什么 好 。 他 向 那 位 侠客 道 :“ 能 交 您 
这 位 之 杰 人 士 ， 我 七 星 此 生 无 憾 ! ”随后 ， 七 星 又 开始 终日 研究 。 这 位 
大 侠 融 是 几 十 年 后 谱写 降 龙 传说 的 张 真人 。 


思考 : 咽 ， 一 旦 一 块 磁盘 损坏 ， 此 时 这 块 盘 上 的 数据 已 经 不 
复 存 在 ， 但 是 如 果 有 IO 请 求 这 块 坏 盘 上 的 数据 ， 那 么 可 以 用 
还 存在 的 数据 ， 校 验 出 这 块 损坏 的 数据 ， 传 送出 去 。 也 就 是 
说 ， 损 坏 的 数据 是 边 校 验 边 传送 ， 现 生成 现 传送 的 。 而 对 于 
要 写 入 这 块 盘 的 JO， 控 制 器 会 经 过 计算 ， 将 其 “ 重 定向 ”到 其 
他 盘 。 所 谓 重 定向 并 不 是 完全 透明 地 写 入 其 他 盘 ， 而 是 运用 


XOR 进 行 逆 运 算 ， 将 写 入 的 数据 代入 算式 进行 逆 运 算 ， 得 到 
的 结果 写 入 现存 的 磁盘 上 。 

此 时 如 果 再 有 一 块 磁盘 损坏 ， 无 疑 阵 式 就 要 骨 汗 了 。 解 决 这 
个 问题 的 直接 办 法 ， 就 是 找 一 块 备用 的 磁盘 。 一 旦 有 磁盘 损 
坏 ， 其 他 磁盘 立即 校 验 出 损坏 的 数据 ， 立 即 写 到 备用 磁盘 
上 。 写 完 之 后 ， 阵 形 束 恢复 原样 了 ， 就 没有 顾虑 了 。 但 是 必 
须 保 证 在 其 他 磁盘 齐 力 校 验 恢复 数据 的 过 程 中 ， 不 可 再 有 第 
二 块 磁盘 损坏 ， 不 然 便 会 玉石 俱 焚 ! 


想到 这 里 ， 七 星 开 始 了 他 的 实验 ， 并 且 取 得 成 功 。 就 是 在 整个 阵 
式 中 增加 一 块 热 备 盘 ， 平 时 这 块 磁盘 并 不 参与 组 阵 ， 只 是 在 旁边 观 
战 ， 什 么 也 不 干 。 一 旦 阵 中 某 个 人 受伤 不 能 参战 了 ， 这 个 热 备 盘 立即 
顶替 他 ， 其 他 人 再 把 功力 传授 给 他 。 传 授 完 毕 后 ， 就 像 原来 的 阵 式 一 
样 了 。 如 果 在 大 家 传授 功力 的 时 候 ， 有 IO 请 求 这 块 损坏 磁盘 上 的 数 
据 ， 那 么 大 家 就 暂停 传授 ， 先 应 付 外 来 的 政 人 。 当 没有 来 针对 这 块 损 
坏 磁 盘 的 挑 峡 时 ， 大 家 会 继续 传授 。 


七 星 的 经 验 不 断 丰富 ， 他 知道 不 能 急躁 ， 所 以 实验 成 功 之 后 ， 七 
星 并 没有 马上 通知 那 位 大 侠 ， 而 是 继续 在 想 有 没有 可 以 改进 的 地 方 。 
他 想 ， 热 备 盘 平 时 不 参与 组 阵 ， 那 就 不 能 称 作 阵 式 的 一 部 分 ， 而 是 被 
排斥 在 外 。 这 块 磁盘 平时 也 没有 IO ， 起 不 到 作用 ， 这 样 就 等 于 浪费 了 
一 块 磁盘 。 那 么 是 不 是 考虑 也 让 它 参 与 到 阵 形 中 来 呢 ? 如 果 要 参与 进 
来 ， 那 让 它 担 任 什么 角色 呢 ? 热 备 角 色 ? 如 果 没 有 人 受伤 ， 这 个 角色 
在 阵 中 只 会 是 个 累 痪 。 怎 么 办 好 呢 ? 七 星 忽然 掠 过 一 丝 想 法 ， 是 否 可 
以 让 阵 中 各 个 角色 担 待 一 下 ， 从 各自 的 领地 保留 出 一 块 空 间 ， 用 作 热 
备 盘 的 角色 呢 ? 


这 样 把 热 备 盘 分 布 在 各 个 磁盘 上 ， 就 不 会 形成 累 追 ， 并 且 同 时 解 
决 了 热 备 盘 和 大 家 不 协调 的 问题 。 说 干 就 干 ， 七 星 给 那 位 大 侠 写 了 一 
封 信 ， 信 中 称 这 种 阵 式 为 RAID 5E。 七 星 继续 琢磨 RAID 5E， 让 阵 中 
每 个 人 都 保留 一 块 领地 ， 而 不 横 割 ， 虽 然 可 以 做 到 数据 的 及 时 备份 ， 
但 是 这 块 领地 总 显得 不 伦 不 类 。 七 星 突 然 想 到 被 撕 碎 的 纸 片 飘然 落下 
的 情景 ， 忽 然 计 上 心头 ! 既然 校 验 盘 都 可 以 横 分 坚 割 的 融合 到 数据 
盘 ， 为 什么 热 备 盘 不 能 呢 ? 一 样 可 以 ! 七 星 想到 这 里 ， 于 是 又 给 那 位 
侠客 去 了 一 封 信 ， 信 中 描述 这 种 新 的 阵 式 为 RAID 5EE。 


那 位 侠客 给 七 星 回 了 一 封 信 : 


七 星 转 ， 北 斗 移 ， 
英雄 无 谓 千 万 里 。 
竺 到 再 次 相 见 时 ， 
日 发 区， 和 用 知己 ! 


七 星 看 后 老 泪 纵横 ， 喘 为 感动 。 相 见 恨 晚 啊 ， 到 了 晚年 才 遇 到 人 
生 知 己 ! 


4.1.7 RAID 6 阵 式 


如 今 ， 七 星 已 经 从 一 个 壮 小 伙 变 成 了 个 孤苦 伶 体 的 老头 。 回 首 过 
去 ， 从 RAID 0 一 直到 RAID 5 (E、EE) 创立 了 6 种 阵 式 ， 各 种 阵 式 各 
有 所 长 。 他 最 得 意 的 恐怕 就 是 中 庸 派 的 中 庸 之 道 。 可 就 是 这 个 中 庸 之 
道 ， 却 还 有 一 个 一 直 也 未 能 解决 的 问题 ， 那 就 是 其 中 任何 一 种 阵 式 ， 
都 最 多 同时 允许 损坏 一 块 磁盘 ， 如 果 同 时 损坏 多 块 ， 整 个 阵 不 攻 自 
破 ! 七 星 想 到 这 里 就 一 阵 酸 楚 。 已 经 是 白 发 苑 苍 的 七 星 老 侠 ， 决 定 要 
用 晚年 最 后 一 点 精力 来 攻破 这 个 难题 。 


七 星 老 侠 一 生 精 研 阵 式 ， 有 很 多 宝贵 的 经 验 。 他 这 次 采用 了 逆向 
思维 ， 假 设 这 个 模型 已 经 做 好 ， 然 后 从 逆向 分 析 它 是 怎么 作用 的 。 先 
换 绘 出 多 种 模型 ， 然 后 一 个 一 个 地 去 攻破 ， 找 出 最 适合 的 模型 。 


七 星 描绘 了 这 么 一 个 模型 ， 假 设 有 5 块 盘 组 成 一 个 RAID 阵 列 ，4 块 
数据 盘 ， 一 块 校 验 盘 ， 那 么 同一 时 刻 突然 4 块 数据 盘 中 的 两 块 损坏 作 
故 ， 只 剩 下 两 块 数据 盘 和 一 块 校 验 盘 。 假 设 有 某 种 算法 ， 可 以 恢复 这 
两 块 丢失 磁盘 上 的 数据 ， 那 么 怎么 从 这 个 模型 推断 出 ， 这 个 算法 是 怎 
么 把 丢失 的 两 块 盘 数据 都 恢复 出 来 的 呢 ? 七 星 冥 思 昔 想 。 七 星 在 幼年 
学 习 方 程 的 时 候 ， 知 道 要 求解 一 个 未 知 数 ， 只 需 知 道 只 包含 这 一 个 未 
知 数 的 一 个 等 式 即 可 逆向 求解 。 就 像 布 尔 的 逻辑 算式 用 在 RAID 3 阵 式 
时 候 一 样 ， 各 个 数据 盘 上 的 数据 互相 XOR 之 后 就 等 于 校 验 盘 上 的 校 验 
数据 ， 这 就 是 一 个 等 式 : 


D1 XOR D2 XOR D3 = Parity 


如 果 此 时 D1 未 知 ， 而 其 他 3 个 值 都 已 知 ， 那 么 就 可 以 逆向 解 出 未 
知 数 ， 而 这 也 是 RAID 3 进行 校 验 恢复 的 时 候 所 做 的 。 那 么 此 时 如 果 D1 
和 D2 都 未 知 ， 也 就 是 1 号 盘 和 2 号 盘 都 损坏 了 ， 还 能 解 出 这 两 个 值 么 ? 
数学 告诉 七 星 ， 这 是 不 可 能 的 ， 除 非 除 了 这 个 等 式 还 额外 存在 一 个 和 
这 个 等 式 不 相关 的 另 一 个 等 式 ! 


要 求解 两 个 未 知 数 ， 只 要 知道 关于 这 两 个 未 知 数 的 不 相关 的 两 个 
关系 方程 即 可 。 比 如 有 等 式 为 D1? D2? D3 二 *， 联 立 以 上 两 个 等 
式 ， 即 可 求 出 D1 和 D2。 七 星 开始 寻 现 这 个 等 式 ， 这 个 等 式 是 已 经 存 
在 ? 还 是 需要 自己 去 发 明 呢 ? 七 星 一 开始 打算 从 布尔 等 式 找寻 出 第 二 
个 等 式 的 蛛丝马迹 ， 但 是 后 来 他 根据 因果 率 知道 如 果 从 布尔 等 式 推出 
其 他 某 些 等 式 ， 那 么 推出 的 等 式 和 布尔 等 式 就 是 相关 的 。 互 相 相 关 的 


两 个 等 式 ， 在 数学 上 是 等 价 的 ， 无 法 作为 第 二 个 等 式 。 七 星 有 所 察觉 
了 ， 他 认为 要 想 得 出 第 二 个 等 式 ， 必 须 由 自己 发 明 一 套 算法 ， 一 套 和 
布尔 等 式 不 相关 的 算法 ! 他 开始 在 纸 上 演义 算法 ， 首 先 他 开始 从 算术 
的 加 减 方程 开始 着 手 ， 他 写 出 了 一 个 可 以 求解 两 个 未 知 数 的 二 元 方 


程 : 


X 十 y 三 10 
2X 十 3y 三 20 


这 算是 最 简单 的 算术 方程 了 。 可 以 求 得 x 二 10，y 三 0。 


以 上 是 对 于 算术 运算 的 方程 ， 那 么 布尔 逻辑 运算 是 否 也 可 以 有 方 
程 呢 ? 七 星 写 下 如 下 的 式 子 : 


x XOR y 三 1 
AxX XOR Bx = 0 


第 一 个 方程 已 经 存在 了 ， 也 就 是 用 在 RAID 3 上 的 校 验 方程 。 第 二 
个 方程 是 七 星 模仿 加 减 方程 来 写 的 ， 也 融 是 给 x 和 y 两 个 值 分 别 加 上 了 
一 个 系数 ， 而 这 两 个 系数 不 能 是 从 第 一 个 等 式 推 得 的 ， 比 如 是 将 第 一 
个 等 式 未 知 数 的 系数 同 乘 或 同 除 以 某 个 数 得 出 来 的 ， 这 样 就 是 相关 等 
式 了 。 七 星 立 即 找 来 布尔 逻辑 运算 方面 的 书 深入 学 习 ， 终 于 得 到 了 EE 
证 ， 这 种 方程 确实 存在 ! 七 星 激动 得 跳 了 起 来 ! 他 立即 投入 到 研发 
中 。 过 了 两 个 月 ， 终 于 得 出 了 结果 ! 大 获 成 功 ! 


七 星 对 一 份 数 据 使 用 两 套 算法 各 自 算 出 一 个 等 式 ，1 号 等 式 右边 的 
结果 写 入 校 验 盘 1、2 号 等 式 右 边 的 值 写 入 核验 盘 2。 这 样 ， 只 要 使 用 中 
有 两 个 值 发 生 丢 失 ， 融 可 以 通过 这 两 个 等 式 联 芯 ， 解 出 丢失 的 两 个 


值 。 不 管 这 两 个 值 是 等 式 左边 的 还 是 等 式 右边 的 ， 只 要 代入 这 两 个 等 
式 中 ， 就 可 以 求 出 解 。 


数学 的 力量 是 伟大 的 ， 任 何 东 西 只 要 通过 了 数学 的 验证 ， 就 是 永 
恒 的 ! 


同样 ， 七 星 将 用 在 RAID 5 中 的 方法 ， 用 在 了 新 创立 的 阵 式 中 ， 将 
校 验 盘 分 布 到 数据 盘 中 ， 不 同 的 是 新 阵 式 的 校 验 盘 有 两 块 ， 在 每 块 磁 
盘 上 放置 两 个 等 式 需 要 的 校 验 值 。 


七 星 给 这 种 阵 式 取 名 为 RAID 6。 


RAID 6 相对 其 他 各 种 中 庸 派 的 阵 式 安全 多 了 ， 但 同时 它 的 写 性 能 
更 差 了 ， 因 为 它 要 多 读 出 一 个 校 验 数 据 ， 而 且 计算 后 还 要 写 入 一 次 ， 
这 就 比 RAID 5 每 次 写 耗费 多 了 两 个 操作 ， 变 成 了 6 次 操作 ， 所 谓 的 “ 写 
惩罚 "更 大 了 。 确 实 是 鱼 与 熊 学 不 能 兼 得 啊 ! 正 可 谓 : 


寻 寻 员 肌 终 冷 清 ， 
七 星 北斗 伴 我 行 。 
世间 万 物 址 规律 ， 
求 得 心 法 谋 太 平 ! 


七 星 在 创立 了 RAID 6 阵 式 之 后 ， 已 经 老 态 龙 钟 ， 疾 病 缠身 ， 所 剩 
时 日 不 多 。 而 江湖 上 可 是 一 派 热 闲 ， 修 炼 的 修炼 ， 修 炼 好 的 就 立 门 
派 ， 开 设 数 据 库 、 网 站 等 服务 来 大 赚钱 财 。 而 打 着 七 星 大 侠 旗 号 到 处 
招 播 撞 骗 的 人 也 不 在 少数 。 张 真人 路 见 不 平 拔 刀 相助 ， 他 召开 武林 大 
会 ， 表 彰 了 七 星 的 功绩 ， 指 出 真正 的 七 星 现在 早已 归隐 ， 那 些 招 播 撞 
骗 的 人 也 就 没有 容 身 之 地 了 。 他 还 提议 将 七 星 所 创立 的 7 种 阵 式 命名 为 
“七 星 北斗 阵 ”， 以 纪念 他 和 七 星之 间 的 北斗 豪情 ! 


张 真人 杀 自 到 深山 去 探望 已 经 下 不 了 床 的 七 星 ， 并 将 武林 中 发 生 
的 事情 告诉 了 他 。 此 后 没 几 天 ， 七 星 无 憾 地 离开 了 人 世 ， 化 作 了 北斗 
七 星 ， 在 天 上 酒 下 无 限 的 光芒 照 光世 间 ! 张 真人 给 老人 办 了 后 事 ， 并 
将 七 星 过 世 的 消息 宣布 了 出 去 。 没 想到 第 二 天 ， 七 星 、 星 七 、 北 斗 、 
斗 北 、 七 星 北斗 、 北 斗 七 星 、 星 七 北斗 、 星 七 斗 北 等 商标 就 被 抢 注 
了 ! 大 批 的 商人 在 发 着 横财 。 正 可 谓 : 


七 星 赞 


七 星 阵 里 论 七 星 ， 
北斗 光 前 参 北斗 。 
不 知 天 上 七 星 侠 ， 
如 今 过 活 要 饭 否 ? 


4.2 七 种 RAID 技 术 详 解 


下 面 从 纯 技术 角度 ， 深 入 剖析 目前 存在 的 七 种 RAID 模 式 的 组 成 原 
理 和 结构 ， 并 分 析 各 种 级 别 相对 于 单 盘 IO 速率 的 变化 。 


首先 澄清 一 点 ， 所 谓 Stripe 完 全 是 由 程序 在 内 存 中 虚拟 出 来 的 ， 说 
白 了 就 是 一 个 map 公 式 。 即 仿佛 是 给 程序 戴 了 一 个 特殊 的 眼镜 ， 程 序 
戴 上 这 个 眼镜 ， 就 能 看 到 “条 ”和 * 融 ”， 就 会 知道 将 数据 分 布 到 条 这 上 
了 。 一 旦 摘 下 这 个 眼镜 ， 那 么 看 到 的 就 是 普通 的 物理 磁盘 扇 区 。 这 个 
眼镜 就 是 实现 RAID 的 程序 代码 。 物 理 磁 盘 上 根本 不 存在 什么 “条 ”和 
“市 ”， 只 有 局 区 。 另 外 ， 程 序 会 在 磁盘 特定 的 一 些 扇 区 中 写 入 自己 运 
行 时 需要 的 信息 ， 比 如 一 些 RAID 标 签 信息 等 。 


图 4-7 为 一 个 RAID 0 系统 的 示意 图 。 


图 4-7 一 个 典型 的 RAID 0 系统 
1. 扇 区 、 块 、 段 (Segment) ~ 条 带 、 条 带 长 度 和 深度 


图 4-7 中 的 5 个 竖 条 ， 分 别 代表 5 个 磁盘 。 然 后 在 磁盘 相同 偏 移 处 横 
向 逻辑 分 割 ， 形 成 Stripee。 一 个 Stripee 横 跨 过 的 扇 区 或 块 的 个 数 或 字 
节 容 量 ， 就 是 条 带 长 度 ， 即 Stripee Length。 而 一 个 Stripee 所 占用 的 单 
块 磁盘 上 的 区 域 ， 称 为 一 个 Segment。 一 个 Segment 中 所 包含 的 data 
Block 或 者 扇 区 的 个 数 或 者 字 节 容量 ， 称 为 Stripee Depth。Data Block 可 
以 是 N 倍 个 扁 区 大 小 的 容量 ， 应 该 可 调 ， 或 者 不 可 调 ， 由 控制 器 而 
定 。 


RAID 0 便 是 将 一 系列 连续 编号 的 Data Block 分 布 到 多 个 物理 磁盘 
上 ， 扩 散 IO 提 高 性 能 。 其 分 布 的 方式 如 图 4-7 所 示 。 这 个 例子 中 ， 条 带 
深度 为 4， 则 0、1、2、3 号 Data Block 被 放置 到 第 一 个 条 带 的 第 一 个 
Segment 中 ， 然 后 4、5、6、7 号 Block 放 置 到 第 一 个 条 带 的 第 二 个 
Segment 中 ， 依 此 类 推 ， 条 带 1 放 满 后 ， 继 续 放 条 带 2。 这 种 特性 称 为 
“局 部 连续 *， 因 为 Block 只 有 在 一 个 Segment 中 是 物理 连续 的 ， 逻 辑 连 
续 就 需要 跨 物 理 磁盘 了 。 


2。 关 于 几 个 与 IO 相关 的 重要 概念 


IO 可 以 分 为 读 / 写 IO、 大 /小 块 1IO、 连 续 / 随 机 IO、 顺序 /并 发 1JO、 稳 
定 / 突 发 1JO、 持 续 / 间 上 断 IO 和 实 / 虚 IO。 下 面 来 分 别 介绍 这 几 种 IO。 


(1) 读 / 写 IO 


这 个 就 不 用 多 说 了 ， 读 IO 就 是 发 指令 从 磁盘 读 取 某 段 序号 连续 的 
扇 区 的 内 容 。 指 令 一 般 是 通知 磁盘 开始 扇 区 位 置 ， 然 后 给 出 需要 从 这 
个 初始 局 区 往 后 读 取 的 连续 局 区 个 效 ， 同 时 给 出 动作 是 读 还 是 写 。 磁 
盘 收 到 这 条 指令 就 会 按照 指令 的 要 求 读 或 者 写 数 据 。 控 制 器 发 出 这 种 
指令 加 数据 并 得 到 对 方 回执 的 过 程 就 是 一 次 IO 读 或 IO 写 。 


注意 : 一 个 IO 所 要 提取 的 扇 区 段 一 定 是 连续 的 ， 如 果 想 提取 
或 写 入 两 段 不 连续 的 局 区 段 ， 只 能 将 它们 放 入 两 个 IO 中 分 别 
执行 ， 这 也 就 是 为 何 随机 IO 对 设备 的 IOPS 指 标 要求 较 高 的 原 
因 。 


(2) 大 /小 块 IO 


指控 制 器 的 指令 中 给 出 的 连续 读 取 扇 区 数目 的 多 少 。 如 果 数 目 很 
大 ， 如 128、64 等 ， 就 应 该 算是 大 块 IO; 如 果 很 小 ， 比 如 1、4、8 等 ， 
就 应 该 算是 小 块 IO。 大 块 和 小 块 之 间 没 有 明确 的 界限 。 


(3) 连续 /随机 IO 


连续 和 随机 是 指 本 次 IO 给 出 的 初始 扇 区 地 址 和 上 一 次 IO 的 结束 扇 
区 地 址 是 不 是 完全 连续 的 或 者 相隔 不 多 的 。 如 果 是 ， 则 本 次 IO 应 该 算 
是 一 个 连续 IO; 如 果 相 差 太 大 ， 则 算 一 次 随机 IO。 连 续 IO 因 为 本 次 初 
始 扇 区 和 上 次 结束 局 区 相隔 很 近 ， 则 磁头 几乎 不 用 换 道 或 换 道 时 间 极 
短 。 如 果 相 差 太 大 ， 则 磁头 需要 很 长 的 换 道 时 间 。 如 果 随 机 IO 很 多 ， 
会 导致 磁头 不 停 换 道 ， 效 率 大 大 降低 。 


(4) 顺序 /并 发 IO 


意思 是 ， 磁 盘 控制 器 如 果 可 以 同时 对 一 个 RAID 系 统 中 的 多 块 磁盘 
同时 发 送 IO 指令 (当然 这 里 的 同时 是 宏观 的 概念 ， 如 果 所 有 磁盘 都 在 
一 个 总 线 或 者 环 路 上 ， 则 这 里 的 同时 就 是 指向 一 块 磁盘 发 送 一 条 指令 
后 不 必 等 待 它 回 应 ， 接 着 向 另 一 块 磁盘 发 送 IO 指令 ) ， 并 且 这 些 最 底 
层 的 IO 数据 包含 了 文件 系统 级 下 发 的 多 个 IO 的 数据 ， 则 为 并 发 1JO。 如 
果 这 些 直接 发 向 磁盘 的 IO 只 包含 了 文件 系统 下 发 的 一 个 IO 的 数据 ， 则 
此 时 为 顺序 IO ， 即 控制 器 缓存 中 的 文件 系统 下 发 的 IO 队列 ， 只 能 一 个 
一 个 来 。 并 发 IO 模式 在 特定 的 条 件 下 可 以 很 大 程度 地 提高 效率 和 速 
度 。 


(5) 持续 /间断 IO 


持续 不 断 地 发 送 或 者 接受 IO 请 求 数据 流 ， 这 种 情况 为 持续 IO; IO 
数据 流 时 断 时 续 则 为 间断 IO。 


(6) 稳定 / 突 发 IO 


某 存储 设备 或 者 某 程序 在 一 段 时 间 内 接收 或 者 发 送 的 IOPS 以 及 
Throughput 《吞吐 量 ) 保持 相对 稳定 和 恒定 ， 则 称 为 稳定 IO; 如 果 单 
位 时 间 的 IOPS 或 者 Throughput 突 然 猛 增 ， 则 为 突 发 1O。 


(7) 实 / 虚 IO 


某 IO 请 求 中 包含 对 应 实际 数据 地 址 的 ， 比 如 磁盘 LBA 地 址 ， 或 者 
文件 偏 移 量 ， 请 求 读 或 者 写实 际 文件 或 者 磁盘 局 区 数据 的 ， 称 为 实 
IO; 而 应 用 程序 针对 文件 元 数据 操作 的 在 文件 系统 层 以 上 没有 文件 
主体 数据 操作 ) ， 或 者 针对 磁盘 发 送 的 非 实 体 数 据 IO 请 求 ， 比 如 
Report LUN、SCSI Sense Request 等 控制 性 IO ， 称 为 虚 IO。 


(8) IO 并 发 几率 


单 盘 ，IO 并 发 几率 为 0， 因 为 一 块 磁盘 同时 只 可 以 进行 一 次 IO。 
对 于 RAID 0， 在 2 块 盘 情 况 下 ， 条 带 深度 比较 大 的 时 候 (条 带 太 小 不 
能 并 发 IO) ， 并 发 两 个 IO 的 几率 为 12。 其 他 情况 请 自行 运算 。 


(9) IOPS 


完成 一 次 IO 所 用 的 时 间 三 寻 道 时 间 十 旋转 延迟 时 间 十 数据 传输 时 
间 ，IOPS 三 IO 并 发 系数 / 〈 寻 道 时 间 十 旋转 延迟 时 间 十 数据 传输 时 
间 ) 。 由 于 寻 道 时 间 相对 于 传输 时 间 要 大 几 个 数量 级 ， 所 以 影响 IOPS 
的 关键 因素 就 是 降低 寻 道 时 间 。 在 连续 IO 的 情况 下 ， 寻 道 时 间 很 短 ， 
仅 在 换 磁 道 时候 需 要 寻 道 。 在 这 个 前 提 下 ， 传 输 时 间 越 少 ，IOPS 就 越 


(10) 每 秒 IO 吞 吐 量 


显然 ， 每 秒 IO 吞 吐 量 =IOPSx 平 均 IO SIZE。IO SIZE 越 大 ，IOPS 
越 高 ， 每 秒 IO 吞吐 量 就 越 高 。 设 磁头 每 秒 读 写 数 据 速度 为 V，V 为 定 
值 。 则 IOPS =IO 并 发 系数 / 〈 寻 道 时 间 十 旋转 延迟 时 间 十 IO 
SIZE/V) 。 代 入 得 每 秒 IO 吞吐 量 =IO 并 发 系数 xIO SIZExV/ (Vx 寻 道 
时 间 十 Vx 旋转 延迟 时 间 十 IO SIZE) 。 可 以 看 出 影响 每 秒 IO 吞吐 量 的 
最 大 因素 就 是 IO SIZE 和 寻 道 时 间 以 及 旋转 延迟 时 间 。IO SIZE 越 大 ， 
寻 道 时 间 越 小 ， 吞 吐 量 越 高 。 相 比 能 显著 影响 IOPS 的 因素 只 有 一 个 ， 
就 是 寻 道 时 间 。 


4.2.1 RAID 0 技术 详 析 


RAID 0 是 这 样 一 种 模式 : 我 们 拿 5 块 盘 的 RAID 0 为 例子 ， 如 图 4-7 
所 示 。 


对 外 来 说 ， 参 与 形成 RAID 0 的 各 个 物理 盘 会 组 成 一 个 逻辑 上 连 
续 、 物 理 上 也 连续 的 虚拟 磁盘 。 一 级 磁盘 控制 器 〈 指 使 用 这 个 虚拟 磁 
盘 的 控制 器 ， 如 果 某 人 台 主 机 使 用 适 配 卡 链接 外 部 盘 阵 ， 则 指 的 就 是 主 
机 上 的 磁盘 控制 器 ) 对 这 个 虚拟 磁盘 发 出 的 指令 ， 都 被 RAID 控 制 器 收 
到 并 分 析 处 理 ， 根 据 Block 映 射 天 系 算 法 公 陈 转换 成 对 组 成 RAID 0 的 
各 个 物理 盘 的 真实 物理 磁盘 IO 请 求 指令 ， 收 集 或 写 入 数据 之 后 ， 再 提 
交 给 主机 磁盘 控制 器 。 


图 4-8 为 一 个 RAID 0 虚拟 磁盘 的 ”图 +8 虚拟 磁盘 


em 一 一 
/. “意图 。 


RAID 0 还 有 另 一 种 非 条 带 化 模式 ， 即 写 满 其 中 一 块 物理 磁盘 之 
后 ， 再 接着 写 另 一 块 ， 直 到 所 有 组 成 的 磁盘 全 部 写 满 。 这 种 模式 对 IO 
写 没 有 任何 优化 ， 但 是 对 IO 读 能 提高 一 定 的 并 发 1O 读 几率 。 


下 面 我 们 来 具体 分 析 一 个 从 上 到 下 访问 RAID 0 磁盘 的 过 程 。 


假如 某 一 时 刻 ， 主 机 控制 器 发 出 指令 : 读 取 初始 扇 区 10000 长 度 
128。 


RAID 控 制 器 接受 到 这 个 指令 之 后 ， 立 即 进行 计算 ， 根 据 对 应 公式 
(这 个 公式 是 RAID 控 制 器 在 做 逻辑 条 带 化 的 时 候 制 定 的 ) 算出 10000 
号 逻辑 扇 区 所 对 应 的 物理 磁盘 的 扇 区 号 。 


依次 计算 出 逻辑 上 连续 的 下 128 个 扇 区 所 在 物理 磁盘 的 扇 区 号 。 


分 别 向 对 应 这 些 扇 区 的 磁盘 再 次 发 出 指令 。 这 次 是 真实 的 读 取 数 
据 了 ， 磁 盘 接 受到 指令 ， 各 自 将 数据 提交 给 RAID 控 制 器 ， 经 过 控制 器 
在 Cache 中 的 组 合 ， 再 提交 给 主机 控制 器 。 


分 析 以 上 过 程 ， 发 现 如 果 这 128 个 扇 区 都 落 在 同一 个 Segment 中 的 
话 ， 也 就 是 说 条 带 深度 容量 大 于 128 个 扇 区 的 容量 (64KB) ， 则 这 次 
IO 就 只 能 真实 地 从 这 一 块 物理 盘 上 读 取 ， 性 能 和 单 盘 相 比 会 减 慢 ， 
为 没有 任何 优化 ， 反 而 还 增加 了 RAID 控 制 器 额外 的 计算 开销 。 所 以 ， 
在 某 种 特定 条 件 下 要 提升 性 能 ， 让 一 个 IO 尽量 扩散 到 多 块 物理 盘 上 ， 
就 要 减 小 条 带 深度 。 在 磁盘 数量 不 变 的 条 件 下 ， 也 就 是 减 小 条 带 大 小 

(Stripe SIZE， 也 就 是 条 带 长 度 ) 。 让 这 个 IO 的 数据 被 控制 器 分 割 ， 
同时 放 满 一 个 条 带 的 第 一 个 Segment、 第 二 个 Segment 等 ， 依 此 类 推 ， 
这 样 就 能 极 大 地 占用 多 块 物理 盘 。 


误区 : 总 是 以 为 控制 器 是 先 放 满 第 一 个 Segment， 再 放 满 第 


二 个 Segmento 


其 实 是 同时 进行 的 ， 因 为 控制 器 把 每 块 盘 要 写 入 或 者 读 取 的 数据 
都 计算 好 了 。 如 果 这 些 目 标 磁盘 不 在 相同 的 总 线 中 ， 那 么 这 种 宏观 “ 同 
时 ”的 粒度 将 会 更 加 细 。 因 为 毕竟 计算 机 总 线 是 共享 的 ， 一 个 时 刻 只 能 
对 一 个 外 设 进行 IO。 


所 以 ，RAID 0 要 提升 性 能 ， 条 融 做 的 越 小 越 好 。 但 是 又 一 个 矛盾 
出 现 了 ， 就 是 条 带 太 小 ， 导 致 并 发 1O 几 率 降 低 。 因 为 如 果 条 市 太 小 ， 
则 每 次 IO 一 定 会 占用 大 部 分 物理 盘 ， 队 列 中 的 IO 就 只 能 等 待 这 次 IO 结 
束 后 才能 使 用 物理 盘 。 而 条 带 太 大 ， 又 不 能 充分 提高 传输 速度 。 这 两 
个 是 一 对 矛盾 ， 要 根据 需求 来 采用 不 同 的 方式 。 如 果 随机 小 块 10 多 ， 
则 适当 加 大 条 带 深度 ， 如 果 连 续 大 块 10 多 ， 则 适当 减 小 条 带 深度 。 


接着 分 析 RAID 0 相对 于 单 盘 的 性 能 变化 。 根 据 以 上 总 结 出 来 的 公 
式 ， 可 以 推出 表 4-1。 


表 4-1 RAID 0 系统 相对 于 单 盘 的 IO 对 比 


注 : 并 发 IO 和 IO SIZE/Stripe SIZE 是 一 对 矛盾 ， 两 者 总 是 对 立 的 。N= 三 组 成 RAID 0 的 磁盘 数 
目 。 系 数 =IO SIZE/Stripe SIZE 和 初始 LBA 地 址 所 处 的 Stripe 偏 移 综合 系数 ， 大 于 等 于 1。 并 发 
系数 = 并 发 IO 的 数量 。 


4.2.2 ”RAID 1 技术 详 析 


RAID 1 是 这 样 一 种 模式 : 拿 两 块 盘 的 例子 来 进行 说 明 ， 如 图 4-9 所 
示 。 


图 4-9 ”RAID 1 系统 示意 图 


RAID 1 和 RAID 0 不 同 ，RAID 0 对 数据 没有 任何 保护 措施 ， 每 个 
Block 都 没有 备份 或 者 校 验 保护 措施 。RAID 1 对 虚拟 逻辑 盘 上 的 每 个 
物理 Block， 都 在 物理 盘 上 有 一 份 镜像 备份 ， 也 就 是 说 数据 有 两 份 。 对 
于 RAID 1 的 写 IO， 速 度 不 但 没有 提升 ， 而 且 有 所 下 降 ， 因 为 数据 要 同 
时 向 多 块 物理 盘 写 ， 时 间 以 最 慢 的 那个 为 准 ， 因 为 是 同步 的 。 而 对 于 
RAID 1 的 读 IO 请 求 ， 不 但 可 以 并 发 ， 而 且 就 算 顺 序 IO 的 时 候 ， 控 制 器 
也 可 以 像 RAID 0 一 样 ， 从 两 块 物理 盘 上 同时 读数 据 ， 提 升 速 度 。 
RAID 1 可 以 没有 Stripe 的 概念 ， 当 然 也 可 以 有 ， 同 样 可 总 结 出 表 4-2。 


表 4-2 ”RAID 1 系统 相对 于 单 盘 的 IO 对 比 


注 : N 三 组 成 RAID 1 镜像 物理 盘 的 数目 。 


在 读 、 并 发 IO 的 模式 下 ， 由 于 可 以 并 发 N 个 IO， 每 个 IO 占用 一 个 
物理 盘 ， 这 就 相当 于 提升 了 N 倍 的 IOPS。 由 于 每 个 IO 只 独占 了 一 个 物 
理 盘 ， 所 以 数据 传输 速度 相对 于 单 盘 并 没有 改变 ， 所 以 不 管 是 随机 还 
是 顺序 IO， 相 对 单 盘 都 不 变 。 


在 读 、 顺 序 IO、 随 机 IO 模式 下 ， 由 于 IO 不 能 并 发 ， 所 以 此 时 一 个 
IO 可 以 同时 读 取 N 个 盘 上 的 内 容 。 但 是 在 随机 IO 模式 下 ， 寻 道 时 间 影 
响 很 大 ， 纵 使 同时 分 块 读 取 多 个 磁盘 的 内 容 ， 也 架 不 住 寻 道 时 间 的 抵 
消 ， 所 以 性 能 提升 极 小 。 


在 读 、 顺 序 IO、 连 续 IO 模 式 下 ， 寻 道 时 间 影 响 最 低 ， 此 时 传输 速 
率 为 主要 矛盾 ， 同 时 读 取 多 块 磁 盘 的 数据 ， 时 间 减 少 为 HN， 所 以 性 能 
提升 了 N 倍 。 


写 IO 的 时 候 和 读 IO 情况 相同 ， 就 不 做 分 析 了 。 写 IO 因为 要 同时 向 
每 块 磁盘 写 入 备份 数据 ， 所 以 不 能 并 发 IO， 也 不 能 分 块 并 行 。 但 是 如 
果 控 制 器 把 优化 算法 做 到 极致 的 话 ， 还 是 可 以 并 发 10 的 ， 比 如 控制 器 
从 IO 队 列 中 提取 连续 的 多 个 IO， 可 以 将 这 些 IO 合 并 ， 并 发 写 入 磁盘 ， 
前 提 是 这 几 个 IO 必须 是 事务 性 的 ， 也 就 是 说 LBA 必 须 连 续 ， 不 然 不 能 
作为 一 个 大 的 合并 IO。 而 且 和 文件 系统 也 有 关系 ， 文 件 系统 碎片 越 
少 ， 并 发 几率 越 高 。 


4.2.3 ”RAID 2 技术 详 析 


RAID 2 是 一 种 比较 特殊 的 RAID 模 式 ， 它 是 一 种 专用 RAID， 现 在 
早已 被 淘汰 。 它 的 基本 思想 是 在 IO 到 来 之 后 ， 控 制 器 将 数据 按照 位 分 
散 开 ， 顺 序 在 每 块 磁盘 中 存 取 1b。 这 里 有 个 疑问 ， 磁 盘 的 最 小 IO 单位 
是 扇 区 ， 有 512B， 如 何 写 入 1b? 其 实 这 个 写 入 1b， 并 非 只 写 入 1b。 我 


们 知道 上 层 IO 可 以 先 经 过 文件 系统 ， 然 后 才 通过 磁盘 控制 器 驱动 来 向 
磁盘 发 出 IO。 最 终 的 IO 大 小 ， 都 是 N 倍 的 扇 区 ， 也 就 是 Nx512B，N 大 
于 等 于 1， 不 可 能 发 生 N 小 于 1 的 情况 。 即 使 需要 的 数据 只 有 几 个 字 
节 ， 那 么 也 同样 要 读 出 或 写 入 整个 扇 区 ， 也 就 是 512B。 


明白 这 个 原则 之 后 ， 再 来 看 一 下 RAID 2 中 所 谓 的 “每 个 磁盘 写 1b” 
是 个 什么 概念 。IO 最 小 单位 为 扇 区 (512B) ， 我 们 就 拿 一 个 4 块 数据 
盘 和 3 块 校 验 盘 的 RAID 2 系统 为 例 给 大 家 说 明 一 下 。 这 个 环境 中 ， 
RAID 2 的 一 个 条 带 大 小 是 4b (1bx4 块 数据 盘 ) ， 而 IO 最 小 单位 是 一 个 
扇 区 ， 那 么 如 果 分 别 向 每 块 盘 写 lb ， 就 需要 分 别 向 每 块 盘 写 一 个 扇 
区 ， 每 个 扇 区 只 包含 bb 有效 数 据 ， 这 显然 是 不 可 能 的 ， 因 为 太 浪费 空 
间 ， 且 没有 意义 。 


下 面 以 IO 请 求 为 例 来 说 明 。 


写 入 “初始 扇 区 10000 长 度 1”， 这 个 IO 目的 是 要 向 LBA10000 写 入 一 
个 局 区 的 数据 ， 也 就 是 512B。 


RAID 2 控制 器 接受 到 这 512B 的 数据 后 ， 在 Cache 中 计算 需要 写 入 
的 物理 磁盘 的 信息 ， 比 如 定位 到 物理 扇 区 ， 分 割 数 据 成 比特 。 


然后 一 次 性 写 入 物理 磁盘 扇 区 。 也 就 是 说 第 一 块 物理 盘 ， 控 制 器 
会 写 入 本 次 IO 数据 的 第 1、5、9、13、17、21 等 位 ， 第 二 块 物理 盘 会 
写 入 2、6、10、14、18、22 等 位 ， 其 他 两 块 物理 盘 同样 方式 写 入 。 


直到 这 样 将 数据 写 完 。 我 们 可 以 计算 出 来 ， 这 512B 的 数据 写 完 
后 ， 此 时 每 块 物理 盘 只 包含 128B 的 数据 ， 也 就 是 一 个 局 区 的 四 分 之 
一 ， 那 么 这 个 局 区 剩余 的 部 分 ， 就 是 空 的 。 


为 了 利用 起 这 部 分 空间 ， 等 下 次 IO 到 来 之 后 ， 控 制 器 会 对 数据 进 
行 比特 分 割 ， 将 数据 填 入 这 些 空 白 区 域 。 控 制 器 将 首先 读 出 原来 的 数 
据 ， 然 后 和 新 数据 合并 之 后 ， 一 并 再 写 回 这 个 局 区 ， 这 样 做 效率 和 速 
度 都 大 打折 扣 。 其 实 RAID 2 就 是 将 原本 连续 的 一 个 扇 区 的 数据 ， 以 位 
为 单位 ， 分 割 存放 到 不 连续 的 多 块 物理 盘 上 ， 因 为 这 样 可 以 在 任意 条 
件 下 都 迫使 其 全 磁盘 组 并 行 读 写 ， 提 高 性 能 ， 也 就 是 说 条 带 深 度 为 1 
位 。 这 种 极端 看 上 去 有 点 做 得 过 火 了 ， 这 也 是 导致 它 最 终 被 淘 状 的 原 
因 之 一 。 


RAID 2 系统 中 每 个 物理 磁盘 扇 区 其 实 是 包含 了 N 个 扇 区 的 “ 残 
体 ”。 


思考 : 那么 如 果 出 现 需 要 更 新 这 4 个 扇 区 中 某 一 个 扇 区 的 情 
况 ， 怎么 办 ? 


这 种 情况 下 ， 必 须 先 读 出 原来 的 数据 ， 和 新 数据 合并 ， 然 后 再 一 
并 写 入 。 其 实 这 种 情况 出 现 的 非常 少 。 我 们 知道 上 层 IO 的 产生 ， 一 般 
是 需要 先 经 过 OS 的 文件 系统 ， 然 后 才 到 磁盘 控制 器 这 一 层 的 。 所 以 磁 
盘 控 制 器 产生 的 IO 一 般 都 是 事务 性 的 ， 也 就 是 这 个 IO 中 的 所 有 局 区 很 
大 几率 上 对 于 上 层 文件 系统 来 说 是 一 个 完整 的 事务 ， 所 以 很 少 会 发 生 
只 针对 这 个 事务 中 某 一 个 点 进行 读 写 的 情况 。 


这 样 的 话 ， 每 次 IO 就 有 很 大 几率 都 会 包含 入 这 些 逻 辑 上 连续 的 局 
区 ， 所 以 不 必 担 心经 单 会 发 生 那 种 情况 。 即 便 发 生 了 ， 控 制 器 也 只 能 
按照 那 种 低 效 率 的 做 法 来 做 ， 不 过 总 体 影响 较 小 。 但 是 如 果 随 机 IO 比 
较 多 ， 那 么 这 些 IO 初始 LBA， 很 有 可 能 就 会 命中 在 一 个 两 个 事务 交接 
的 局 区 处 。 这 种 情况 就 会 导致 速度 和 效率 大 大 降低 。 连 续 IO 出 现 这 种 
情况 的 几率 非常 小 了 。 


RAID 2 因为 每 次 读 写 都 需要 全 组 磁盘 联动 ， 所 以 为 了 最 大 化 其 性 
能 ， 最 好 保证 每 块 磁盘 主轴 同步 ， 使 同一 时 刻 每 块 磁盘 磁头 所 处 的 扇 
区 逻辑 编号 都 一 致 ， 并 存 并 取 ， 达 到 最 佳 性 能 。 如 果 不 能 同步 ， 则 会 
产生 等 待 ， 影 响 速度 。 


基于 RAID 2 并 存 并 取 的 特点 ，RAID 2 不 能 实现 并 发 IO ， 因 为 每 次 
IO 都 占用 了 每 块 物理 磁盘 。 


RAID 2 的 校 验 盘 对 系统 不 产生 瓶颈 ， 但 是 会 产生 延迟 ， 因 为 多 了 
计算 校 验 的 动作 。 校 验 位 和 数据 位 是 一 同 并 行 写 入 或 者 读 取 的 。RAID 
2 采用 汉 明 码 来 校 验 数 据 ， 这 种 码 可 以 判断 修复 一 位 错误 的 数据 ， 并 且 
使 用 校 验 盘 的 数量 太 多 ，4 块 数据 盘 需 要 3 块 校 验 盘 。 但 是 随 着 数据 盘 
数量 的 增多 ， 校 验 盘 所 占 的 比例 会 显著 减 小 。 


RAID 2 和 RAID 0 有 些 不 同 ，RAID 0 不 能 保证 每 次 IO 都 是 多 磁盘 
并 行 ， 因 为 RAID 0 的 条 带 深 度 相对 于 RAID 2 以 位 为 单位 来 说 是 太 大 
了 。 而 RAID 2 由 于 每 次 IO 都 保证 是 多 磁盘 并 行 ， 所 以 其 数据 传输 率 是 
单 盘 的 N 倍 。 为 了 最 好 地 利用 这 个 特性 ， 就 需要 将 这 个 特性 的 主导 地 
位 体现 出 来 。 


而 根据 IOPS=IO 并 发 系数 / ( 寻 道 时 间 十 旋转 延迟 时 间 十 数据 传输 
时 间 ) ， 寻 道 时间 比 数据 传输 时 间 要 大 几 个 数量 级 。 所 以 为 了 体现 数 
据 传输 时 间 减 少 这 个 优点 ， 就 必须 避免 寻 道 时 间 的 影响 ， 而 最 佳 做 法 
就 是 尽量 产生 连续 IO 而 不 是 随机 IO。 所 以 ，RAID 2 最 适合 连续 IO 的 情 
况 。 另 外 ， 根 据 每 秒 IO 吞 吐 量 =IO 并 发 系数 xIO SIZExV/ (Vx 寻 道 时 
间 xVx 旋 转 延迟 时 间 十 IO SIZE) ， 如 果 将 IO SIZE 也 增 大 ， 则 每 秒 IO 
吞吐 量 也 将 显著 提高 。 所 以 ，RAID 2 最 适合 的 应 用 就 是 产生 连续 IO、 
大 块 IO 的 情况 。 不 言 而 喻 ， 视 频 流 服务 等 应 用 适合 RAID 2。 不 过 ， 


RAID 2 的 缺点 太 多 ， 比 如 校 验 盘 数量 多 、 算 法 复杂 等 ， 它 逐渐 被 
RAID 3 替代 了 。 表 4-3 比 较 了 RAID 2 系统 与 单 盘 的 性 能 。 


表 4-3 ”RAID 2 系统 相对 于 单 盘 的 IO 对 比 
注 : N 三 数据 盘 数量 。RAID 2 不 能 并 发 IO。 
4.2.4 RAID 3 技术 详 析 
图 4-10 所 示 为 一 个 RAID 3 系统 的 条 带 布局 图 。 
图 4-10 ”RAID 3 系统 示意 图 


RAID 2 缺点 比较 多 ， 比 如 非 事务 性 IO 对 它 的 影响 、 校 验 盘 数量 太 
多 等 。RAID 2 的 劣势 就 在 于 它 将 数据 以 比特 为 单位 进行 分 割 ， 将 原本 
物理 连续 的 扇 区 转变 成 物理 不 连续 ， 而 逻辑 连续 的 。 这 样 就 导致 了 它 
对 非 事 务 性 IO 的 效率 低下 。 为 了 从 根本 上 解决 这 个 问题 ，RAID 3 出 现 
了 。 


既然 要 从 根本 上 解决 这 个 问题 ， 首 先 就 是 需要 抛弃 RAID 2 对 扇 区 
进行 分 散 的 做 法 ，RAID 3 保留 了 扇 区 的 物理 连续 。RAID 2 将 数据 以 比 
特 为 单位 分 割 ， 这 样 是 为 了 保证 每 次 IO 占用 全 部 磁盘 的 并 行 性 。 而 
RAID 3 同样 也 保留 了 这 个 特点 ， 但 是 没有 以 比特 为 单位 来 分 散 数 据 ， 
而 是 以 一 个 扇 区 或 者 几 个 扇 区 为 单位 来 分 散 数据 。RAID 3 还 采用 了 高 
效 的 XOR 校 验算 法 ， 但 是 这 种 算法 只 能 判断 数据 是 否 有 误 ， 不 能 判断 
出 哪 一 位 有 误 ， 更 不 能 修正 错误 。XOR 校 验 使 得 RAID 3 可 以 不 管 多 少 
块 数据 盘 ， 只 需要 一 块 校 验 盘 就 足够 了 。 


RAID 3 的 每 一 个 条 带 ， 其 长 度 被 设计 为 一 个 文件 系统 块 的 大 小 ， 
深度 随 磁盘 数量 而 定 ， 但 是 最 小 深度 为 1 个 局 区 。 这 样 的 话 ， 每 个 


Segment 的 大 小 一 般 就 是 1 个 扇 区 或 者 几 个 扇 区 的 容量 。 以 图 4.10 的 例 
子 来 看 ， 有 4 块 数据 盘 和 1 块 校 验 盘 。 每 个 Segment 也 就 是 图 中 的 一 个 
Block Portion， 假 如 为 两 个 扁 区 大 小 ， 就 是 1KB， 则 整个 条 带 的 数据 部 
分 大 小 为 4KB。 如 果 一 个 Segment 大 小 为 8 个 扇 区 ， 即 4KB， 则 整个 条 
带 大 小 为 16KB。 


例 解 : RAID 3 的 作用 机 制 


还 是 用 一 个 例子 来 说 明 RAID 3 的 作用 机 制 。 一 个 4 块 数据 盘 和 1 块 
校 验 盘 的 RAID 3 系统 ，Segment SIZE 为 两 个 扇 区 大 小 (1KB) ， 条 带 
长 度 为 4KB。 


RAID 3 控制 器 接收 到 了 这 样 一 个 IO:“ 写 入 初始 扇 区 10000 长 度 
8”， 即 总 数据 量 为 8x512B 二 4KB。 


控制 器 先 定位 LBA10000 所 对 应 的 真实 物理 LBA， 假 如 LBA10000 
恰好 在 第 一 个 条 带 的 第 一 个 Segment 的 第 一 个 扇 区 上 ， 那 么 控制 器 将 这 
个 IO 数据 里 的 第 1、2 个 512B 写 入 这 个 扇 区 。 


同一 时 刻 ， 第 3、4 个 512B 会 被 同时 写 入 这 个 条 带 的 第 二 个 
Segment 中 的 两 个 扇 区 ， 其 后 的 数据 同样 被 写 入 第 3、4 个 Segment 中 ， 
此 时 恰好 是 4KB 的 数据 量 。 也 就 是 说 这 4KB 的 IO 数据 同时 被 分 散 写 入 
了 4 块 磁盘 ， 每 块 磁盘 写 入 了 两 个 扇 区 ， 也 就 是 一 个 Segment。 它 们 是 
并 行 瑟 入 的 ， 包 括 校 验 盘 也 是 并 行 写 入 的 ， 所 以 RAID 3 的 校 验 盘 没 
瓶颈 ， 但 是 有 延迟 ， 因 为 增加 了 计算 校 验 的 开销 。 


但 现代 控制 器 一 般 都 使 用 专用 的 XOR 硬 件 电路 而 不 是 CPU 来 计算 
XOR， 这 样 就 使 得 延迟 降 到 最 低 。 上 面 那 种 情况 是 IO SIZE 刚 好 等 于 一 


个 条 带 大 小 的 时 候 ， 如 果 IO SIZE 小 于 一 个 条 带 大 小 呢 ? 


还 是 刚才 那个 环境 ， 此 时 控制 器 接收 到 IO 大 小 为 2KB 的 写 入 请 
求 ， 也 就 是 4 个 连续 扇 区 ， 那 么 控制 器 就 只 能 同时 写 入 两 个 磁盘 了 ， 
为 每 个 盘 上 的 Segment 是 两 个 局 区 ， 也 只 能 得 到 两 倍 的 单 盘 传 输 速率 。 
同时 为 了 更 新 校 验 块 ， 写 惩罚 也 出 现 了 。 但 是 如 果 同 时 有 个 IO 需要 用 
到 另外 两 块 盘 ， 那 么 恰好 可 以 和 当前 的 IO 合并 起 来 ， 这 样 就 可 以 并 发 
IO， 这 种 相 邻 的 IO 一 般 都 是 事务 性 的 连续 IO。 


再 看 看 IO SIZE 大 于 条 带 长 度 的 情况 。 还 是 那个 环境 ， 控 制 器 收 到 
的 IO SIZE 为 16KB。 则 控制 器 一 次 所 能 并 行 写 入 的 是 4KB， 这 16KB 就 
需要 分 4 批 来 写 入 4 个 条 带 。 其 实 这 里 的 分 4 批 写 入 ， 不 是 先后 写 入 ， 而 
是 同时 写 入 ， 也 就 是 这 16KB 中 的 第 1、5、9、13KB 将 由 控制 器 连续 写 
入 磁盘 1， 第 2、6、10、14KB ， 连 续 写 入 磁盘 2， 依 此 类 推 。 直 到 
16KB 数 据 全 部 写 完 ， 是 并 行 一 次 写 完 。 这 样 校 验 盘 也 可 以 一 次 性 计算 
校 验 值 并 且 和 数据 一 同 并 行 写 入 ， 而 不 是 “分 批 ”。 


通过 比较 ， 我 们 发 现 ， 与 其 使 IO SIZE 小 于 一 个 条 带 的 大 小 ， 从 而 
空 闪 出 一 些 磁盘 ， 不 如 使 IO SIZE 大 于 或 者 等 于 条 带 大 小 ， 取 消 磁 盘 空 
余 。 因 为 上 层 IO SIZE 是 不 受 控 的 ， 控 制 器 说 了 不 算 ， 但 是 条 带 大 小 是 
控制 器 说 了 算 的 。 所 以 如 果 将 条 带 大 小 减 到 很 小 ， 比 如 两 个 扇 区 、 一 
个 局 区 ， 则 每 次 上 层 1I0 一 般 情况 下 都 会 占用 所 有 磁盘 进行 并 发 传输 。 
这 样 就 可 以 提供 和 RAID 2 一 样 的 传输 速度 ， 并 避免 RAID 2 的 诸多 缺 
点 。RAID 3 和 RAID 2 一 样 不 能 并 发 TO ， 因 为 一 个 IO 要 占用 全 部 盘 ， 就 
算 IO SIZE 小 于 Stripe SIZE， 因 为 校 验 盘 的 独 享 也 不 能 并 发 IO。 


思考 : 一 般 来 说 ，RAID3 的 条 带 长 度 三 文件 系统 块 大 小 。 这 
样 ， 就 不 会 产生 条 带 不 对 齐 的 现象 ， 从 而 避免 产生 碎片 。 


虽然 纯 RAID 3 系统 不 能 并 发 TO ， 但 是 可 以 通过 巧妙 的 设计 ， 形 成 
RAID 30 系 统 。 如 果 文 件 系统 块 为 4KB ， 则 使 用 8 块 数据 盘 十 2 块 校 验 
盘 做 成 的 RAID 30 系 统 ， 便 可 以 并 发 2 个 IO 了 。 表 4-4 比 较 了 RAID 3 系 
统 与 单 盘 的 性 能 。 


表 4-4 ”RAID 3 系统 相对 于 单 盘 的 IO 对 比 


注 : N 三 组 成 RAID 3 的 数据 磁盘 数量 。 和 RAID 2 相同 ， 事 务 性 连续 IO 可 能 并 发 。 


和 RAID 2 一 样 ，RAID 3 同样 也 是 最 适合 连续 大 块 IO 的 环境 ， 但 是 
它 比 RAID 2 成 本 更 低 ， 更 容易 部 署 。 


不 管 任何 形式 的 RAID， 只 要 是 面 对 随 机 IO， 其 性 能 与 单 盘 比 都 没 
有 大 的 优势 ， 因 为 RAID 所 做 的 只 是 提高 传输 速率 、 并 发 IO 和 容错 。 随 
机 IO 只 能 靠 降低 单个 物理 磁盘 的 寻 道 时 间 来 解决 。 而 RAID 不 能 优化 寻 
道 时 间 。 所 以 对 于 随机 IO，RAID 3 也 同样 没有 优势 。 


而 对 于 连续 IO ， 因 为 寻 道 时 间 的 影响 因素 可 以 忽略 ，RAID 3 最 拿 
手 了 。 因 为 像 RAID 2 一 样 ，RAID 3 可 以 大 大 加 快 数据 传输 速率 ， 因 为 
它 是 多 盘 并 发 读 写 。 所 以 理论 上 可 以 相当 于 单 盘 提高 N 倍 的 速率 。 


但 是 RAID 3 最 怕 的 就 是 遇 到 随机 IO。 由 于 在 RAID 3 下 ， 每 个 IO 都 
需要 牵动 所 有 盘 来 为 它 服务 ， 这 样 的 话 ， 如 果 向 RAID 3 组 发 送 随机 
IO， 那 么 所 有 磁盘 均 会 频繁 寻 道 ， 此 时 ， 整 个 RAID 组 所 表现 出 来 的 
性 能 甚至 不 如 单 盘 ， 因 为 就 算 组 内 有 100 块 盘 ， 由 于 随机 IO 的 到 来 ， 
所 有 磁盘 均 忙于 寻 道 ，100 块 盘 并 发 寻 道 所 耗费 的 时 间 与 一 块 盘 是 相同 
的 。 


4.2.5 ”RAID 4 技术 详 析 


图 4-11 是 一 个 RAID 4 系统 的 条 带 布局 图 。 
图 4-11 RAID 4 系统 示意 图 


不 管 是 RAID 2 还 是 RAID 3， 它 们 都 是 为 了 大 大 提高 数据 传输 率 而 
设计 ， 而 不 能 并 发 IO。 诸 如 数据 库 等 应 用 的 特点 就 是 高 频率 随机 IO 
读 。 想 提高 这 种 环境 的 IOPS， 根 据 公 式 IOPS=IO 并 发 系数 / 〈 寻 道 时 
间 十 旋转 延迟 时 间 十 数据 传输 时 间 ) ， 随 机 读 导 致 寻 道 时 间 和 旋转 延 
述 时 间 增 大 ， 靠 提高 传输 速率 已 经 不 是 办 法 。 所 以 观察 这 个 公式 ， 想 
在 随机 IO 频 发 的 环境 中 提高 IOPS ， 唯 一 能 够 做 的 是 要 么 用 高 性 能 的 磁 
盘 ( 即 平均 寻 道 时 间 短 的 磁盘 ) ， 要 么 提高 IO 并 发 系数 。 不 能 并 发 IO 
的 ， 想 办 法 让 它 并 发 IO。 并 发 系数 小 的 ， 想 办 法 提高 系数 。 


思考 : 在 RAID 3 的 基础 上 ，RAID 4 被 发 展 起 来 。 我 们 分 析 
RAID 3 的 性 能 的 时 候 ， 曾 经 提 到 过 一 种 情况 ， 就 是 IO SIZE 
小 于 Stripe SIZE 的 时 候 ， 此 时 有 磁盘 处 于 空 亲 状态。 如 果 抓 
住 这 个 现象 ， 同 时 让 队列 中 的 其 他 IO 来 利用 这 些 空闲 的 磁 
盘 ， 岂 不 是 正好 达到 并 发 IO 的 效果 了 么 ? 所 以 RAID 4 将 一 个 
Segment 的 大 小 做 得 比较 大 ， 以 至 于 平均 IO SIZE 总 是 小 于 
Stripe SIZE ， 这 样 就 能 保证 每 个 IO 少 占用 磁盘 ， 甚 至 一 个 IO 
只 占用 一 个 磁盘 。 


是 的 ， 这 个 思想 对 于 读 IO 是 对 路 子 的 ， 但 是 对 于 写 I0 的 话 ， 有 一 
个 很 难 克服 的 问题 ， 那 就 是 校 验 盘 的 争 用 。 考 虑 一 下 这 样 一 种 情况 ， 
在 4 块 数据 盘 和 1 块 校 验 盘 组 成 的 RAID 4 系统 中 ， 某 时 刻 一 个 IO 占用 了 
前 两 块 盘 和 校 验 盘 ， 此 时 虽然 后 两 块 是 空 内 的 ， 可 以 同时 接受 新 的 IO 
请 求 。 但 是 接受 了 新 的 IO 请 求 ， 则 新 IO 请 求 同 样 也 要 使 用 校 验 盘 。 由 
于 一 块 物理 磁盘 不 能 同时 处 理 多 个 I0O， 所 以 新 IO 仍 然 要 等 旧 IO 写 完 


后 ， 才 能 写 入 核验 。 这 样 就 和 顺序 IO 没 区 别 了 。 数 据 盘 可 并 发 而 核验 
盘 不 可 并 发 ， 这 样 不 能 实现 写 IO 并 发 。 


如 果 仅 仅 根 据 争 用 校 验 盘 来 下 结论 说 RAID 4 不 支持 并 发 IO， 也 是 
片面 的 。 我 们 可 以 设想 这 样 一 种 情形 ， 某 时 刻 一 个 IO 只 占用 了 全 部 磁 
盘 的 几 块 盘 ， 令 一 些 磁盘 空间 。 如 果 此 时 让 队列 中 下 一 个 IO 等 待 的 
话 ， 那 么 当然 不 可 能 实现 并 发 IO。 


思考 : 如 果 队 列 中 有 这 样 一 个 IO， 它 需要 更 新 的 LBA 目 标 和 
正在 进行 的 IO 恰好 在 同一 条 带 上 ， 并 且 处 于 空闲 磁盘 ， 还 不 
冲突 ， 那 么 此 时 我 们 就 可 以 让 这 个 IO 也 搭 一 下 正在 进行 的 IO 
的 顺风 车 。 反 正 都 是 要 更 新 这 个 条 带 的 校 验 Segment， 与 其 两 
个 IO 先后 更 新 ， 不 如 让 它们 同时 更 新 各 自 的 数据 Segment， 
而 控制 器 负责 计算 本 条 带 的 校 验 块 。 这 样 就 完美 的 达到 了 IO 
并 发 。 


但 是 ， 遇 到 这 种 情况 的 几率 真是 小 之 又 小 。 即 便 如 此 ， 控 制 器 如 
果 可 以 对 队列 中 的 IO 目标 LBA 进 行 扫 摘 ， 将 目标 处 于 同一 条 市 的 IO， 
让 其 并 发 写 入 ， 这 就 多 少 类 似 NCQ 技 术 了 。 但 是 如 果 组 合 动 作 在 上 层 
就 已 经 算 好 了 ， 人 为 的 创造 并 发 条 件 ， 主 动 去 合并 可 以 并 发 的 ， 合 并 
好 之 后 再 下 发 给 下 层 ， 那 么 事务 并 发 10 的 几率 将 大 大 增加 ， 而 不 是 靠 
底层 碰 运 气 来 实现 ， 不 过 此 时 称 为 “并 发 事务 ”更 为 合适 。 


所 谓 * 上 层 ” 是 什么 呢 ? 上 层 就 是 一 级 磁盘 控制 器 驱动 程序 的 上 
层 ， 也 就 是 文件 系统 层 。 文 件 系统 管理 着 底层 磁盘 ， 决 定数 据 写 往 磁 
盘 或 者 虚拟 卷 上 的 哪些 块 。 所 以 完全 可 以 在 文件 系统 这 个 层次 上 ， 将 
两 个 不 同事 务 的 IO 写 操 作 ， 尽 量 放 到 相同 的 条 带 上 。 比 如 一 个 条 带 大 
小 为 16KB， 可 以 前 8KB 放 一 个 IO 的 数据 ， 后 8KB 放 另 一 个 IO 的 数据 ， 


这 两 个 IO 在 经 过 文件 系统 的 计算 之 后 ， 经 由 磁盘 控制 器 驱动 程序 ， 向 
磁盘 发 出 同时 写 入 整个 条 带 的 操作 ， 这 样 就 构成 了 整 条 写 。 如 果实 在 
不 能 占 满 整 条 ， 那 么 也 应 该 尽量 达成 重 构 写 模 式 ， 这 样 不 但 并 发 了 
IO， 还 使 得 写 效 率 增 加 。 


提示 : 这 种 在 文件 系统 专门 为 RAID 4 做 出 优化 的 方案 ， 最 典 
型 的 就 是 NetApp 公 司 著名 的 WAEFL 文 件 系统 。WAFL 文 件 系 
统 的 设计 方式 确保 了 能 够 最 大 限度 地 实现 整 条 写 操 作 。 


图 4-12 对 比 显示 了 WAFL 如 何 分 配 同 样 的 数据 块 ， 从 而 使 得 RAID 
4 更 加 有 效 。WAFL 总 是 把 可 以 合并 写 入 的 数据 块 尽量 同时 写 到 一 个 条 
带 中 ， 以 消除 写 惩罚 ， 增 加 IO 并 发 系数 。 相 对 于 WAFL ， 左 边 的 FFS 
(普通 文件 系统 ) 由 于 对 RAID 4 没有 感知 ， 产 生 的 IO 不 适合 RAID 4 的 
机 制 ， 从 而 被 零散 地 分 配 到 了 6 个 独立 的 条 带 ， 因 此 致使 6 个 校 验 盘 块 
需要 更 新 ， 而 只 能 顺序 的 进行 ， 因 为 校 验 盘 不 可 并 发 。 而 右边 的 
WAFL 仅 仅 使 用 3 道 条 带 ， 只 有 3 个 校 验 块 需要 更 新 ， 从 而 大 大 提高 
性 能 。 表 4-5 比 较 了 RAID 4 系统 与 单 盘 的 性 能 。 


图 4-12 ”普通 文件 系统 与 WAFL 文 件 系 统 的 对 比 
表 4-5 ”RAID 4 系统 相对 于 单 盘 的 IO 对 比 
注 : N 为 RAID 4 数据 盘 数 量 。IO SIZE/Stripe SIZE 太 大 则 并 发 IO 几率 很 小 。 


注意 : 如 果 IO SIZE/Stripe SIZE 的 值 太 小 ， 那 么 顺序 IO 读 不 
管 是 连续 还 是 随机 IO 几乎 都 没有 提升 。 顺 序 IO 写 性 能 下 降 ， 
是 因为 IO SIZE 很 小 ， 又 是 顺序 IO ， 只 能 进行 读 改写 ， 性 能 会 
降低 不 少 。 


所 以 ， 如 果 要 使 用 RAID 4， 不 进行 特别 优化 是 不 行 的 ， 至 少 要 让 
它 可 以 进行 并 发 IO。 观 察 表 4-5 可 知 ， 并 发 IO 模式 下 性 能 都 有 所 提升 。 
然而 如 果 要 优化 到 并 发 几率 很 高 ， 实 在 不 容易 。 目 前 只 有 NetApp 的 
WAFL 文 件 系 统 还 在 使 用 RAID 4， 其 他 产品 均 未 见 使 用 。RAID 4 面临 
淘汰 ， 取 而 代 之 的 是 拥有 高 盲 并 发 几率 的 RAID 5 系统 。 所 谓 盲 并 发 几 
率 ， 就 是 说 上 层 不 必 感 知 下 层 的 结构 ， 即 可 增加 并 发 系数 。 


4.2.6 ”RAID 5 技术 详 析 
图 4-13 为 一 个 RAID 5 系统 的 条 带 布局 图 。 
图 4-13 ”RAID 5 系统 示意 图 
先 介 绍 几 个 概念 : 整 条 写 、 重 构 写 与 读 改写 。 


(1) 整 条 写 (Full-Stripee Write) : 需要 修改 奇偶 校 验 群 组 中 
所 有 的 条 带 单元 ， 因 此 新 的 XOR 校 验 值 可 以 根据 所 有 新 的 条 带 数据 计 
算得 到 ， 不 需要 额外 的 读 、 写 操作 。 因 此 ， 整 条 写 是 最 有 效 的 写 类 
型 。 整 条 写 的 例子 ， 如 RAID 2、RAID 3。 它 们 每 次 IO 总 是 几乎 能 保证 
占用 所 有 盘 ， 因 此 每 个 条 带 上 的 每 个 Segment 都 被 写 更 新 ， 所 以 控制 器 
可 以 直接 利用 这 些 更 新 的 数据 计算 出 校 验 数 据 之 后 ， 在 数据 被 写 入 数 
据 盘 的 同时 ， 将 计算 好 的 校 验 信息 写 入 校 验 盘 。 


(2) 重 构 写 (Reconstruct Write) : 如 果 要 写 入 的 磁盘 数目 超 
过 阵列 磁盘 数目 的 一 半 ， 可 采取 重 构 写 方式 。 在 重 构 写 中 ， 从 这 个 条 
之 中 不 需要 修改 的 Segment 中 读 取 原来 的 数据 ， 再 和 本 条 市 中 所 有 需要 
修改 的 Segment 上 的 新 数据 一 起 计算 XOR 校 验 值 ， 并 将 新 的 Segment 数 
据 和 没有 更 改过 的 Segment 数 据 以 及 新 的 XOR 校 验 值 一 并 写 入 。 显 
然 ， 重 构 写 要 牵涉 更 多 的 MO 操作 ， 因 此 效率 比 整 条 写 低 。 重 构 写 的 例 


子 ， 比 如 在 RAID 4 中 ， 如 果 数 据 盘 为 8 块 ， 某 时 刻 一 个 IO 只 更 新 了 一 
个 条 带 的 6 个 Segment， 剩 余 两 个 没有 更 新 。 在 重 构 写 模式 下 ， 会 将 没 
有 被 更 新 的 两 个 Segment 的 数据 读 出 ， 和 需要 更 新 的 前 6 个 Segment 的 数 
据 计 算出 校 验 数据 ， 然 后 将 这 6 个 Segment 连 同 校 验 数据 一 并 写 入 磁 
盘 。 可 以 看 出 ， 这 个 操作 只 是 多 出 了 读 两 个 Segment 中 数据 的 操作 和 写 
Parity 校 验 数据 的 操作 ， 但 是 写 的 时 候 几 乎 不 产生 延迟 开销 ， 因 为 是 宏 
观 同时 写 入 。 


(3) 读 改 写 (Read-Modify Write) : 如 果 要 写 入 的 磁盘 数目 不 
足 阵 列 磁 盘 数 目的 一 半 ， 可 采取 读 改 写 方式 。 读 改写 过 程 是 : 先 从 需 
要 修改 的 Segment 上 读 取 旧 的 数据 ， 再 从 条 带 上 读 取 旧 的 奇偶 校 验 值 ; 
根据 上 日数 据 、 旧 校 验 值 和 需要 修改 的 Segment 上 的 新 数据 计算 出 这 个 条 
带 上 的 新 的 校 验 值 ; 最 后 写 入 新 的 数据 和 新 的 奇偶 校 验 值 。 这 个 过 程 
中 包含 读 取 、 修 改 和 写 入 的 一 个 循环 周期 ， 因 此 称 为 读 改 写 。 读 改写 
计算 新 校 验 值 的 公式 为 : 新 数据 的 校 验 数据 = ( 老 数 据 EOR 新 数据 ) 
EOR 老 校 验 数据 。 如 果 待 更 新 的 Segment 已 经 超过 了 条 带 中 总 Segment 
数量 的 一 半 ， 则 此 时 不 适合 用 读 改写 ， 因 为 读 改写 需要 读 出 这 些 
Segment 中 的 数据 和 校 验 数 据 。 而 如 果 采 用 重 构 写 ， 只 需要 读 取 剩 余 不 
准备 更 新 数据 的 Segment 中 的 数据 即 可 ， 而 后 者 数量 比 前 者 要 少 。 所 以 
超过 一 半 用 重 构 写 ， 不 到 一 半 用 读 改 与 ， 整 条 更 新 就 用 整 条 瑟 。 


写 效 率 排列 为 : 整 条 写 > 重 构 写 > 读 改写 。 
图 4-14 是 RAID 5 系统 的 三 种 写 模 式 示意 图 。 


图 4-14 ”RAID 5 写 模 式 示意 图 


为 了 解决 RAID 4 系统 不 能 并 发 IO 的 窘境 ，RAID 5 相应 而 出 。 
RAID 4 并 发 困难 是 因为 它 的 校 验 盘 争 用 的 问题 ， 如 果 能 找到 一 种 机 制 
可 以 有 效 地 解决 这 个 问题 ， 则 实现 并 发 就 会 非常 容易 。RAID 5 恰恰 解 
决 了 校 验 盘 争 用 这 个 问题 。RAID 5 采用 分 布 式 校 验 盘 的 做 法 ， 将 校 验 
盘 打 散在 RAID 组 中 的 每 块 磁盘 上 。 如 图 4-13 所 示 ， 每 个 条 带 都 有 一 个 
校 验 Segment， 但 是 不 同 条 带 中 其 位 置 不 同 ， 在 相 邻 条 带 之 间 循 环 分 
布 。 为 了 保证 并 发 IO，RAID 5 同样 将 条 带 大 小 做 得 较 大 ， 以 保证 每 次 
IO 数据 不 会 占 满 整个 条 带 ， 造 成 队列 中 其 他 IO 的 等 待 。 所 以 ，RAID 5 
要 保证 高 并 发 率 ， 一 旦 某 时 刻 没 有 成 功 进行 并 发 ， 则 这 个 IO 几乎 就 是 
读 改 写 模 式 ， 所 以 RAID 5 拥有 较 高 的 写 惩 罚 。 


但 是 在 随机 写 IO 频 发 的 环境 下 ， 由 于 频 发 的 随机 IO 提高 了 潜在 的 
并 发 几率 ， 如 果 碰 巧 并 发 的 IO 同 处 一 个 条 带 ， 还 可 以 降低 写 惩罚 的 几 
率 。 这 样 ，RAID 5 系统 面 对 频 发 的 随机 写 IO， 其 IOPS 下 降 趋 势 比 其 他 
RAID 类 型 要 平缓 一 些 。 


来 分 析 一 下 RAID 5 具体 的 作用 机 制 。 以 图 4-13 的 环境 为 例 ， 条 带 
大 小 80KB， 每 个 Segment 大 小 16KB。 


某 一 时 刻 ， 上 层 产 生 一 个 写 IO: 写 入 初始 扇 区 10000 长 度 8， 即 写 
入 4KB 的 数据 。 控 制 器 收 到 这 个 IO 之 后 ， 首 先 定位 真实 LBA 地 址 ， 假 
设 定位 到 了 第 1 个 条 带 的 第 2 个 Segment (位 于 图 中 的 磁盘 2) 的 第 1 个 扇 
区 《仅仅 是 假设 ) ， 则 控制 器 首先 对 这 个 Segment 所 在 的 磁盘 发 起 IO 
写 请 求 ， 读 取 这 8 个 扇 区 中 原来 的 数据 到 Cache。 


与 此 同时 ， 控 制 器 也 向 这 个 条 带 的 校 验 Segment 所 在 的 磁盘 ( 即 图 
中 的 磁盘 1) 发 起 IO 读 请 求 ， 读 出 对 应 的 校 验 扇 区 数据 并 保存 到 
Cacheo 


利用 XOR 校 验 电路 来 计算 新 的 校 验 数 据 ， 公 式 为 : 新 数据 的 校 验 
数据 = ( 老 数据 EOR 新 数据 ) EOR 老 校 验 数据 。 现 在 Cache 中 存在 : 
老 数据 、 新 数据 、 老 校 验 数据 和 新 校 验 数据 。 


控制 器 立即 再 次 向 相应 的 磁盘 同时 发 起 IO 写 请 求 ， 将 新 数据 写 入 
数据 Segment， 将 新 校 验 数据 写 入 校 验 Segment， 并 删除 老 数 据 和 老 校 
验 数据 。 


在 上 述 过 程 中 ， 这 个 I0 占 用 的 始终 只 有 1、2 两 块 盘 ， 因 为 所 要 更 
新 的 数据 Segment 对 应 的 校 验 Segment 位 于 1 盘 ， 自 始 至 终 都 没有 用 到 其 
他 任何 磁盘 。 如 果 此 时 队列 中 有 这 么 一 个 IO， 它 的 LBA 初 始 目 标 假如 
位 于 图 4-13 中 下 面 方 框 所 示 的 数据 Segment 中 (磁盘 4) ，IO 长 度 也 不 
超过 Segment 的 大 小 。 而 这 个 条 带 对 应 的 校 验 Segment 位 于 人 磁盘 3 上 。 这 
两 块 盘 未 被 其 他 任何 IO 占用 ， 所 以 此 时 控制 器 就 可 以 并 发 的 处 理 这 个 
IO 和 上 方 红 框 所 示 的 IO ， 达 到 并 发 。 


RAID 5 相对 于 经 过 特别 优化 的 RAID 4 来 说 ， 在 底层 就 实现 了 并 
发 ， 可 以 脱离 文件 系统 的 干预 。 任 何 文件 系统 的 IO 都 可 以 实现 较 高 的 
并 发 几率 ， 又 称 为 盲 并 发 。 而 不 像 基 于 WAFL 文 件 系 统 的 RAID 4， 需 
要 在 文件 系统 上 规划 计算 出 并 发 环境 。 然 而 就 效率 来 说 ， 仍 然 是 
WAFL 拥 有 更 高 的 并 发 系数 ， 因 为 毕竟 WAFL 是 靠 主 动 创造 并 发 ， 而 
RAID 5 却 是 做 好 了 陷阱 等 人 往 里 跳 ， 抓 着 一 个 是 一 个 。 


RAID 5 磁盘 数量 越 多 ， 可 并 发 的 几率 就 越 大 。 表 4-6 比 较 了 RAID 
5 与 单 盘 的 性 能 。 


表 4-6 ”RAID 5 系统 相对 于 单 盘 的 IO 对 比 


注 : RAID 5 最 适合 小 块 IO。 并 发 IO 的 情况 下 ， 性 能 都 较 单 嚼 有 所 提升 。 


图 4-15 为 一 个 RAID 5E 系 统 的 条 带 布 局 图 。 
图 4-15 ”RAID 5E 系 统 示意 图 (HS 代表 HotSpare) 
图 4-16 则 为 一 个 RAID 5EE 系 统 的 条 带 布局 图 。 


图 4-16 ”RAID 5EE 系 统 示意 图 


4.2.7 RAID 6 技术 详 析 
图 4-17 为 一 个 RAID 6 系统 的 条 带 布局 图 。 
图 4-17 RAID 6 系统 示意 图 


RAID 6 之 前 的 任何 RAID 级 别 ， 最 多 能 保障 在 坏 掉 一 块 盘 的 时 
候 ， 数 据 仍然 可 以 访问 。 如 果 同 时 坏 掉 两 块 盘 ， 则 数据 将 会 丢失 。 为 
了 增加 RAID 5 的 保险 系数 ，RAID 6 被 创立 了 。RAID 6 比 RAID 5 多 增 
加 了 一 块 校 验 盘 ， 也 是 分 布 打 散 在 每 块 盘 上 ， 只 不 过 是 用 另 一 个 方程 
式 来 计算 新 的 校 验 数据 。 这 样 ，RAID 6 同时 在 一 个 条 带 上 保存 了 两 份 
数学 上 不 相关 的 校 验 数据 ， 这 样 能 够 保证 同时 坏 两 块 盘 的 情况 下 ， 数 
据 依然 可 以 通过 联 立 这 两 个 数学 关系 等 式 来 求 出 丢失 的 数据 。RAID 6 
与 RAID 5 相 比 ， 在 写 的 时 候 会 同时 读 取 或 者 写 入 额外 的 一 份 校 验 数 
据 。 不 过 由 于 是 并 行 同 时 操作 ， 所 以 不 比 RAID 5 慢 多 少 。 其 他 特性 则 
和 RAID 5 类 似 。 


表 4-6 比 较 了 RAID 6 与 单 盘 的 性 能 。 


表 4-7 RAID 6 系统 相对 于 单 盘 的 IO 对 比 


第 5 章 ” 降 龙 传 说 一 RAID、 虚 拟 
磁盘 、 卷 和 文件 系统 实战 


mg RAID 卡 
@ 软 RAID 
ga 虚拟 磁盘 
@ 卷 

@ 文件 系统 


七 星 大 侠 将 七 星 北斗 阵 式 永 传 于 世 ， 虽 然 其 思想 博大 精深 ， 但 是 
并 没有 给 出 如 何 去 具 体 地 实现 这 七 种 阵 式 。 但 没有 关系 ， 有 了 正确 的 
思想 才能 更 好 地 指导 实践 。 人 们 根据 七 星 北斗 的 思想 ， 发 明了 各 种 各 
样 的 RAID 实 现 方 式 。 


然而 ， 实 现 了 各 种 RAID， 许 多 问题 也 随 之 而 来 ， 且 看 人 们 是 怎 2 
运用 各 种 手段 来 解决 这 些 问题 的 。 


5.1 ”操作 系统 中 RAID 的 实现 和 配置 


有 人 直接 在 主机 上 编写 程序 ， 运 行 于 操作 系统 底层 ， 将 从 主机 
SCSI 或 者 IDE 控 制 器 提交 上 来 的 物理 磁盘 ， 运 用 七 星 北 斗 的 思想 ， 虚 
拟 成 各 种 模式 的 虚拟 磁盘 ， 然 后 再 提交 给 上 层 程 序 接口 ， 如 卷 管理 程 
序 。 这 些 软件 通过 一 个 配置 工具 ， 让 使 用 者 自行 选择 将 哪些 磁盘 组 合 
起 来 并 形成 哪 种 类 型 的 RAID。 


比如 ， 某 台 机 器 上 安装 了 两 块 IDE 磁 盘 和 4 块 SCSI 磁 盘 ，IDE 硬 盘 
直接 连接 到 主板 集成 的 IDE 接 口上 ，SCSI 磁 盘 则 是 连接 到 一 块 PCI 接 口 
的 SCSI 卡 上 。 在 没有 RAID 程 序 参 与 的 条 件 下 ， 系 统 可 以 识别 到 6 块 磁 
盘 ， 并 且 经 过 文件 系统 格式 化 之 后 ， 挂 载 到 某 个 盘 符 或 者 目录 下 ， 供 
应 用 程序 读 写 。 


安装 了 RAID 程 序 之 后 ， 用 户 通 过 配置 界面 ， 先 将 两 块 IDE 磁 盘 做 
成 了 一 个 RAID 0 系统 。 如 果 原 来 每 块 IDE 磁 盘 是 80GB 容 量 ， 做 成 
RAID 0 之 后 就 变 成 了 一 块 160GB 容 量 的 “虚拟 磁盘。 然后 用 户 又 将 4 块 
SCSI 盘 做 了 一 个 RAID 5 系统 ， 如 果 原 来 每 块 SCSI 磁 盘 是 73GB 容 量 ，4 
块 盘 做 成 RAID 5 之 后 虚拟 磁盘 的 容量 将 约 为 3 块 盘 的 容量 ， 即 
216GB。 


当然 ， 因 为 RAID 程 序 需要 使 用 磁盘 上 的 部 分 空间 来 存放 一 些 
RAID 信 息 ， 所 以 实际 容量 将 会 变 小 。 经 过 RAID 程 序 的 处 理 之 后 ， 这 6 
块 磁盘 最 终 变 成 了 两 块 虚拟 磁盘 。 如 果 是 在 windows 系 统 中 ， 打 开 磁 
盘 管 理 器 只 能 看 到 两 块 硬盘 ， 一 块 容量 为 160GB (硬盘 1) ， 另 一 块 容 
量 为 219GB (硬盘 2) 。 之 后 ， 可 以 对 这 两 块 盘 进 行 格式 化 ， 比 如 格式 
化 为 NTFS 文 件 系统 。 格 式 化 程序 丝毫 不 会 感觉 到 有 多 块 物理 硬盘 正在 
写 入 数据 。 


比如 ， 格 式 化 程序 某 时 刻 发 出 命令 ， 向 硬盘 1 (由 两 块 IDE 磁 盘 组 
成 的 RAID 0 虚拟 盘 ) 的 LBA 起 始 地 址 10000， 长 度 128， 写 入 内 存 起 始 
地 址 某 某 的 数据 。RAID 程 序 会 截获 这 个 命令 并 做 分 析 ， 硬 盘 1 是 一 个 
RAID 0 系统 ， 那 么 这 块 从 LBA10000 开 始 算 起 的 128 个 扇 区 的 数据 ， 会 
被 RAID 引 | 擎 计算 ， 将 逻辑 LBA 对 应 成 物理 磁盘 的 物理 LBA， 将 对 应 的 
数据 写 入 物理 磁盘 。 写 入 之 后 ， 格 式 化 程序 会 收 到 成 功 写 入 的 信号 ， 
然后 接着 做 下 一 次 1O。 经 过 这 样 的 处 理 ， 上 层 程序 完全 不 会 知道 底层 


物理 磁盘 的 细节 。 其 他 RAID 形 式 也 都 是 相同 的 道理 ， 只 不 过 算法 更 加 
复杂 而 已 。 但 是 即使 再 复杂 的 算法 ， 经 过 CPU 运算 ， 也 要 比 磁 盘 读 写 
速度 快 几 千 几 万 倍 。 


提示 : 为 了 保证 性 能 ， 同 一 个 磁盘 组 只 能 用 相同 类 型 的 磁 
盘 ， ee IDE 磁 盘 和 SCSI 磁 盘 组 合成 虚拟 磁 
盘 ， 不 过 除非 特殊 需要 ， 否 则 没有 这 样 设计 的 。 


5.1.1 Windows Server 2003 高 级 磁盘 管理 


下 面 以 Windows Server 2003 企 业 版 操作 系统 为 例 ， 示 例 一 下 
Windows 是 如 何在 操作 系统 上 用 软件 来 实现 RAID 功 能 的 。 


每 个 例子 的 环境 都 是 一 个 具有 5 块 物 理 磁 盘 的 PC， 每 块 磁盘 容量 
为 100MB。 


1. 磁盘 初始 化 和 转换 


(1) 新 磁盘 插入 机 箱 并 启动 操作 系统 之 后 ， 打 开 磁 盘 管 理 器 ， 
Windows 会 自动 弹出 一 个 配置 新 磁盘 的 向 导 ， 如 图 5-1 所 示 。 


图 5-1 初始 界面 
(2) 单 击 “ 下 一 步 "按钮 ， 出 现 图 5-2 所 示 的 对 话 框 。 
图 5-2 ”选择 要 初始 化 的 磁盘 
(3) 单 击 “ 下 一 步 ” 按 钮 ， 初 始 化 所 有 新 磁盘 ， 如 图 5-3 所 示 。 


图 5-3 ”选择 要 转换 的 磁盘 


(4) 单 击 * 下 一 步 ” 按 钮 ， 将 所 有 磁盘 转换 为 动态 磁盘 ， 如 图 5-4 
所 示 。 所 谓 的 动态 磁盘 就 是 可 以 用 来 做 RAID 以 及 卷 管 理 的 磁盘 。 


图 5-4 初始 化 磁盘 


(5) 单 击 “完成 按钮。 查看 磁盘 管理 器 中 的 状态 ， 如 图 5-5 所 
示 。 


图 5-5 ”磁盘 状态 


我 们 从 图 5-5 中 可 以 看 到 ， 磁 盘 0 为 基本 磁盘 ， 同 时 也 是 系统 所 在 
的 磁盘 以 及 启动 磁盘 。 这 个 磁盘 不 能 对 其 进行 软 RAID 或 卷 管理 操作 。 


2。 新 建 卷 


在 “磁盘 1” 上 右 击 ， 在 弹出 的 快捷 菜单 中 选择 < 新建 卷 ?命令 ， 如 图 
5-6 所 示 ， 系 统 弹 出 “新 建 卷 向 导 ” 对 话 杠 ， 以 选择 要 创建 的 卷 的 类 型 ， 
如 图 5-7 所 示 。 


图 5-6 ”选择 “新 建 卷 " 命 令 图 5-7 选择 卷 类 型 


这 里 有 5 个 选项 ， 下 面 分 别 介绍 。 


简单 卷 : 指 卷 将 按照 磁盘 的 顺序 依次 分 配 空间 。 简 单 卷 与 磁盘 
分 区 功能 类 似 ， 卷 空间 只 能 在 一 块 磁盘 上 分 配 ， 并 且 不 能 交叉 
或 者 乱 序 。 

跨 区 卷 : 跨 区 卷 在 简单 卷 的 基础 上 ， 可 以 让 一 个 卷 的 空间 跨越 
多 块 物理 磁盘 。 相 当 于 不 做 条 带 化 的 RAID 0 系统 。 

= 市 区 卷 : 刘 区 卷 相 当 于 条 市 化 的 RAID 0 系统 。 


。 镜像 卷 : 镜像 卷 相 当 于 RAID 1 系统 。 
" RAID-5 卷 : 点 无 疑问 ， 这 种 方式 就 是 实现 一 个 RAID 5 卷 。 


图 5-8 做 的 是 一 个 大 小 为 101MB 的 简单 卷 ， 也 就 是 将 物理 磁盘 1 全 
部 容量 划分 给 这 个 卷 。 可 以 发 现 ， 简 单 卷 只 能 在 一 块 物理 磁盘 上 划 
分 ， 图 中 “添加 ”按钮 是 灰色 的 ， 证 明 不 能 跨越 多 块 磁盘 。 


图 5-8 ”划分 大 小 
我 们 再 来 看 看 跨 区 卷 ， 如 图 5-9 所 示 。 
图 5-9” 跨 区 卷 


跨 区 卷 允许 卷 容量 来 自 多 个 硬盘 ， 并 且 可 以 在 每 个 硬盘 上 选择 部 
分 容量 而 不 一 定 非 要 选择 全 部 容量 。 在 此 ， 我 们 将 全 部 容量 划分 给 这 
个 卷 ， 卷 总 容量 为 200MB ， 如 图 5-10 所 示 。 


图 5-10” 跨 区 卷 状态 


建 好 的 跨 区 卷 ， 将 用 紫色 来 表示 。 此 外 ， 还 可 以 灵活 地 扩展 这 个 
卷 的 容量 ， 如 图 5-11 所 示 。 


图 5-11 ”扩展 容量 
向 这 个 卷 中 再 添加 一 块 磁盘 “磁盘 3”， 如 图 5-12 所 示 。 
图 5-12 ”增加 一 块 物理 磁盘 
加 完 之 后 这 个 卷 的 容量 就 被 扩充 到 了 300MB ， 如 图 5-13 所 示 。 


图 5-13 ”扩容 后 的 卷 


3。 删 除 卷 
如 图 5-14 所 示 ， 可 以 任意 删除 卷 。 
图 5-14 ”删除 卷 


下 面 用 磁盘 1 的 前 50MB 的 容量 和 磁盘 2 的 全 部 容量 来 做 一 个 跨 区 
卷 ， 如 图 5-15 所 示 。 


图 5-15 ”灵活 地 划分 尺寸 


做 好 后 的 卷 如 图 5-16 所 示 。 此 外 ， 磁 盘 1 剩 余 的 51MB 容 量 还 可 以 
再 新 建 卷 ， 如 图 5-16 所 示 。 


图 5-16 ”剩余 空间 可 以 新 建 卷 
4. 带 区 卷 


下 面 我 们 来 做 一 个 带 区 卷 ， 即 条 带 化 的 RAID 0 卷 ， 选 择 用 磁盘 1 
和 磁盘 2 中 各 30MB 的 容量 来 做 一 个 60MB 的 卷 ， 如 图 5-17 和 图 5-18 所 
示 。 


图 5-17 带 区 卷 图 5-18” 带 区 卷 的 状态 
做 好 之 后 的 带 区 卷 会 用 绿色 标识 。 


5。 镜 像 卷 


我 们 再 来 做 一 个 镜像 卷 ， 即 RAID 1 卷 ， 选 择 用 磁盘 1 和 磁盘 2 中 各 
40MB 的 容量 来 做 一 个 40MB 的 卷 ， 如 图 5-19 和 图 5-20 所 示 。 


图 5-19 ”镜像 卷 图 5-20 ”镜像 卷 的 状态 
做 好 后 的 镜像 卷 会 用 棕色 标识 。 
6。. RAID 5 类 型 的 卷 


最 后 ， 我 们 来 做 一 个 RAID 5 类 型 的 卷 ， 可 将 所 有 磁盘 的 各 50MB 
空间 做 一 个 卷 ， 如 图 5-21 所 示 ; 然后 再 用 所 有 硬盘 的 20MB 空 间 做 一 个 
卷 ， 形 成 两 个 RAID 5 卷 。 


图 5-21 创建 RAID 5 卷 


做 好 后 的 RAID 5 卷 会 用 亮 绿 色 标 识 ， 如 图 5-22 所 示 。 
图 5-22 ”RAID 5 卷 的 状态 


提示 : 做 好 的 任何 卷 均 可 随意 被 删除 ， 如 图 5-23 所 示 。 


图 5-23 ”删除 了 一 个 RAID 5 卷 


说 明 : Windows 的 动态 磁盘 管理 实际 上 应 该 算是 一 个 带 有 
RAID 功 能 的 卷 管 理 软件 ， 而 不 仅仅 是 RAID 软 件 。 卷 管理 的 
概念 我 们 在 下 文 会 解释 。 


5.1.2 ” Linux 下 软 RAID 配 置 示例 


下 面 在 一 台 装 有 8 块 物理 磁盘 的 机 器 上 安装 RedHat Enterprise 
Linux Server 4 Update 5 操作 系统 ， 具 体操 作 过 程 如 下 


(1) 选择 手动 配置 磁盘 界面 ， 如 图 5-24 所 示 。 
图 5-24 ”选择 手动 配置 
(2) 可 以 看 到 系统 识别 到 了 8 块 物理 磁盘 ， 如 图 5-25 所 示 。 
图 5-25 “识别 到 的 磁盘 列表 


(3) 必须 划分 一 个 boot 分 区 用 来 启动 基本 的 操作 系统 内 核 。 用 
第 一 块 磁盘 sda 的 前 100MB 容 量 来 创建 这 个 分 区 ， 如 图 5-26 所 示 。 


5-26 ”创建 /boot 分 区 


(4) 在 创建 boot 分 区 之 后 ， 将 SDA 磁 盘 剩 余 的 分 区 以 及 所 有 剩 
余 的 物理 磁盘 ， 均 配置 为 software RAID 类 型 ， 如 图 5-27 所 示 。 


图 5-27 ”配置 磁盘 类 型 


(5) 在 将 所 有 磁盘 都 配置 成 software RAID 类 型 之 后 ， 单 击 Next 
按钮 ， 会 打开 RAID Options 对 话 框 询问 想 要 进行 什么 样 的 操作 ， 如 图 
5-28 所 示 。 


图 5-28 ”设置 为 RAID 设 备 


(6) 选中 Create a RAID device [default 三 /dewmd0] 单 选 按钮 后 单 
击 OK 按 钮 ， 系 统 弹出 Make RAID Device 对 话 框 。 在 对 话 框 的 RAID 
Device 下 拉 列 表 框 中 ， 可 以 选择 相应 的 RAID 组 在 操作 系统 中 对 应 的 设 
备 名 。 在 RAID Level 下 拉 列 表 框 中 ， 可 以 选择 需要 配置 的 RAID 类 型 。 
在 RAID Members 列 表 框 中 ， 可 以 选择 RAID 组 中 包含 的 物理 磁盘 。 用 
相同 的 方法 可 以 做 多 个 不 同类 型 的 RAID 组 ， 如 图 5-29 所 示 。 


图 5-29 ”创建 对 应 的 Mount 点 


5.2 RAID 卡 


思考 : 软件 RAID 有 三 个 缺点 : 占用 内 存 空间 ; 占用 
CPU 资 源 ，(3) 软 件 RAID 程 序 无 法 将 安装 有 操作 系统 的 那个 磁 
盘 分 区 做 成 RAID 模 式 。 因 为 RAID 程 序 是 运行 在 操作 系统 之 
上 的 ， 所 以 在 启动 操作 系统 之 前 ， 是 无 法 实现 RAID 功 能 的 。 
也 就 是 说 ， 如 果 操 作 系 统 损坏 了 ，RAID 程 序 也 就 无 法 运行 ， 
磁盘 上 的 数据 就 成 了 一 堆 无 用 的 东西 。 因 为 RAID 人 磁盘 上 的 数 
据 只 有 实现 相应 RAID 算 法 的 程序 才能 识别 并 且 正 确 读 写 。 如 
果 没 有 相应 的 RAID 程 序 ， 则 物理 磁盘 上 的 数据 仅仅 是 一 些 碎 
片 而 已 ， 只 有 RAID 程 序 才能 组 合 这 些 碎片 。 幸 好 ， 目 前 大 多 
数 的 RAID 程 序 都 会 在 磁盘 上 存储 自己 的 算法 信息 ， 一 旦 操作 
系统 出 现 了 问题 ， 或 者 主机 硬件 出 现 了 问题 ， 就 可 以 将 这 些 
磁盘 连接 到 其 他 机 器 上 ， 再 安装 相同 的 RAID 软 件 。RAID 软 
件 读 取 了 存储 在 硬盘 上 固定 区 域 的 RAID 信 息 后 ， 便 可 以 继续 
使 用 。 


软件 RAID 的 缺点 如 此 之 多 ， 使 人 们 不 断 地 思考 更 多 实现 RAID 的 
方法 。 既 然 软 件 缺 点 太 多 ， 那 么 用 硬件 实现 如 何 呢 ? 


RAID 卡 就 是 一 种 利用 独立 硬件 来 实现 RAID 功 能 的 方法 。 要 在 硬 
件 上 实现 RAID 功 能 ， 必 须 找 一 个 物理 硬件 作为 载体 ，SCSI 卡 或 者 主 
板 上 的 南 桥 无 疑 就 是 这 个 载体 了 。 人 们 在 SCSI 卡 上 增加 了 额外 的 芯片 
用 于 实现 RAID 功 能 。 这 些 心 片 是 专门 用 来 执行 RAID 算 法 的 ， 可 以 是 
ASIC 这 样 的 高 成 本 高 速度 运算 心 片 ， 也 可 以 是 通用 指令 CPU 这 样 的 通 


用 代码 执行 已 片 ， 可 以 从 ROM 中 加 载 代码 直接 执行 ， 也 可 以 先 载 入 
RAM 后 执行 ， 从 而 实现 RAID 功 能 。 


实现 了 RAID 功 能 的 板 卡 (SCSI 卡 或 者 IDE 扩 展 卡 ) 就 叫做 RAID 
卡 。 同 样 ， 在 主板 南 桥 忌 片 上 也 可 实现 RAID 功 能 。 由 于 南 桥 中 的 芯片 
不 能 靠 CPU 来 完成 它们 的 功能 ， 所 以 这 些 芯 片 完 全 靠 电 路 逻辑 来 自己 
运算 ， 尽 管 速 度 很 快 ， 但 是 功能 相对 插 卡 式 的 RAID 卡 要 弱 。 从 某 些 主 
板 的 宣传 广告 中 就 可 以 看 到 ， 如 所 谓 “ 板 载 "*RAID 忌 片 就 是 指南 桥 中 有 
实现 RAID 功 能 的 芯片 。 
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这 样 ， 操 作 系 统 不 需要 作 任 何 改动 ， 除 了 RAID 卡 驱动 程序 之 外 不 
用 安装 任何 额外 的 软件 ， 就 可 以 直接 识别 到 已 经 过 RAID 处 理 而 生成 的 
虚拟 磁盘 。 


对 于 软件 RAID ， 至 少 操作 系统 最 底层 还 是 能 感知 到 实际 物理 磁盘 
的 ， 但 是 对 于 硬件 RAID 来 说 ， 操 作 系统 根本 无 法 感知 底层 的 物理 磁 
盘 ， 而 只 能 通过 厂家 提供 的 RAID 卡 的 管理 软件 来 查看 卡 上 所 连接 的 物 
理 磁盘 。 而 且 ， 配 置 RAID 卡 的 时 候 ， 也 不 能 在 操作 系统 下 完成 ， 而 必 
须 进 入 这 个 硬件 来 完成 (或 者 在 操作 系统 下 通过 RAID 卡 配置 工具 来 设 
置 ) 。 一 般 的 RAID 卡 都 是 在 开机 自 检 的 时 候 ， 进 入 它 的 ROM 配 置 程 
序 来 配置 各 种 RAID 功 能 。 


RAID 卡 克服 了 软件 RAID 的 缺点 ， 使 操作 系统 本 身 可 以 安装 在 
RAID 虚 拟人 磁盘 之 上 ， 而 这 是 软件 RAID 所 做 不 到 的 。 


1. RAID 卡 的 结构 


带 CPU 的 RAID 卡 倪 然 就 是 一 个 小 的 计算 机 系统 ， 有 自己 的 CPU、 
内 存 、ROM、 总 线 和 IO 接 口 ， 只 不 过 这 个 小 计算 机 是 为 大 计算 机 服务 
的 。 


图 5-30 为 一 个 RAID 卡 的 架构 示意 图 。 
图 5-30 ”RAID 卡 结构 示意 图 


SCSI RAID 卡 上 一 定 要 包含 SCSI 控 制 器 ， 因 为 其 后 端 连接 的 依然 
是 SCSI 物 理 磁盘 。 其 前 端 连接 到 主机 的 PCI 总 线 上 ， 所 以 一 定 要 有 一 
个 PCI 总 线 控制 器 来 维护 PCI 总 线 的 仲裁 、 数 据 发 送 接收 等 功能 。 还 需 
要 有 一 个 ROM,， 一 般 都 是 用 Flash 心 片 作 为 ROM， 其 中 存放 着 初始 化 
RAID 卡 必须 的 代码 以 及 实现 RAID 功 能 所 需 的 代码 。 


RAM 的 作用 ， 首 先是 作为 数据 缓存 ， 提 高 性 能 ; 其 次 作为 RAID 
卡 上 的 CPU 执 行 RAID 运 算 所 需要 的 内 存 空间 。XOR 心 片 是 专门 用 来 做 
RAID 3、5、6 等 这 类 校 验 型 RAID 的 校 验 数据 计算 用 的 。 如 果 让 CPU 
来 做 校 验 计 算 ， 需 要 执行 代码 ， 将 耗费 很 多 周期 。 而 如 果 直 接 使 用 专 
用 的 数字 电路 ， 一 进 一 出 就 立即 得 到 结果 。 所 以 为 了 解脱 CPU， 增 加 
了 这 块 专门 用 于 XOR 运 算 的 电路 模块 ， 大 大 增加 了 数据 校 验 计 算 的 速 
度 。 


RAID 卡 与 SCSI 卡 的 区 别 就 在 于 RAID 功 能 ， 其 他 没有 太 大 区 别 。 
如 果 RAID 卡 上 有 多 个 SCSI 通 道 ， 那 么 就 称 为 多 通道 RAID 卡 。 目 前 
SCSI RAID 卡 最 高 有 4 通道 的 ， 其 后 端 可 以 接 入 4 条 SCSI 总 线 ， 所 以 最 
多 可 连接 64 个 SCSI 设 备 (16 位 总 线 ) 。 


增加 了 RAID 功 能 之 后 ，SCSI 控 制 器 就 成 了 RAID 程 序 代 码 的 仇 
仿 ，RAID 让 它 干 什么 ， 它 就 干什么 。SCSI 控 制 器 对 它 下 面 掌 管 的 磁 


盘 情况 完全 明了 ， 它 和 RAID 程 序 代码 之 间 进 行 通信 。RAID 程 序 代 码 
知道 SCSI 控 制 器 掌管 的 磁盘 情况 之 后 ， 就 按照 ROM 中 所 设置 的 选项 ， 
比如 RAID 类 型 、 条 带 大 小 等 ， 对 RAID 程 序 代码 做 相应 的 调整 ， 操 控 
它 的 便 偶 SCSI 控 制 器 向 主机 报告 < 虚拟 ”的 逻辑 盘 ， 而 不 是 所 有 物理 磁 
点 圭 庆 


提示 : RAID 思 想 中 有 个 条 带 化 的 概念 。 所 谓 的 条 带 化 ， 并 
不 是 真正 的 像 低级 格式 化 一 样 将 磁盘 划分 成 条 和 带 。 这 个 条 
带 化 完全 就 是 在 “心中 *”， 也 就 是 体现 在 程序 代码 上 。 因 为 条 
带 的 位 置 、 大 小 一 旦 设置 之 后 ， 就 是 固定 的 。 一 个 虚拟 盘 上 
的 某 个 LBA 地 址 块 ， 就 对 应 了 真正 物理 磁盘 上 的 一 个 或 者 多 
个 LBA 块 ， 这 些 映射 关系 都 是 预先 通过 配置 界面 设 定 好 的 。 
而 且 某 种 RAID 算 法 往往 体现 为 一 些 复杂 公式 ， 而 不 是 去 用 一 
张 表 来 记录 每 个 虚拟 磁盘 LBA 和 物理 磁盘 LBA 的 对 应 ， 这 样 
效率 会 很 差 。 因 为 每 个 IO 到 来 之 后 ，RAID 都 要 查询 这 个 表 来 
获取 对 应 物理 磁盘 的 LBA， 而 查询 速度 是 非常 慢 的 ， 更 何况 
面 对 如 此 大 的 一 张 表 。 如 果 用 一 个 逻辑 LBA 与 物理 LBA 之 间 
的 函数 关系 公式 来 做 运算 ， 则 速度 是 非常 快 的 。 


正 是 因为 映射 完全 通过 公式 来 进行 ， 所 以 物理 磁盘 上 根本 不 用 写 
入 什么 标志 ， 以 标注 所 谓 的 条 带 。 条 带 的 概念 只 是 逻辑 上 的 ， 物 理 上 
并 不 存在 。 所 以 ， 条 带 等 概念 只 需 “ 记 忆 ” 在 RAID 程 序 代 码 之 中 就 可 以 
了 ， 要 改变 也 是 改变 程序 代码 即 可 。 唯 一 要 向 磁盘 上 写 入 的 就 是 一 些 
RAID 人 信息， 这 样 即使 将 这 些 磁盘 拿 下 来 ， 放 到 同型 号 的 另 一 块 RAID 
卡 上 ， 也 能 无 误 地 认 出 以 前 做 好 的 RAID 信 息 。SNIA 协 会 定义 了 一 种 
DDF RAID 信 息 标 准 格 式 ， 要 求 所 有 RAID 卡 厂家 都 按照 这 个 标准 来 存 
放 RAID 人 信息， 这样， 所 有 RAID 卡 就 都 通用 了 。 


条 带 化 之 后 ，RAID 程 序 代 码 就 操控 SCSI 控 制 器 向 OS 层 驱 动 程序 
代码 提交 一 个 虚拟 化 之 后 的 所 谓 “ 虚 拟 盘 ”或 者 “逻辑 盘 "*"， 也 有 人 干脆 
称 为 LUN。 


2。RAID 卡 的 初始 化 和 配置 过 程 


所 谓 初 始 化 就 是 说 在 系统 加 电 之 后 ，CPU 执 行 系统 总 线 特定 地 址 
上 的 第 一 句 指令 ， 这 个 地 址 便 是 主板 BIOS 忆 片 的 地 址 。BIOS 芯 片 中 
包含 着 让 CPU 执行 的 第 一 条 指令 ，CPU 将 逐条 执行 这 些 指令 ， 执 行 到 
一 定 阶 段 的 时 候 ， 有 一 条 指令 会 让 CPU 寻 址 总 线 上 其 他 设备 的 ROM 地 
址 (如果 有 ) 。 也 就 是 说 ， 系 统 加 电 之 后 ，CPU 总 会 执行 SCSI 卡 这 个 
设备 上 ROM 中 的 程序 代码 来 初始 化 这 块 卡 。 初 始 化 的 内 容 包括 检测 卡 
型 号 、 生 产 商 以 及 扫描 卡 上 的 所 有 SCSI 总 线 以 找 出 每 个 设备 并 显示 在 
显示 器 上 。 在 初始 化 的 过 程 中 ， 可 以 像 进 入 主板 BIOS 一 样 ， 进 入 SCSI 
卡 自身 的 BIOS 中 进行 设置 ， 设 置 内 容 包 括 查看 各 个 连接 到 SCSI 总 线 上 
的 设备 的 容量 、 生 产 商 、 状 态 、SCSIID 和 LUN ID 等 。 


3。 0 通道 RAID 卡 


0 通道 RAID 卡 又 称 为 RAID 子 卡 ，0 通 道 的 意思 是 说 这 块 卡 的 后 端 
没有 SCSI 通 道 。 将 这 块 子 卡 插入 主机 的 PCI 插 槽 之 后 ， 它 就 可 以 利用 
主板 上 已 经 集成 的 或 者 已 经 插 在 PCI 上 的 SCSI 卡 ， 来 操控 它们 的 通 
道 ， 从 而 实现 RAID。 这 个 0 通道 子 卡 ， 也 是 插 到 PCI 上 的 一 块 卡 ， 只 不 
过 它 需 要 利用 主板 上 为 0 通道 子 卡 专门 设计 的 逻辑 电路 ， 对 外 和 SCSI 
控制 器 组 成 一 块 RAID 卡 来 用 ， 只 不 过 这 块 卡 在 物理 上 被 分 割 到 了 两 个 
PCI 插 槽 中 而 已 。 


图 5-31 ”0 通道 RAID 子 卡 示意 图 


图 5-31 展 示 了 0 通道 RAID 子 卡 的 

架构 。 在 主板 的 一 个 特定 PCI 插 槽 上， 有 一 个 ICR 逻 辑 电 路 ， 用 来 截获 
CPU 发 送 的 地 址 信号 和 发 给 CPU 的 中 断 信 号 。CPU 发 送 到 这 里 原本 用 
来 操控 SCSI 控 制 器 的 地 址 信号 ， 现 在 全 部 被 这 个 ICR 电 路 重 定 向 到 了 
RAID 子 卡 处 ， 包 括 主板 BIOS 初 始 载 入 ROM， 也 不 是 载 入 SCSI 卡 的 
ROM 了 ， 而 是 载 入 了 RAID 子 卡 的 ROM。RAID 卡 完全 接替 了 SCSI 卡 
来 面 对 主 机 系统 。RAID 卡 和 SCSI 控 制 器 的 通信 ， 包 括 地 址 信息 和 数 
据 信息 ， 需 要 占用 PCI 总 线 ， 这 造成 了 一 定 的 性 能 损失 。RAID 子 卡 和 
SCSI 卡 之 间 的 通信 ， 不 会 被 ICR 电 路 重 定向 。 


4. 无 驱 RAID 卡 


PhotoFast 所 设计 的 一 款 RAID 卡 可 谓 是 比较 创新 。 传 统 的 RAID 卡 
都 是 使 用 PCIX 或 者 PCIE 总 线 来 连接 到 计算 机 上 的 ， 但 是 PhotoFast 这 款 
RAID 卡 却 是 使 用 SATA 接 口 来 连接 到 计算 机 的 ， 也 就 是 说 ， 这 块 RAID 
卡 将 其 上 连接 的 多 块 物理 磁盘 虚拟 成 若干 的 虚拟 磁盘 ， 并 将 这 些 磁 盘 
通过 SATIA 接 口 连接 到 计算 机 ， 计 算 机 就 认为 它 自身 所 连接 的 是 多 块 
SATA 物 理 磁盘 。 这 样 的 话 ， 这 块 Raid 卡 就 不 需要 任何 驱动 程序 便 可 被 
大 多 数 操作 系统 使 用 (多 数 操作 系统 都 自 带 SATA 控 制 器 驱动 程序 ) 。 


5. RAID On Chip (ROC) 技术 


ROC 技 术 是 由 Adaptec 公 司 推出 的 一 种 廉价 RAID 技 术 ， 它 利用 
SCSI 卡 上 的 CPU 处 理 心 片 ， 通 过 在 SCSI 卡 的 ROOM 中 加 入 RAID 代 码 而 
实现 。 


2001 年 ，Adaptec 展 示 了 它 的 识 OC 技 术 ， 在 2003 年 这 一 技术 以 
HOStRAID 的 形象 推出 。iROC 也 就 是 RAID on Chip， 实 质 上 就 是 利用 


SCSI 控 制 心 片 内 部 的 RISC 处 理 器 完成 一 些 简单 的 RAID 类 型 (RAID 
0、1、0 十 1) 。 由 于 RAID 0、1 和 0 十 1 需要 的 运算 量 不 大 ， 利 用 SCSI 
控制 器 内 部 的 RISC 处 理 器 也 能 够 实现 。 在 ROM 代 码 的 配合 下 ， 通 过 
iROC 实 现 的 RAID 0、1 或 0 十 1 具备 引导 能 力 ， 并 且 可 以 支持 热 备 盘 。 


在 入 门 级 塔 式 服务 器 和 1U 高 度 的 机 架 式 服务 器 中 ， 主 板 上 通常 会 
集成 SCSI 控 制 芯 片 ， 但 不 标 配 独立 的 RAID 卡 。iROC 的 出 发 点 就 是 让 
这 些 系统 具有 基本 的 硬件 数据 保护 ， 当 需要 更 为 复杂 的 RAID 5 时 再 购 
买 独 立 的 RAID 卡 。iROC 的 出 现 给 低 端 服务 器 产品 的 数据 保护 方案 增 
加 了 一 个 简易 的 选择 。iROC 或 HOStRAID 的 主要 缺点 是 操作 系统 兼容 
性 和 性 能 差 ， 由 于 没有 专门 的 RAID 计 算 处 理 器 ， 因 此 使 用 这 种 配置 的 
RAID 会 在 一 定 程度 上 降低 服务 器 系统 的 性 能 ， 而 且 它 只 支持 RAID 
0、1、0 十 1， 只 能 支持 几 块 SCSI 盘 做 RAID， 相 比 IDE RAID 0、1、0 
十 1 来 说 特性 相近 而 成 本 上 却 高 了 很 多 ， 此 外 ，HOStRAID 技 术 在 低 端 
还 必然 要 面 对 更 新 、 性 能 更 好 的 S-ATA RAID 的 竞争 。 


6. RAID 卡 上 的 内 存 


RAID 卡 上 的 内 存 ， 有 数据 缓存 和 代码 执行 内 存 两 种 作用 。 


RAID 卡 上 的 CPU 执行 代码 ， 当 然 需要 RAM 的 参与 了 。 如 果 直 接 
从 ROM 中 读 取 代码 ， 速 度 会 受到 很 大 影响 。 所 以 RAID 卡 的 RAM 中 有 
固定 的 地 址 段 用 于 存放 CPU 执行 的 代码 。 而 大 部 分 空间 都 是 用 作 了 下 
文 介绍 的 数据 缓存 。 


缓存 ， 也 就 是 缓冲 内 存 ， 只 要 在 通信 的 双方 之 间 能 起 到 缓冲 作用 
就 可 以 了 。 我 们 知道 CPU 和 内 存 之 间 是 L2 Cache， 它 比 内 存 RAM 速 度 
还 要 高 ， 但 是 没有 CPU 速度 高 。 同 样 ，RAID 控 制 器 和 磁盘 通道 控制 器 


之 间 也 要 有 一 个 缓存 来 适 配 ， 因 为 RAID 控 制 器 的 处 理 速度 远 远 快 于 通 
道 控制 器 收集 通道 上 所 连接 的 磁盘 传 出 的 数据 速度 。 这 个 缓存 没有 必 
要 用 L2 Cache 那 样 高 速 的 电路 ， 而 用 RAM 足 矣 。 因 为 RAM 的 速度 就 足 
够 适 配 二 者 了 。 


缓存 RAM 除 了 适 配 不 同 速率 的 心 片 通信 之 外 ， 还 有 一 个 作用 就 是 
缓冲 数据 IO。 比 如 上 层 发 起 一 个 IO 请 求 ，RAID 控 制 器 可 以 先 将 这 个 
请 求 放 到 缓存 中 排队 ， 然 后 一 条 一 条 地 执行 ， 或 者 优化 这 些 IO， 能 合 
并 的 合并 ， 能 并 发 的 并 发 。 


7. 缓存 的 两 种 写 模 式 


对 于 上 层 的 写 IO，RAID 控 制 器 有 两 种 手段 来 处 理 ， 内 容 如 下 。 


(1) WriteBack 模 式 : 上 层 发 过 来 的 数据 ，RAID 控 制 器 将 其 保 
存 到 缓存 中 之 后 ， 立 即 通知 主机 IO 已 经 完成 ， 从 而 主机 可 以 不 加 等 待 
地 执行 下 一 个 IO， 而 此 时 数据 正在 RAID 卡 的 缓存 中 ， 而 没有 真正 写 入 
磁盘 ， 起 到 了 一 个 缓冲 作用 。RAID 控 制 器 等 待 空 闪 时， 或 者 一 条 一 条 
地 写 入 磁盘 ， 或 者 批量 写 入 磁盘 ， 或 者 对 这 些 IO 进 行 排 队 〈 类 似 磁盘 
上 的 队列 技术 ) 等 一 些 优 化 算法 ， 以 便 高 效 写 入 磁盘 。 由 于 写 盘 速度 
比较 慢 ， 所 以 这 种 情况 下 RAID 控 制 器 欺骗 了 主机 ， 但 是 获得 了 高 速 
度 ， 这 就 是 “把 简单 留 给 上 层 ， 把 麻烦 留 给 自己 ”。 这 样 做 有 一 个 致命 
缺点 ， 就 是 一 旦 意外 掉 电 ，RAID 卡 上 缓存 中 的 数据 将 全 部 丢失 ， 而 此 
时 主机 认为 IO 已 经 完成 ， 这 样 上 下 层 就 产生 了 不 一 致 ， 后 果 将 非常 严 
重 。 所 以 一 些 关 键 应 用 (比如 数据 库 ) 都 有 自己 的 检测 一 致 性 的 措 
施 。 也 正 因 为 如 此 ， 中 高 端的 RAID 卡 都 需要 用 电池 来 保护 缓存 ， 从 而 
在 意外 掉 电 的 情况 下 ， 电 池 可 以 持续 对 缓存 进行 供电 ， 保 证 数据 不 丢 


失 。 再 次 加 电 的 时 候 ，RAID 卡 会 首先 将 缓存 中 的 未 完成 的 IO 写 入 磁 
盘 。 

(2) WriteThrough 模 式 : 也 就 是 写 透 模式 ， 即 上 层 的 IO。 只 有 
数据 切切 实 实 被 RAID 控 制 器 写 入 磁盘 之 后 ， 才 会 通知 主机 IO 完成 ， 这 
样 做 保证 了 高 可 靠 性 。 此 时 ， 缓 存 的 提速 作用 融 没 有 优势 了 ， 但 是 其 
缓冲 作用 依然 有 效 。 


除了 作为 写 缓 存 之 外 ， 读 缓存 也 是 非常 重要 的 。 缓 存 算法 是 门 很 
复杂 的 学 问 ， 有 一 套 复杂 的 机 制 ， 其 中 一 种 算法 叫做 PreFetch ， 即 预 
取 ， 也 就 是 对 磁盘 上 接 下 来 “有 可 能 ”被 主机 访问 到 的 数据 ， 在 主机 还 
没有 发 出 读 IO 请 求 的 时 候 ， 就 “擅自 ” 先 读 入 到 缓存 。 这 个 “有 可 能 ”是 
怎么 来 算 的 呢 ? 


其 实 就 是 认为 主机 下 一 次 IO， 有 很 大 几率 会 读 取 到 这 一 次 所 读 取 
的 数据 所 在 磁盘 位 置 相 邻 位 置 的 数据 。 这 个 假设 ， 对 于 连续 IO 顺 序 读 
取 情 况 非 常 运 用， 比如 读 取 逻辑 上 连续 存放 的 数据 ， 这 种 应 用 如 FTP 
大 文件 传输 服务 、 视 频 点 播 服 务 等 ， 都 是 读 大 文件 的 应 用 。 而 如 果 很 
多 碎 小 文件 也 是 被 连续 存放 在 磁盘 上 相 邻 位 置 的 ， 缓 存 会 大 大 提升 性 
能 ， 因 为 读 取 小 文件 需要 的 IOPS 很 高 ， 如 果 没 有 缓存 ， 全 靠 磁 头 寻 道 
来 完成 每 次 IO ， 耗 费时 间 是 比较 长 的 。 


还 有 一 种 缓存 算法 ， 它 的 思想 不 是 预 取 了 ， 它 是 假设 : 主机 下 一 
次 IO， 可 能 还 会 读 取 上 一 次 或 者 上 几 次 (最近 ) 读 取 过 的 数据 。 这 种 
假设 和 预 取 完 全 不 一 样 了 ，RAID 控 制 器 读 取出 一 段 数据 到 缓存 之 后 ， 
如 果 这 些 数 据 被 主机 的 写 IO 更 改 了 ， 控 制 器 不 会 立即 将 它们 写 入 磁盘 
保存 ， 而 是 继续 留 在 缓存 中 ， 因 为 它 假设 主机 最 近 可 能 还 要 读 取 这 些 
数据 ， 既 然 假设 这 样 ， 那 么 就 没有 必要 写 入 磁盘 并 删除 缓存 ， 然 后 等 


主机 读 取 的 时 候 ， 再 从 磁盘 读 出 来 到 缓存 ， 还 不 如 以 静 制 动 ， 干 脆 就 
留 在 缓存 中 ， 等 主机 “折腾 ”的 频率 不 高 了 ， 再 写 入 磁盘 。 


提示 : 中 高 端的 RAID 卡 一 般 具 有 256MB 以 上 的 RAM 作 为 组 
存 。 


8. RAID 配 置 完 后 的 初始 化 过 程 


对 于 校 验 型 RAID， 在 RAID 卡 上 设置 完 RAID 参 数 并 且 应 用 RAID 
设置 之 后 ，RAID 阵 列 中 的 所 有 磁盘 需要 进行 一 个 初始 化 过 程 ， 所 需要 
的 时 间 与 磁盘 数量 、 大 小 有 关 。 磁 盘 越 大 ， 数 量 越 多 ， 需 要 的 时 间 就 
越 长 。 


思考 : RAID 卡 都 向 磁盘 上 写 了 什么 东西 呢 ? 大 家 可 以 想 一 
下 ， 一 块 刚 刚 出 三 的 新 磁盘 ， 上 面 有 没有 数据 ? 


有 。 有 具体 什么 数据 呢 ? 要 么 全 是 0， 要 么 全 是 1。 这 里 所 说 的 全 0 是 
指 实 际 数据 部 分 ， 启 区 头 标 等 一 些 特殊 位 置 除外 。 因 为 磁盘 上 的 磁性 
区 域 就 有 两 种 状态 ， 不 是 N 极 ， 就 是 S 极 。 那 么 也 就 是 说 不 是 0 就 是 1， 
而 不 可 能 有 第 三 种 状态 。 那 么 这 些 0 或 者 1， 算 不 算数 据 呢 ? 当然 要 算 
了 ， 这 些 磁 区 不 会 存在 一 种 介 于 0 和 1 之 间 的 混沌 状态 。 如 果 此 时 用 几 
块 磁盘 做 了 RAID 5， 但 磁盘 上 任何 数据 都 不 做 改动 ， 我 们 看 一 下 此 时 
会 处 于 一 种 什么 状态 ， 比 如 5 块 磁盘 ，4 块 数据 盘 空 间 ，1 块 校 验 盘 空 
间 ， 同 一 个 条 带 上 ，4 块 数据 块 ，1 块 校 验 块 ， 所 有 块 上 的 数据 都 是 全 
0， 那 么 此 时 如 果 按 照 RAID 5 来 算 ， 是 正确 的 ， 因 为 0 XOR 0 XOR 0 
XOR 0 XOR 0 二 0， 对 。 


如 果 一 开始 磁盘 全 是 1， 那 么 同样 地 1 XOR 1 XOR 1 XOR 1 XOR 1 
二 1， 也 对 。 但 是 如 果 用 6 块 盘 做 RAID 5， 而 且 初 始 全 为 1， 情 况 就 矛 
盾 了 。1 XOR 1 XOR 1XOR 1 XOR 1 XOR 1 二 0， 此 时 正确 结果 应 该 是 
校 验 块 为 0， 但 是 初始 磁盘 全 部 为 1， 校 验 块 的 数据 也 为 1， 这 就 和 计算 
结果 相 矛 盾 了 。 


如 果 初 始 化 过 程 不 对 磁盘 数据 进行 任何 更 改 ， 直 接 拿 来 写 数据 ， 
比如 此 时 就 向 第 二 个 extend 上 写 了 一 块 数据 ， 将 1 变 为 0， 然 后 控制 器 
根据 公式 : 新 数据 的 校 验 数据 = ( 老 数 据 EOR 新 数据 ) EOR 来 校 验 
数据 。 (1EOR 0) EOR 1=0， 新 校 验 数据 为 0， 所 以 最 终 数 据 变 成 了 
这 样 : 1 XOR 0 XOR 1 XOR 1 XOR 1 XOR 1。 我 们 算出 它 的 正确 数据 
应 该 等 于 1， 而 由 RAID 控 制 器 算 的 却 成 了 0， 所 以 就 矛盾 了 。 


为 什么 会 犯 这 个 错误 呢 ? 那 是 因为 一 开始 RAID 控 制 器 就 没有 从 一 
个 正确 的 数据 关系 开始 算 ， 校 验 块 的 校 验 数据 一 开始 就 与 数据 块 不 一 
致 ， 导 致 越 算 越 错 。 所 以 RAID 控 制 器 在 做 完 设置 ， 并 启用 之 后 ， 在 初 
始 化 的 过 程 中 需要 将 磁盘 每 个 局 区 都 写成 0 或 者 1， 然 后 计算 出 正确 的 
校 验 位 ， 或 者 不 更 改 数据 块 的 数据 ， 直 接 用 这 些 已 经 存在 的 数据 ， 重 
新 计算 所 有 条 带 的 校 验 块 数据 。 在 这 个 基础 上 ， 新 到 来 的 数据 才 不 会 
被 以 论 传 论 。 


思考 : NetApp 等 产品 ， 其 RAID 组 做 好 之 后 不 需要 初始 化 ， 
立即 可 用 。 甚 至 向 已 经 有 数据 的 RAID 组 中 添加 磁盘 ， 也 不 会 
造成 任何 额外 的 IO。 因 为 其 会 将 所 有 Spare 磁 盘 清 零 ， 也 就 是 
向 磁盘 发 送 一 个 Zero Unit 的 SCSI 指 令 ， 磁 盘 会 自动 执行 清 
零 。 用 这 些 磁 盘 做 的 RAID 组 ， 不 需要 校 验 纠正 ， 所 以 也 不 需 
要 初始 化 过 程 ， 或 者 说 初始 化 过 程 就 是 等 待 磁 盘 清 零 的 过 


程 。 


天 于 Raid 初 始 化 过 程 的 更 详细 的 分 析 可 参考 本 书 附录 1 中 的 问 与 


9. 几 款 RAID 卡 介绍 
1) Mylex AcceleRAID 352 


双 通 道 160M 部 门 级 ， 性 能 强悍 ，BIOS 选 项 极为 人 性 化 ， 在 BIOS 
内 可 以 检测 SCSI 硬 盘 的 出 厂 坏 道 及 成 长 坏 道 ， 而 不 需 借助 软件 。 并 且 
允许 手动 打开 /关闭 硬盘 设备 自身 的 Read cache/Write cache。 还 带 有 电 
闻 。 


详细 信息 如 下 。 


支持 RAID 级 别 : RAID 0、1、0 十 1、3、5、10、30、50、 
JBOD。 


" 处 理 芯 片 : Intel i960RN。 

a 总 线 类 型 : PCI 64b， 兼 容 32b。 

" 外 置 接口 : Ultra 160 SCSI。 

a 数据 传输 速率 : 最 高 160MB/s。 

" 外 接 设 备 数 : 最 多 30 个 SCSI 外 设 。 

内 部 接口 : 双 68 针 高 密 。 

外 部 接口 : 双 68 针 超 高 密 。 

适用 的 操作 系统 : Windows NT 4.0; Windows 2K; NetWare 
4.2、5.1; SCO OpenServer 5.05、 5.0.6; SCO UnixWare 7.1， 
DOS 6.x and above; Solaris 7 (x86) ; Linux 2.2 kernel 


distributionso 


a。 包括 软件 : Storager Manager、 Storager Manager Pro 和 CLI ( 命 
令 分 界面 ) 。 

" 主要 RAID 特 性 : 在 线 扩容 、 瞬 时 阵列 可 用 性 (后 台 初 始 化 ) 、 
支持 S.M.A.R.T、 支 持 SES/SAF-TE。 


图 5-32 和 图 5-33 为 Mylex AcceleRAID 352 卡 实物 图 。 
图 5-32 Mylex AcceleRAID 352 卡 (1) 图 5-33 Mylex AcceleRAID 352 卡 (2) 


2) LSI MegaRAID Enterprise 1600 (AMI 471) 


4 通道 160MB 企 业 / 部 门 级 ，160MB 最 为 顶级 豪华 的 SCSI RAID， 
强大 的 BIOS 选 项 (LSI 独 有 的 Web BIOS) 。 卡 上 系统 缓存 可 详细 调节 
( 除 大 部 分 SCSI RAID 可 以 调节 的 主要 功能 Write back ( 回 写 外 ) ， 增 
加 Read ahead ( 预 读 ) ，Cache IO 等 可 调 选 项 ， 满 足 RAID 的 用 途 需 
要 ， 体 现 各 种 RAID 的 最 高 性 能 ， 带 电池 。 


详细 信息 如 下 。 


支持 RAID 级 别 : RAID 0、1、0 十 1、3、5、10、30、50、 
JBOD。 

处 理 芯 片 : Intel i960RN。 

插 模 类型: PCI 64b、 兼 容 32b。 

总 线 速度 : 66MHz。 

总 线 宽度 : 64b。 

外 置 接口 : Ultra 160 SCSI。 

数据 传输 率 : 160MB/s。 

最 多 连接 设备 : 32。 


= 内 部 接口 : 双 68 针 高 密 。 

a 外 部 接口 : 四 68 针 超 高 密 。 

a 系统 平台 : Windows 95/98/Me/4.0/2000/XP，Linux (Red Hat、 
SuSE、Turbo、Caldera 和 FreeBSD) 。 


图 5-34 为 LSI MegaRAID Enterprise 1600 卡 实物 图 。 
图 5-34 LSI MegaRAID Enterprise 1600 卡 


可 以 看 到 RAID 卡 使 用 的 内 存 就 是 台式 机 的 SDRAM 内 存 ， 有 些 使 
用 DDR SDRAM 内 存 。 


10。 用 Rocket RAID 卡 做 各 种 RAID 


在 一 张 Rocket RAID 卡 上 ， 安 装 了 8 块 IDE 人 磁盘 。 开 机 之 后 ， 在 启 
动 界面 按照 相应 提示 进入 RAID 卡 的 设置 界面 ， 如 图 5-35 所 示 。 


图 5-35 ”磁盘 列表 


可 以 看 到 ， 这 8 块 硬盘 有 着 不 同 的 品牌 、 容 量 以 及 参数 ， 但 它们 都 
是 IDE 接 口 的 ATA 硬 盘 。 


1) RAID 0 组 的 创建 过 程 
(1) 选择 RAID 0: Striping， 如 图 5-36 所 示 。 
图 5-36 ”选择 RAID 0 模式 
(2) 给 新 RAID 0 组 起 名 为 *RAID 0?， 如 图 5-37 所 示 。 


图 5-37 起 名 “RAID 0” 


(3) 在 Select Devices 菜 单 下 ， 选 择 RAID 0 组 所 包含 的 磁盘 ， 如 
图 5-38 和 图 5-39 所 示 。 


图 5-38 ”选择 磁盘 (1) 图 5-39 ”选择 磁盘 (2) 


(4) 接 下 来 ， 在 Block Size 菜 单 下 可 以 为 这 个 RAID 0 组 选择 条 块 
大 小 ， 如 图 5-40 所 示 。 至 于 Block Size 人 参数 是 指 整个 条 带 的 大 小 ， 还 是 
指 条 带 Segment 的 大 小 ， 要 看 厂家 自己 的 定义 。 


图 5-40 ”设置 Block Size 
(5) 选择 Start Creation， 确 定 创建 RAID 组 ， 如 图 5-41 所 示 。 
图 5-41 ”开始 创建 RAID 组 


(6) 创建 完毕 后 ， 主 界面 中 即 显示 出 RAID 人 信息， 如 图 5-42 所 
未。 


图 5-42 RAID 组 的 信息 
接 下 来 我 们 继续 用 以 上 方法 创建 其 他 类 型 的 RAID 组 。 
2) RAID 1 组 的 创建 过 程 


图 5-43 所 示 是 RAID 1 组 的 创建 过 程 ， 可 以 发 现 Start Creation 中 有 
一 个 Duplication 选 项 ， 这 个 选项 的 作用 是 将 源 盘 数据 复制 到 镜像 盘 ， 
而 不 破坏 源 盘 数据 。 如 果 选 择 了 Create Only， 则 会 破坏 源 盘 的 数据 ， 
重新 创建 干净 的 RAID 1 组 。 


图 5-43 ”创建 RAID 1 组 


3) 创建 一 个 3 块 盘 组 成 的 RAID 5 组 


提示 : 在 Start Creation 荣 单 中 有 两 个 选项 ， 一 个 为 Zero 
Build， 另 一 个 为 No Build， 如 图 5-44 所 示 。Zero Build 指 将 所 
有 数据 作废 ， 从 零 开 始 生成 数据 的 校 验 值 。No Build 指 不 计 
算数 据 校 验 值 ， 如 果 用 户 能 保证 RAID 5 组 中 的 磁盘 原来 是 处 
于 一 致 性 状态 的 ， 则 可 以 用 这 个 选项 来 节约 时 间 ， 人 否则 不 要 
选择 这 个 选项 。 

图 5-44 ”两 个 选项 


如 果 选 择 No Build 选 项 ， 则 会 显示 警告 信息 ， 如 图 5-45 所 示 。 


按 Y 键 即 可 完成 RAID 5 组 的 创建 。 


至 此 ， 我 们 创建 了 RAID 0、RAID 1 和 RAID 5 三 个 RAID 组 ， 如 图 
5-46 所 示 。 


图 5-46 三 个 RAID 组 的 信息 


4) 删除 RAID 组 


如 果 对 创建 的 RAID 组 不 满意 ， 可 以 删除 重建 ， 具 体操 作 如 图 5-47 
和 图 5-48 所 示 。 


图 5-47 删除 RAID 组 图 5-48 ”确认 信息 


5) 添加 全 局 热 备 磁盘 


此 外 ， 还 可 以 添加 全 局 热 备 磁盘 。 切 换 到 Add/Remove Spare 菜 
单 ， 如 图 5-49 所 示 。 


图 5-49 ”添加 全 局 热 备 盘 


由 于 当前 系统 中 只 有 一 块 空 闪 磁 盘 ， 所 以 我 们 就 将 这 块 磁盘 作为 
全 局 热 备 磁盘 ， 操 作 如 图 5-50 和 图 5-51 所 示 。 如 果 任何 RAID 组 中 有 磁 
盘 损 坏 的 话 ，RAID 卡 将 利用 这 块 热 备 磁盘 来 顶替 损坏 的 磁盘 ， 将 数据 
重新 同步 到 这 块 磁盘 上 。 


图 5-50 ”确认 信息 图 5-51 ”磁盘 状态 


6) 设置 启动 标志 


由 于 系统 要 从 安装 有 操作 系统 的 磁盘 上 启动 ， 所 以 必须 让 RAID 卡 
知道 哪个 逻辑 磁盘 是 启动 磁盘 。 有 具体 设置 如 图 5-52 玉 图 5-54 所 示 。 


图 5-52 ”设置 启动 盘 (1) 图 5-53 ”设置 启动 盘 (2) 图 5-54 ”设置 启动 盘 (3) 


在 将 RAID 1 组 形成 的 逻辑 磁盘 作为 启动 磁盘 后 ， 可 以 看 见 右 边 的 
“BOOT” 标 志 。 


7) 设置 访问 各 个 磁盘 的 模式 参数 


在 Device Mode 菜 单 下 ， 可 以 设置 访问 各 个 磁盘 的 模式 参数 ， 如 图 
5-55 和 图 5-56 所 示 。 


图 5-55 “设置 磁盘 参数 (1) 图 5-56 “设置 磁盘 参数 (2) 


8) 查看 所 有 设备 


在 View 菜 单 下 ， 可 以 查看 所 有 设备 、 所 有 RAID 组 和 所 有 逻辑 磁 
盘 (由 于 这 块 卡 不 具有 在 RAID 组 中 再 次 划分 逻辑 磁盘 的 功能 ， 所 以 每 
个 逻辑 组 只 能 作为 一 个 逻辑 磁盘 ) ， 如 图 5-57 和 图 5-58 所 示 。 


图 5-57 RAID 组 状态 (1) 图 5-58 ”RAID 组 状态 (2) 


5.3 ”磁盘 阵列 


RAID 卡 的 出 现 着 实 让 存储 领域 变 得 红火 起 来 ， 几 乎 每 台 服 务 器 都 
标 配 RAID 卡 或 者 集成 的 RAID 心 片 。 一 直到 现在 ， 虽 然 磁 盘 阵 列 技术 
高 度 发 展 ， 各 种 盘 阵 产品 层出不穷 ， 但 RAID 卡 依然 是 服务 器 不 可 缺少 
的 一 个 部 件 。 


然而 ，RAID 卡 所 能 接 入 的 通道 毕竟 有 限 ， 因 此 人 们 迫切 希望 创造 
一 种 可 以 接 入 众多 磁盘 、 可 以 实现 RAID 功 能 并 且 可 以 作为 集中 存储 的 
大 规模 独立 设备 。 最 终 ， 磁 盘 阵 列 在 这 种 需求 中 诞生 了 。 


磁盘 阵列 的 出 现 是 存储 领域 的 一 个 里 程 碑 。 关 于 磁盘 阵列 的 描 
述 ， 我 们 将 在 本 书 第 6 章 中 详细 介绍 。 


在 7 种 RAID 形 式 的 基础 上 ， 还 可 以 进行 扩展 ， 以 实现 更 高 级 的 
RAID。 由 于 RAID 0 无 疑 是 所 有 RAID 系 统 中 最 快 的 ， 所 以 将 其 他 RAID 
形式 与 RAID 0 杂交 ， 将 会 生成 更 多 新 奇 的 品种 。 将 RAID 0 与 RAID 1 
结合 ， 生 成 了 RAID 10; 将 RAID 3 与 RAID 0 结合 ， 生 成 了 RAID 30; 
将 RAID 5 与 RAID 0 结合 ， 生 成 了 RAID 50。 


5.3.1 RAID 50 


图 5-59 是 一 个 RAID 50 的 模型 ，RAID 30 与 其 类 似 。 控 制 器 接收 到 
主机 发 来 的 数据 之 后 ， 按 照 RAID 0 的 映射 关系 将 数据 分 块 ， 一 部 分 存 
放 于 左边 的 RAID 5 系统 ， 另 一 部 分 存放 在 右边 的 RAID 5 系统 。 左 边 的 
RAID 5 系统 再 次 按照 RAID 5 的 映射 关系 将 这 一 部 分 数据 存放 于 5 块 磁 
盘 中 的 若干 块 ， 另 一 边 也 进行 相同 的 过 程 。 


图 5-59 ”RAID 50 模 型 


实际 中 ， 控 制 器 不 可 能 物理 地 进行 两 次 运算 和 写 IO， 这 样 效率 很 
低 。 控 制 器 可 以 将 RAID 0 和 RAID 5 的 映射 关系 方程 组 合成 一 个 函数 关 
系 方程 ， 这 样 直接 代入 逻辑 盘 的 LBA， 便 可 得 出 整个 RAID 50 系 统 中 
所 有 物理 磁盘 将 要 写 入 或 者 读 取 的 相应 LBA 地 址 ， 然 后 统一 向 磁盘 发 
送 指令 。 左 边 的 RAID 5 系统 和 右边 的 RAID 5 系统 分 别 允 许 损坏 一 块 磁 
盘 而 不 影响 数据 。 但 是 如 果 在 任何 一 边 的 RAID 系 统 同 时 或 者 先后 损坏 
了 两 块 或 者 更 多 的 盘 ， 则 整个 系统 的 数据 将 无 法 使 用 。 


5.3.2 RAID 10 和 RAID 01 


RAID 10 和 RAID 01 看 起 来 差不多 ， 但 是 本 质 上 有 一 定 区 别 。 图 5- 
60 是 一 个 RAID 10 的 模型 。 


图 5-60 ”RAID 10 模 型 


如 果 某 时 刻 ， 左 边 的 RAID 1 系统 中 有 一 块 磁盘 损坏 ， 此 时 允许 再 
次 损坏 的 磁盘 就 剩 下 两 块 ， 也 就 是 右边 的 RAID 1 系统 中 还 可 以 再 损坏 
任意 一 块 磁盘 ， 而 整体 数据 仍然 是 可 用 的 。 我 们 暂且 说 这 个 系统 的 见 
余 度 变 成 了 2。 


图 5-61 是 一 个 RAID 01 的 模型 。 


图 5-61 RAID 01 模 型 


如 果 某 时 刻 ， 左 边 的 RAID 0 系统 中 有 一 块 磁盘 损坏 ， 此 时 左边 的 
RAID 0 系统 便 没 有 丝毫 作用 了 。 所 有 的 IO 均 转 向 右边 的 RAID 0 系统 。 
而 此 时 ， 仅 仅 允 许 左边 剩余 的 那 块 磁 盘 损 坏 。 如 果 右 边 任何 一 块 磁盘 
损坏 ， 则 整体 数据 将 不 可 用 。 所 以 这 个 系统 的 元 余 度 变 成 了 1， 即 只 
许 损坏 特定 的 一 块 磁盘 (左边 RAID 0 系统 剩余 的 磁盘 ) 。 


综 上 所 述 ，RAID 10 系 统 要 比 RAID 01 系 统 宛 余 度 高 ， 安 全 性 高 。 


5.4 ”虚拟 磁盘 


话说 张 真 人 送 走 了 七 星 大 侠 之 后 ， 面 对 江湖 上 的 浮躁 ， 有 昔 难 
言 。 这 江湖 还 能 出 一 个 像 七 星 这 样 的 之 侠 吗 ? 难 啊 ! 七 星 北斗 阵 ， 多 
么 完美 的 一 个 阵 式 ! 七 星 老 前 辈 用 尽 毕 生 心 血 ， 创 立 了 7 种 阵 式 ， 将 单 
个 磁盘 组 成 盘 阵 ， 提 高 整体 性 能 ! 可 是 很 少 有 人 能 体会 到 这 个 阵 式 的 
精髓 ， 包 括 创建 他 的 七 星 ， 都 不 一 定 。 张 真人 自从 七 星 走 后 ， 一 直 处 
于 深度 悲痛 之 中 ， 悔 恨 当 初 为 什么 没有 抽 时 间 向 七 星 拜 师 学 艺 ! 如 今 
只 能 守 着 一 本 老 侠 留 下 来 的 《七 星 北斗 阵 式 》 天 天 仔细 研读 ， 以 求 找 
到 什么 灵感 ， 来 继续 发 扬 老 侠 的 这 门 绝技 。 


就 这 样 过 去 了 20 年 。 张 真人 已 经 由 年 轻 小 伙 变 成 了 稳重 善 思 的 中 
年 人 。 他 凭借 优秀 的 武艺 和 才华 ， 来 到 武当 山 创 立 了 道观 ， 并 收 下 了 7 
位 徒弟 ， 以 纪念 七 星 北 斗 之 豪情 ! 张 真人 每 晚 休 息 之 前 ， 都 要 对 着 七 
星 北斗 拜 三 拜 。20 多 年 过 去 了 ， 北 斗 的 光 到 依然 是 那么 耀眼 ， 依 然 看 
着 世间 纷争 ， 昼 夜 交替 。 


这 20 年 是 科技 飞速 发 展 的 20 年 。 铁 匠 们 的 技艺 提高 很 快 ， 新 技术 
不 断 被 创造 出 来 。 大 容量 、 高 速度 的 磁盘 在 地 摊 卖 10 文 钱 一 斤 。 


某 天 张 老 道 下 山 溜 达 ， 发 现 地 摊 上 的 磁盘 品质 还 不 错 ， 比 20 年 前 
的 货 强 太 多 了 ， 响 手 就 买 了 50 斤 回去 。 点 了 点 ， 足 足 50 块 。 他 让 他 的 7 
位 徒 第， 分 别 按照 七 星 阵 摆 上 各 种 阵 形 ， 来 的 鼓 这 50 块 硬盘 。7 位 徒弟 
早 就 对 七 星 阵 烂 熟 于 心 ， 把 这 50 块 磁盘 的 鼓 得 非常 顺 。 张 老道 频频 点 
头 ， 心 里 想 着 :“ 咽 ， 真 应 了 那 句 话 啊 。 长 江 后 浪 推 前 浪 ， 一 代 新 人 换 
上 日 人 ! ”摆弄 了 一 阵 之 后 ， 徒 弟 们 都 累 了 。 这 次 格外 地 累 ， 不 禁 都 坐 在 
地 上 休息 。 老 道 把 眼 一 瞪 ,“ 咽 起 ! ! ! 年 轻 人 ， 不 好 好 练功 ! 不 准 偷 
懒 ! ”徒弟 们 上 前 道 :“ 师 父 ， 不 是 我 们 偷懒 ， 这 次 您 买 的 磁盘 和 以 前 
的 不 一 样 。 我 们 在 出 招 的 时 候 ， 就 是 在 “化 龙 ; 这 一 招 的 时 候 特 别 吃 
力 。 这 条 龙 太 大 ， 不 好 操控 。” 老 道 一 看 ， 果 然 ， 这 50 块 磁盘 每 块 足 有 
1TB 大 ，50 块 就 是 50TB。“ 唾 吐 ，20 年 前 一 块 磁盘 最 多 也 就 是 5OMB， 


没 想到 啊 ! ” 


这 天 晚上 ， 老 道 用 完 粗 茶 淡 饭 之 后 ， 遥 望 北斗 , 心 想 : 七 星 老 侠 
在 天 上 不 知道 看 见 此 情 此 景 ， 会 给 我 什么 启示 呢 ? 20 年 前 ， 用 此 阵 式 
生成 的 虚拟 磁盘 ， 大 小 也 不 过 几 GB ， 而 如 今 已 经 达到 了 TB 级 别 ， 也 
难怪 我 那些 徒 儿 们 会 吃不消 。 怎 么 办 呢 ? 需要 把 这 以 TB 论 的 虚拟 磁盘 
再 次 划分 开 来 ， 划 分 成 多 条 “小 龙 ”， 这 样 就 可 以 灵活 操控 了 。 而 且 针 
对 目前 的 磁盘 超大 的 容量 ， 完 全 可 以 在 一 个 阵 中 同时 应 用 多 种 阵 式 。 
比如 让 我 7 位 徒 第， 其 中 3 人 摆 出 RAID 0 阵 式 ， 另 外 4 人 同时 摆 出 RAID 
5 阵 式 ， 共 同 出 招 。 对 每 个 阵 式 生成 虚拟 “ 龙 盘 ?， 把 它 划分 成 众多 小 的 
“ 龙 盘 ”， 这 样 对 外 不 但 我 们 的 威力 没有 减少 ， 而 且 可 以 灵活 运用 ， 让 
敌人 不 知道 我 们 到 底 有 几 个 人 。 


张 老 道 决 定 将 大 龙 盘 划分 成 小 龙 盘 ， 这 事 十 分 好 办 ， 只 需 体 现在 
“心中 ?就 可 以 了 。 只 要 你 心中 有 数 ， 那 些 物 理 磁 盘 的 哪 部 分 区 域 属 于 
哪个 小 龙 盘 ， 就 完全 可 以 对 外 通告 了 。 老 道 称 这 种 技术 为 逻辑 盘 技 
术 。 


5.4.1 RAID 组 的 再 划分 


实际 中 ， 比 如 用 5 块 100GB 的 磁盘 做 了 一 个 RAID 5， 那 么 实际 数 
据 空 间 可 以 到 400GB ， 剩 余 100GB 空 间 是 校 验 空 间 。 如 果 将 这 400GB 
虚拟 成 一 块 盘 ， 不 够 灵活 。 且 如 果 OS 不 需要 这 么 大 的 磁盘 ， 就 没 法 办 
了 。 所 以 要 再 次 划分 这 400GB 的 空间 ， 比 如 划分 成 4 块 100GB 的 逻辑 磁 
盘 。 而 这 逻辑 盘 虽 然 也 是 100GB， 但 是 并 不 同 于 物理 盘 ， 向 逻辑 盘 写 
一 个 数据 会 被 RAID 计 算 ， 而 有 可 能 写 向 多 块 物理 盘 ， 这 样 就 提升 了 性 
能 ， 同 时 也 得 到 了 保护 。 纵 使 RAID 组 中 坏 掉 一 块 盘 ， 操 作 系 统 也 不 会 
感知 到 ， 它 看 到 的 仍然 是 100GB 的 磁盘 。 


5.4.2 ”同一 通道 存在 多 种 类 型 的 RAID 组 


不 仅 如 此 ， 老 道 还 想到 了 在 一 个 阵 式 中 同时 使 用 多 种 阵 法 的 方 
式 。 


实际 中 ， 假 设 总 线 上 连接 有 8 块 100GB 的 磁盘 ， 我 们 可 以 利用 其 中 
的 5 块 磁盘 来 做 一 个 RAID 5， 而 后 再 利用 剩余 的 3 块 磁盘 来 做 一 个 
RAID 0， 这 样 ，RAID 5 的 可 用 数据 空间 为 400GB ， 校 验 空 间 为 
100GB，RAID 0 的 可 用 数据 空间 为 300GB。 而 后 ，RAID 5 和 RAID 0 各 
自 的 可 用 空间 ， 又 可 以 根据 上 层 OS 的 需求 ， 再 次 划分 为 更 小 的 逻辑 磁 
盘 。 这 样 就 将 七 星 北 斗 阵 灵活 地 运用 了 起 来 ， 经 过 实践 的 检验 ， 这 种 
应 用 方法 得 到 了 巨大 的 推广 和 成 功 。 


张 老道 给 划分 逻辑 盘 的 方法 取 名 为 巧 化 神龙 ， 将 同一 个 阵 中 同时 
使 用 多 种 阵 式 的 方法 叫做 神龙 七 变 。 


5.4.3 ”操作 系统 如 何 看 待 逻辑 磁盘 


目前 各 种 RAID 卡 都 可 以 划分 逻辑 盘 ， 逻 辑 盘 大 小 任意 设置 。 每 个 
逻辑 盘 对 于 OS 来 说 都 认 成 一 块 单独 的 物理 磁盘 。 这 里 不 要 和 分 区 搞 
瘟 ， 分 区 是 OS 在 一 块 物理 磁盘 上 做 的 再 次 划分 。 而 RAID 卡 提供 给 OS 
的 ， 任 何 时 候 ， 都 是 一 块 或 者 几 块 远 辑 盘 ， 也 就 是 OS 认 成 的 物理 磁 
盘 。 而 OS 在 这 个 磁盘 上 ， 还 可 以 进行 分 区 、 格 式 化 等 操作 。 


5.4.4 ”RAID 控制 器 如 何 管理 逻辑 磁盘 


下 面 说 一 下 RAID 卡 对 逻辑 磁盘 ”图 02 DDF 布局 图 
进行 再 次 划分 的 具体 细节 。 既 然 要 
划分 ， 就 要 心中 有 数 ， 比 如 某 块 磁盘 的 某 个 区 域 ， 划 分 给 哪个 逻辑 盘 
用 ， 对 应 逻辑 盘 的 LBA 地 址 是 多 少 ， 这 块 磁盘 的 RAID 类 型 是 什么 等 。 
而 这 些 东 西 不 像 RAID 了 映射 那样 根据 几 个 简单 的 参数 就 能 确定 ， 而 且 对 
应 关系 是 可 以 随时 变化 的 ， 比 如 扩大 和 缩小 、 移 动 等 。 所 以 有 必要 在 
每 块 磁盘 上 保留 一 个 区 域 ， 专 门 记录 这 种 逻辑 盘 划 分 信息 、RAID 类 型 
以 及 组 内 的 其 他 磁盘 信息 等 ， 这 些 信息 统称 为 RAID 人 信息。 不 同 厂家 、 
不 同 品牌 的 产品 实现 起 来 不 一 样 ，SNIA 委 员 会 为 了 统一 RAID 信 息 的 
格式 ， 专 门 定义 了 一 种 叫做 DDF 的 标准 ， 如 图 5-62 所 示 。 


图 5-63 所 示 的 是 微软 和 Veritas 公 司 合 作 开 发 的 软 RAID 在 磁盘 最 末 
1MB 空 间 创 建 的 数据 结构 。 有 了 这 个 记录 ，RAID 模 块 只 要 读 取 同一 个 
RAID 子 系统 中 每 块 盘 上 的 这 个 记录 ， 就 能 够 了 解 RAID 人 信息。 即使 将 


这 些 磁盘 打 乱 顺序 ， 或 者 拿 到 其 他 支持 这 个 标准 的 控制 器 上 ， 也 照样 
能 够 认 到 所 划分 好 的 逻辑 盘 等 所 有 需要 的 信息 。 


图 5-63 “Windows 系 统 中 的 动态 磁盘 信息 


RAID 卡 可 以 针对 总 线 上 的 某 几 块 磁盘 做 一 种 RAID 类 型 ， 然 后 针 
对 另外 的 几 块 磁盘 做 另 一 种 RAID 类 型 。 一 种 RAID 类 型 中 包含 的 磁盘 
共同 组 成 一 个 RAID Group ， 简 称 RG。 逻 辑 盘 就 是 从 这 个 RG 中 划分 出 
来 的 ， 原 则 上 逻辑 盘 不 能 跨 RG 来 划分 ， 就 是 说 不 能 让 一 个 逻辑 盘 的 一 
部 分 处 于 一 个 RG， 另 一 部 分 处 于 另 一 个 RG。 因 为 RG 的 RAID 类 型 不 
一 样 ， 其 性 能 也 就 不 一 样 ， 如 果 同 一 块 逻辑 盘 中 出 现 两 种 性 能 ， 对 上 
层 应 用 来 说 不 是 件 好 事 ， 比 如 速度 可 能 会 忽 快 忽 慢 等 。 


张 真人 推出 了 这 两 门 绝技 之 后 ， 在 江湖 上 引起 了 轩然大波 。 大 家 
争 相 修炼 ， 并 取得 了 良好 的 效果 。 一 时 间 ， 江 湖上 几乎 人 人 都 练 了 张 
真人 这 两 门 功夫 。 而 且 各 大 门派 已 经 将 七 星 北 斗 阵 以 及 张 真人 的 功夫 
作为 各 派 和 弟子 必须 掌握 的 基本 功 。 


近水楼台 先 得 月 。 武 当 七 子 当 然 已 经 把 功夫 练 到 了 炉火纯青 的 地 
步 。 老 道 非常 欣慰 。 他 相信 了 七 星 侠 在 天 之 灵 倘 若 看 到 了 这 阵 式 被 拓 
展 ， 一定 也 会 感到 欣慰 的 。 


5.5” 卷 管理 层 

老道 创立 这 两 门 功夫 的 兴奋 ， 很 快 就 被 一 个 不 大 不 小 的 问题 给 吹 
得 烟消云散 。 这 个 问题 就 是 一 旦 逻辑 盘 划 分 好 之 后 就 无 法 改变 ， 要 改 
变 也 行 ， 上 面 的 数据 就 得 全 部 抹 掉 ， 这 是 让 人 无 法 容忍 的 。 比 如 已 经 
做 好 了 一 个 100GB 的 逻辑 盘 ， 但 是 用 了 两 年 以 后 ， 发 现 数据 越 来 越 


多 ,已 经 盛 不 下 了 。 但 又 不 能 放 到 别 的 磁盘 ， 因 为 受 上 层 文件 系统 的 
限制 ， 一 个 文件 不 可 能 跨越 多 个 分 区 来 存放 ， 更 别提 跨越 多 个 磁盘 
了 。 如 果 有 一 个 文件 已 经 超过 了 100GB， 那 么 谁 也 无 力 回 天 ， 只 能 重 
新 划分 逻辑 盘 。 数 据 怎 么 办 ? 这 问题 遇 不 到 则 已 ， 遇 到 了 就 是 死路 一 
条 。 江 湖上 已 经 有 不 少 生 意 人 因为 这 个 问题 而 倾家荡产 ， 他 们 无 奈 之 
余 ， 准 备 联合 起 来 到 武当 恳求 张 老道 想 一 个 办 法 ， 以 克服 这 个 难关 ， 
好 让 他 们 东山 再 起 。 张 老道 对 他 们 的 遭遇 深 感 同情 ， 同 时 也 责怪 自己 
当初 踊 忽 了 这 个 问题 。 于 是 他 当众 许 下 承诺 : 3 个 月 之 后 ， 来 武当 取 解 
决 办 法 。 


5.5.1 有 了 人 逻辑 盘 就 万 事 大 吉 了 么 ? 
1。 踏破 铁 鞋 无 砚 处 一 一 寻找 更 加 灵活 的 磁盘 卷 管理 方式 


其 实 张 真人 许 下 3 个 月 的 时 间 ， 他 自己 也 军 无 把 握 。 但 是 为 了 平息 
众怒 ， 也 只 能 冒险 赌 一 次 了 ! 送 走 众人 之 后 ， 张 老道 就 开始 天 天 思 
解决 这 个 问题 的 办 法 。 他 想 : 到 底 怎么 样 才能 让 使 用 者 运用 自如 呢 ? 
如 果 一 开始 就 给 它 划 分 一 个 100GB 的 逻辑 盘 ， 如 果 数 据 盛 不 下 了 ， 此 
时 把 其 他 磁盘 上 未 使 用 的 空间 挪 一 部 分 到 这 个 逻辑 盘 ， 岂 不 是 就 可 以 
了 么 ? 


可 以 是 可 以 ， 但 从 RAID 卡 设置 里 增加 或 减少 逻辑 盘 容 量 很 费 功 
夫 。 在 RAID 卡 里 增加 这 种 代码 ， 修 炼 成 本 很 高 ， 而 且 即 使 实现 了 ， 主 
机 也 不 能 立即 感应 到 容量 变化 。 即 使 感应 到 了 ， 也 不 能 立即 变更 。 对 
于 Windows 系 统 来 说 ， 必 须 将 其 创建 为 新 的 分 区 。 想 要 合并 到 现 有 分 
区 ， 必 须 用 第 三 方 分 区 表 调 整 工 具 在 不 局 动 操作 系统 的 情况 下 来 修改 
分 区 表 才 行 。 再 者 ， 其 上 的 文件 系统 不 一 定 会 跟着 扩大 ，NTFS 这 种 文 


件 系统 不 能 动态 张 缩 ， 也 必须 在 不 启动 操作 系统 的 条 件 下 用 第 三 方 工 
具 调整 。 这 种 方法 对 一 些 要 求 不 间断 服务 的 应 用 服务 器 并 不 适用 。 


老道 想到 这 里 ， 觉 得 至 少 已 经 找到 了 一 种 解决 办 法 ， 虽然 不 是 很 
方便 ， 需 要 重启 主机 ， 之 后 再 在 RAID 卡 中 更 改 配置 。 更 改 完毕 后 ， 可 
能 还 要 重启 一 次 ， 然 后 进入 系统 ， 系 统 才 能 认 出 新 容量 的 磁盘 。 而 OS 
就 算 正确 认 出 了 新 增 的 磁盘 容量 ， 由 于 分 区 表 没 有 改变 ， 新 增 容量 不 
属于 任何 一 个 分 区 ， 还 是 不 能 被 使 用 ， 所 以 还 需要 手动 修改 分 区 表 。 
太 复 杂 、 太 麻烦 了 ， 能 否 找 一 种 方便 快捷 的 方法 呢 ? 


2. 得 来 全 不 费 工夫 一 一 来 源 于 现实 的 刺激 


话说 冬至 这 天 ， 天 上 飘 着 雪花 。 武 当 山 张 灯 结 彩 ， 喜 气 洋洋 ! 这 
天 是 张 真人 的 70 大 寿 ! 江湖 各 大 门派 及 各 路 英雄 纷纷 前 来 拜 寿 。 武 当 
上 下 忙 得 是 不 亦 乐平 ! 就 说 包 饺 子 吧 ， 一 会 儿 面 不 够 了 去 和 面 ， 一 会 
儿 水 不 够 了 去 挑 水 。 张 真人 是 往来 作 握 ， 笑 迎 来 宾 。 厨 房 则 加 紧 和 
面 ， 由 于 厨 房 空 间 太 小 ， 所 以 和 好 的 面 被 运往 各 个 分 理 点 处 ， 那 里 有 
小 道士 负责 失 皮 、 包 饺子 。 张 真人 看 着 眼前 这 小 老道 跑 来 跑 去 的 多 少 
回 了 ， 就 纳 疝 了 ， 所 以 跟着 去 看 看 怎么 回 事 。 一 看 才 知 道 ， 弄 了 半天 
是 往 各 处 运 面团 呢 ! 觉得 挺 好 笑 的 ， 也 没 当 回 事 。 等 大 家 都 差不多 到 
齐 了 ， 共 同 给 老道 祝 了 寿 ， 然 后 就 上 饺子 了 。 张 老道 看 着 砚 里 一 个 个 
的 饺子 ， 再 想 想 刚才 那 面 团 的 事 ， 心 里 突然 一 动 ! 于 是 当众 宣布 ， 一 
个 月 前 自己 承诺 的 约定 过 不 了 几 天 就 会 实现 了 ! 众 豪 杰 都 鼓 起 掌 来 ! 


提示 : 张 老道 到 底 想到 了 什么 呢 ? 原来 ， 他 想起 了 小 道 包 饺 
子 和 面 的 情形 。 厨 房 和 了 一 大 团 面 ， 下 面 随 用 随 取 。 不 够 
了 ， 割 一 块 揉 进去 就 行 了 ， 或 者 帮 下 一 块 来 放 着 下 次 用 。 这 
不 正解 决 了 一 个 月 前 大 家 所 头疼 的 问题 吗 ? RAID 控 制 器 和 好 


了 几 团 面 《逻辑 盘 ) ， 放 那 由 自己 看 着 用 ， 哪 不 够 了 就 帮 块 
补 上 。 必须 实现 这 样 一 种 像 儿 面团 一 样 灵活 的 管理 层 ， 才 能 
最 终 解 决 使 用 中 出 现 的 问题 。 是 啊 ， 说 得 简单 ， 可 是 具体 要 
做 却 不 是 那么 容易 的 。 


当天 了 晚上， 老道 睡觉 的 时 候 束 一 个 劲 地 想 ， 在 RAID 控 制 器 上 车 
面 ， 以 前 也 分 析 过 了 ， 不 合适 ， 那 么 在 哪里 天 呢 ? RAID 控 制 器 给 你 和 
了 几 斤 面 ， 你 就 得 收 着 ， 不 要 也 不 行 。 但 是 面 收 着 了 ， 你 可 以 自己 夺 
呀 ， 是 啊 ， 自 己 玫 。 那 么 就 是 说 ，RAID 控 制 器 提交 给 OS 的 逻辑 磁 
盘 。 应 该 可 以 帮 开 ， 或 者 揉搓 到 一 块 儿 去 ， 可 以 想 怎么 揉搓 就 怎么 抒 
搓 。 这 功能 如 果 能 通过 在 操作 系统 上 运行 一 层 软 件 来 实现 的 话 ， 不 但 
灵活 ， 而 且 管理 方便 ! 想到 这 ， 老 道 心里 有 了 底 。 


第 二 天 ， 老 道 就 让 徒弟 们 按照 他 写 的 口诀 来 实现 他 这 个 想法 ， 大 
获 成 功 ! RAID 控 制 器 是 硬件 底层 实现 RAID， 实 现 逻 辑 盘 ， 所 以 操作 
起 来 不 灵活 。 如 果 在 OS 层 再 把 RAID 控 制 器 提交 上 来 的 逻辑 盘 (OS 会 
认 成 不 折 不 扣 的 物理 磁盘 ) 加 以 组 织 、 再 分 配 ， 就 会 非常 灵活 。 因 为 
OS 层 上 运行 的 都 是 软件 ， 完 全 靠 CPU 来 执行 ， 而 不 用 考虑 太 多 的 细 
节 。 张 老道 立即 将 这 种 新 的 掌 法 公布 天 下 ， 称 作 神 仙 驾 龙 ! 


5.5.2 ”深入 卷 管理 层 


实际 中 ， 有 很 多 基于 这 种 思想 的 产品 ， 这 些 产品 都 有 一 个 通用 的 
名 称 ， 叫 做 卷 管理 器 (Volume Manager，VM) 。 上 比如 微软 在 Win2000 
中 引入 的 动态 磁盘 ， 就 是 和 Veritas 公 司 合作 开发 的 一 种 VM ， 称 为 
LDM (逻辑 磁盘 管理 ) 。YVeritas 自 己 的 产品 Veritas Volume Manager 

(VxVM) 和 广泛 用 于 Linux、AIX、HPUX 系 统 的 LVM (Logical 
Volume Manager) ， 以 及 用 于 Sun Solaris 系 统 的 Disk Suite， 都 是 基于 


这 种 在 OS 层面 ， 将 OS 识别 到 的 物理 磁盘 (可 以 是 真正 的 物理 磁盘 ， 
也 可 以 是 经 过 RAID 卡 虚拟 化 的 逻辑 磁盘 ) 进行 组 合 ， 并 再 分 配 的 软 
件 。 它 们 的 实现 方法 大 同 小 异 ， 只 不 过 细节 方面 有 些 差异 轻 了 。 


这 里 需要 重点 讲 一 下 LVM， 因 为 它 的 应 用 非常 普遍 。LVM 开 始 是 
在 Linux 系 统 中 的 一 种 实现 ， 后 来 被 广泛 应 用 到 了 AIX 和 HPUX 等 系统 


上 。 


PV: LVM 将 操作 系统 识别 到 的 物理 磁盘 (或 者 RAID 控 制 器 提 
交 的 逻辑 磁盘 ) 改 了 个 叫 法 ， 叫 做 Physical Volume， 即 物理 卷 
(一 块 面 团 ) 。 

VG: 多 个 PV 可 以 被 逻辑 地 放 到 一 个 VG 中 ， 也 就 是 Volume 
Group 卷 组 。VG 是 一 个 虚拟 的 大 存储 空间 ， 有 逻辑 上 是 连续 的 ， 
尽管 它 可 以 由 多 块 PV 组 成 ， 但 是 VG 会 将 所 有 的 PV 首 尾 相连 ， 
组 成 一 个 逻辑 上 连续 编 址 的 大 存储 池 ， 这 就 是 VG。 

PP: 也 就 是 Physical Partition (物理 区 块 ) 。 它 是 在 逻辑 上 再 将 
一 个 VG 分 割 成 连续 的 小 块 (把 一 大 盆 面 厂 成 大 小 相等 的 无 数 块 
小 面团 块 ) 。 注 意 ， 是 逻辑 上 的 分 割 ， 而 不 是 物理 上 的 分 割 ， 
也 就 是 说 LVM 会 记录 PP 的 大 小 (由 几 个 扇 区 组 成 ) 和 PP 序号 的 
偏 移 。 这 样 就 相当 于 在 VG 这 个 大 池 中 响 序 切割 ， 如 果 设 定 一 个 
PP 大 小 为 4MB ， 那 么 这 个 PP 就 会 包含 8192 个 实际 物理 磁盘 上 的 
扇 区 。 如 果 PV 是 实际 的 一 块 物理 磁盘 ， 那 么 这 些 扇 区 就 是 连续 
的 。 如 果 PV 本 身 是 已 经 经 过 RAID 控 制 器 虚拟 化 而 成 的 一 个 
LUN， 那 么 这 些 扇 区 很 有 可 能 位 于 若干 条 带 中 ， 也 就 是 说 这 
8192 个 扇 区 物理 上 不 一 定 连 续 。 

LP: PP 可 以 再 次 组 成 LP， 即 Logical Partition (逻辑 区 块 ) 。 逻 
辑 区 块 是 比较 难 理解 的 ， 一 个 LP 可 以 对 应 一 个 PP， 也 可 以 对 应 


多 个 PP。 前 者 对 应 前 后 没什么 区 别 。 后 者 又 分 两 种 情况 : 一 种 
为 多 个 PP 组 成 一 个 大 LP， 像 RAID 0 一 样 ; 另 一 种 是 一 个 LP 对 
应 几 份 PP， 这 几 份 PP 每 一 份 内 容 都 一 样 ， 类 似 于 RAID 1， 多 个 
PP 内 容 互 为 镜像 ， 然 后 用 一 个 LP 来 代表 它们 ， 往 这 个 LP 写 数 
据 ， 也 就 同时 写 入 了 这 个 LP 对 应 的 几 份 PP 中 。 

LV: 若干 LP 再 经 过 连续 组 合 组 成 LV (Logical VoLUNme， 人 逻辑 
卷 ) ， 也 就 是 LVM 所 提供 的 最 终 可 用 来 存储 数据 的 单位 。 生 成 
的 逻辑 卷 ， 在 主机 看 来 还 是 和 普通 磁盘 一 样 ， 可 以 对 其 进行 分 
区 、 格 式 化 等 。 


思考 : 有 人 问 了 ,一 堆 面 团 揉 来 抒 去 ， 最 终 又 变 成 一 堆 面 团 
了 ， 你 这 是 揉 面 还 是 做 存储 呢 ? 


确实 ， 面 团 最 终 还 是 面团 。 但 是 此 面团 非 彼 面团 。 最 终 形成 的 这 
个 LV， 它 的 大 小 可 以 随时 变更 ， 也 不 用 重启 OS， 你 想 给 扩 多 大 就 扩 多 
大 ， 前 提 是 面盆 里 面 还 有 被 儿 开 备用 的 PP。 而 且 ， 只 要 盆 里 面 有 PP， 
你 就 可 以 再 创建 一 个 LV， 也 就 是 再 和 一 团 面 ，LV 数 量 足够 用 的 。 如 果 
不 增加 卷 管理 这 个 功能 ， 那 么 RAID 卡 提交 上 来 多 少 磁盘 ， 容 量 多 大 就 
是 多 大 ， 不 能 在 OS 层 想 改 就 改 、 为 所 欲 为 。 而 卷 管 理 就 提供 了 这 个 为 
所 欲 为 的 机 会 ， 让 你 随便 和 面团 。 


LVM 看 起 来 很 复杂 ， 其 实 操作 起 来 很 简单 。 创 建 PV， 将 PV 加 入 
VG， 在 VG 中 再 创建 LV， 然 后 格式 化 这 个 LV， 就 可 以 当成 一 块 普 通 硬 
盘 使 用 了 。 容 量 不 够 了 ， 还 可 以 随便 扩展 ， 岂 不 快 哉 ?” LVM 一 个 最 大 
的 好 处 就 是 生成 的 LV 可 以 跨越 RAID 卡 提交 给 OS 的 物理 磁盘 (逻辑 
盘 ) 。 这 是 理所当然 的 ， 因 为 LVM 将 所 有 物理 盘 都 搅和 到 一 个 大 面盆 
中 了 ， 当 然 就 可 以 跨越 物理 盘 了 。 


5.5.3 Linux 下 配置 LVM 实 例 


下 面 以 RedHat Enterprise Linux Server 4 Update 5 操作 系统 为 例 ， 
给 大 家 示例 一 下 LVM 的 配置 过 程 。 


(1) 在 操作 系统 安装 过 程 中 ， 选 择 手 动 配置 磁盘 管理 ， 如 图 5-64 
所 示 。 


图 5-64 ”选择 手动 管理 


(2) 可 以 看 到 ， 这 台 机 器 共有 8 块 物理 磁盘 ， 每 块 的 容量 为 
1GB， 如 图 5-65 所 示 。 


图 5-65 ”磁盘 列表 


(3) 首先 ， 需 要 定义 一 个 /boot 分 区 ， 这 个 分 区 是 用 来 启动 基本 
操作 系统 内 核 的 ， 所 以 这 块 空间 不 能 参与 LVM。 我 们 选择 从 第 一 块 硬 
盘 (sda) 划分 出 20 个 磁道 的 空间 用 来 作为 /boot 分 区 。 这 块 空间 也 就 成 
了 sdal 设 备 ， 如 图 5-66 所 示 。 


图 5-66 ”创建 /boot 分 区 


(4) 接 下 来 ， 对 于 sda2、sdb、sdc、sdd、sde、sdf、sdg、sdh 所 
有 这 些 剩 余 的 磁盘 或 者 分 区 ， 就 可 以 将 它们 配置 成 LVM 的 PV (物理 
卷 ) 。 选 中 每 个 磁盘 或 者 分 区 ， 单 击 Edit 按 钮 。 在 File System Type 下 
拉 列 表 杠 中， 选择 physical volume (LVM) 选项 ， 表 示 将 这 个 硬盘 或 
者 分 区 配置 成 LVM 的 PV。PV 可 以 任意 设 定 大 小 ， 只 要 编辑 End 
Cylinder 文本 框 中 的 值 即 可 。 剩 余 空 间 可 以 继续 作为 PV 再 次 分 配 。 对 
每 个 磁盘 都 进行 上 述 操作 ， 如 图 5-67 所 示 。 


图 5-67 “设置 磁盘 类 型 为 LVM 管 理 状态 


(5) 操作 完成 后 ， 信 息 栏 中 显示 所 有 磁盘 和 sda2 分 区 都 已 被 配置 
成 为 PV， 如 图 5-68 所 示 。 


图 5-68 ”磁盘 状态 


(6) 单 击 LVM 按 钮 会 出 现 如 图 5-69 所 示 的 对 话 框 。 这 一 步 就 是 创 
建 YG (Volume Group ， 卷 组 ) 的 过 程 。 可 以 将 PV 进行 任意 组 合 ， 组 
合 后 的 PV 就 形成 了 VG。 


图 5-69 ”创建 卷 组 


(7) 这 里 我 们 做 一 个 名 为 “VolGroup00” 的 卷 组 ， 其 包含 sda2 和 
sdb1 两 个 PV。 在 Physical Extent 下 拉 列 表 杠 中， 可 以 选择 这 个 卷 组 对 应 
的 磁盘 空间 的 最 小 分 配 单位 (在 AIX 的 LYM 中 ， 这 个 最 小 单位 称 为 
Physical Partition， 即 PP) 。 然 后 单 击 下 方 的 Add 按 钮 ， 从 这 个 大 的 卷 
组 空间 中 再 次 划分 逻辑 卷 ， 即 LY。 下 面 创 建 一 个 大 小 为 1000MB 的 逻 
辑 卷 LogVol00， 并 且 用 ext3 文 件 系 统 将 这 个 卷 格 式 化 ， 并 挂 载 到 /home 
目录 下 ， 如 图 5-70 所 示 。 


图 5-70 ”创建 LV 并 挂 载 


(8) 然后 将 VolGroup00 卷 组 中 剩余 的 空间 ， 全 部 分 配给 一 个 新 的 
LV， 即 LogVol01， 用 ext3 文 件 系统 格式 化 ， 并 挂 载 到 /tmp 目 录 下 ， 如 
图 5-71 所 示 。 


图 5-71 创建 LV 并 挂 载 


(9) 将 剩余 的 sdc1、sddl1、sdel、sdf1、sdg1、sdh1 这 几 块 PV 全 
部 分 配给 一 个 新 的 卷 组 VolGroup01， 并 且 在 卷 组 中 创建 一 个 逻辑 卷 
LogVol00， 大 小 为 整个 卷 组 的 大 小 ， 用 ext3 文 件 系 统 格式 化 ， 并 挂 载 
到 /目录 下 ， 如 图 5-72 所 示 。 


图 5-72 ”创建 LV 并 挂 载 
(10) 配置 完成 后 的 状态 如 图 5-73 所 示 。 


图 5-73 ”配置 完成 后 的 状态 
5.5.4” 卷 管理 软件 的 实现 


说 到 这 里 ， 别 以 为 LVM 就 只 会 像 疯子 一 样 ， 拿 来 面团 就 揉 到 一 
起 ， 玫 来 狂 去 ， 什 么 都 不 管 ， 那 样 则 不 真 成 了 马 大 哈 了 。 它 是 需要 在 
心里 暗自 记录 的 ， 比 如 某 块 物理 盘 的 名 称 和 容量 。 表 面 上 是 和 其 他 物 
理 盘 融合 到 一 起 ， 但 还 是 要 记 住 谁 是 谁 ， 从 哪里 到 哪里 属于 这 块 盘 ， 
从 哪里 到 哪里 属于 那 块 盘 ， 地 址 多 少 ， 等 等 。 


这 些 信 息 记 录 在 磁盘 上 的 某 个 区 域 ，LVM 中 这 个 区 域 叫 做 
VGDA。LVM 就 是 通过 读 取 每 块 物理 磁盘 上 的 这 个 区 域 来 获取 LVM 的 
配置 信息 ， 比 如 PP 大 小 、 初 始 偏 黎 、PV 的 数量 和 信息 、 排 列 顺序 及 了 映 
射 关 系 等 。LVM 初 始 化 的 时 候 会 读 取 这 些 信息 ， 然 后 在 缓存 中 生成 对 
应 的 映射 公式 ， 从 而 完成 LV 的 挂 载 。 挂 载 之 后 ， 就 可 以 接受 IO 了 。 比 
如 上 层 访问 某 个 LV 的 LBA 0xFF 地 址 ， 那 么 LVM 就 需要 通过 缓存 中 的 
映射 关系 判断 这 个 地 址 对 应 到 实际 物理 磁盘 是 哪个 或 哪 几 个 实际 地 
址 。 假 设 这 个 地 址 实际 对 应 了 磁盘 a 的 LBA 0xAA 地 址 ， 那 么 就 会 通过 
磁盘 控制 器 驱动 直接 给 这 个 地 址 发 数据 ， 而 这 个 地 址 被 RAID 控 制 器 收 
到 后 ， 可 能 还 要 做 一 次 转换 。 因 为 OS 层 的 “物理 磁盘 ”可 能 对 应 真正 的 


存储 总 线 上 的 多 块 物理 磁盘 ， 这 个 映射 就 需要 RAID 控 制 器 来 做 了 ， 原 
理 都 是 一 样 的 。 


卷 管理 软件 对 待 由 RAID 卡 提交 的 逻辑 盘 (OS 识别 成 物理 磁盘 ) 
和 切切 实 实 的 物理 盘 的 方法 是 一 模 一 样 的 。 也 就 是 说 ， 不 管 最 底层 到 
底 是 单 物理 盘 ， 还 是 由 RAID 控 制 器 提交 的 逻辑 物理 盘 ， 只 要 OS 认 成 
它 是 一 块 物理 磁盘 ， 那 么 卷 管理 器 就 可 以 对 它 进 行 卷 管理 。 只 不 过 对 
于 RAID 提 交 的 逻辑 盘 ， 最 终 还 是 要 通过 RAID 控 制 器 来 和 最 底层 的 物 
理 磁盘 打交道 。 


Linux 下 的 LYM 甚 至 可 以 对 物理 磁盘 上 的 一 个 分 区 进行 卷 管理 ， 将 
这 个 分 区 做 成 一 个 PV。 


卷 管理 软件 就 是 运行 在 OS 操作 系统 磁盘 控制 器 驱动 程序 之 上 的 一 
层 软 件 程序 ， 它 的 作用 就 是 实现 RAID 卡 硬件 管理 磁盘 空间 所 实现 不 了 
的 灵活 功能 ， 比 如 随时 扩容 。 


为 什么 卷 管理 软件 就 可 以 随时 在 线 扩容 ， 灵 活性 这 么 强 呢 ? 首先 
我 们 要 熟悉 一 个 知识 ， 也 就 是 OS 会 自 带 一 个 卷 管理 软件 层 ， 这 个 卷 管 
理 软件 非常 简单 ， 它 只 能 管理 单个 磁盘 ， 而 不 能 将 它们 组 合 虚 拟 成 
卷 ， 不 具有 高 级 卷 管理 软件 的 一 些 灵活 功能 。OS 自 带 的 一 些 简 单 VM 

( 卷 管理 ) 软件 ， 只 会 调用 总 线 驱 动 (一 种 监视 IO 总 线 Plug And 
Play， 即 PNP， 即 插 即 用 ) ， 发 现 硬件 之 后 再 挂 接 对 应 这 个 硬件 的 驱 
动 ， 然 后 查询 出 这 个 硬件 的 信息 ， 其 中 就 包括 容量 ， 所 以 我 们 才 会 在 
磁盘 管理 器 中 看 到 一 块 块 的 磁盘 设备 。 即 从 底层 向 上 依次 是 物理 磁 
盘 、 磁 盘 控 制 器 、IO 总 线 、 总 线 驱动 、 磁 盘 控 制 器 驱动 、 卷 管理 软件 
程序 、OS 磁 盘 管 理 器 中 看 见 的 磁盘 设备 。 


而 高 级 卷 管理 软件 是 将 原本 OS 自 带 的 简陋 的 卷 管理 功能 进行 了 扩 
展 ， 比 如 可 以 对 多 个 磁盘 进行 组 合 、 再 分 等 。 不 管 是 OS 单一 VM 还 是 
高 级 VM， 人 磁盘 在 VM 这 一 层 处 理 之 后 ， 应 该 称 为 卷 比 较 恰当 ， 就 算 卷 
只 由 一 块 磁盘 抽象 而 成 ， 也 不 应 该 再 称 作 磁 盘 了 。 因 为 磁盘 这 个 概念 
只 有 对 磁盘 控制 器 来 说 才 有 意义 。 


磁盘 控制 器 看 待 磁盘 ， 真 的 就 是 由 盘 片 和 磁头 组 成 。 而 卷 管理 软 
件 看 待 磁盘 ， 会 认为 它 是 一 个 线性 存储 的 大 仓库 ， 而 不 管 这 个 仓库 用 
的 是 什么 存储 方式 ， 仓 库 每 个 房间 都 有 一 个 地 址 \(LBA 逻 辑 块 地 
址 ) ，VM 必 须知 道 这 些 地 址 一 共有 多 少 。 它 让 库 管 员 〈 磁 盘 控制 器 
驱动 软件 ) 从 某 一 段 地 址 (LBA 地 址 段 ) 存 取 某 些 货物 (数据) ， 那 
么 库 管 员 就 得 立即 操控 他 的 机 器 (磁盘 控制 器 ) 来 到 各 个 房间 存 取 货 
物 (数据 ) 。 这 就 是 VM 的 作用 。 


在 底层 磁盘 扩容 之 后 ， 磁 盘 控 制 器 驱动 程序 会 和 VM 打 个 招呼 : 
我 已 经 增 大 了 多 少 容 量 了 ， 你 看 着 办 吧 。 卷 说 :“ 好 ， 你 不 用 管 了 ， 专 
心 在 那 干 活 吧 ， 我 告诉 你 读 写 哪个 LBA 地 址 的 数据 你 就 照 我 的 话 办 。” 
这 样 之 后 ，VM 就 会 直接 将 等 待 扩容 的 卷 的 容量 立即 扩大 ， 放 入 闻 中 
备用 ， 对 上 层 应 用 没有 丝 坚 影 响 。 所 以 VM 可 以 屏 贡 底层 的 变化 。 


至 于 扩容 和 收缩 逻辑 卷 ， 对 VM 来 说 是 小 事 一 桩 。 但 是 对 于 其 上 
的 文件 系统 来 说 ， 处 理 起 来 就 复杂 了 。 所 以 扩大 和 收缩 卷 ， 需 要 其 上 
的 文件 系统 来 配合 ， 才 能 不 影响 应 用 系统 。 


5.5.5 ”低级 VM 和 高 级 VM 


1. MBR 和 VGDA 


分 区 管理 可 以 看 作 是 一 种 最 简单 的 卷 管 理 方式 ， 它 比 LVM 等 要 低 
级 。 分 区 就 是 将 一 块 磁盘 抽象 成 一 个 仓库 ， 然 后 将 这 个 仓库 划分 成 具 
体 的 一 库 区 、 二 库 区 等 。 因 为 一 个 仓库 太 大 的 话 ， 对 用 户 来 说 很 不 方 
便 。 比 如 一 块 100GB 的 磁盘 ， 如 果 只 分 一 个 区 ， 就 显得 很 不 便于 管 
理 。 有 两 种 方法 解决 这 个 问题 : 


(1) 可 以 用 低级 VM 管理 软件 ， 比 如 Windows 自 带 的 磁盘 管理 
器 ， 对 这 个 磁盘 进行 分 区 ; 


(2) 用 高 级 VM 管 理 软件 ， 将 这 个 盘 做 成 卷 ， 然 后 灵活 地 进行 划 
分 逻辑 郑 。 


这 两 种 方法 可 以 达到 将 一 个 仓库 逻辑 划分 成 多 个 仓库 的 效果 。 所 
不 同 的 是 分 区 管理 这 种 低级 卷 管 理 方式 ， 只 能 针对 单个 磁盘 进行 再 划 
分 ， 而 不 能 将 磁盘 合并 再 划分 。 


思考 : 对 于 低级 VM 的 分 区 管理 来 说 ， 必 须 有 一 个 东西 来 记 
录 分 区 信息 ， 如 第 一 仓库 区 是 整个 仓库 的 哪些 房间 ， 从 第 几 
个 房间 开始 到 第 几 个 结束 是 第 二 仓库 区 等 这 些 信息 。 这 样 ， 
每 次 OS 启动 的 时 候 ，VM 通 过 读 取 这 些 信息 就 可 以 判断 这 个 
仓库 一 共有 几 个 逻辑 区 域 ， 从 而 在 “我 的 电脑 * 中 显示 出 逻辑 
磁盘 列表 。 那 么 怎么 保存 这 个 分 区 信息 呢 ? 


毫 无 疑问 ， 它 不 能 保存 在 内 存 里 ， 更 不 能 保存 在 CPU 里 ， 它 只 能 
保存 在 磁盘 上 。 分 区 信息 被 保存 在 分 区 表 中 ， 分 区 表 位 于 磁盘 0 磁道 0 
磁头 的 0 号 扇 区 上 ， 也 就 是 LCBA1 这 个 地 址 的 扇 区 上 。 这 个 扇 区 又 叫做 
MBR， 即 主 引 导 记 录 。MBR 局 区 不 仅仅 保存 分 区 表 ， 它 还 保存 了 
BIOS 跳 转 时 所 需要 执行 的 第 一 句 指令 代码 ， 所 以 才 叫 做 主 引 导 记 录 。 


BIOS 代 码 都 是 固定 的 ， 它 每 次 必定 要 执行 LBA1 扇 区 上 的 代码 。 
如 果 修 改 BIOS， 让 它 执 行 LBA100 扇 区 的 代码 ， 也 可 以 ， 完 全 可 以 。 
但 是 现在 的 BIOS 都 是 执行 LBA1 处 的 代码 ， 没 人 去 改变 。 而 新 出 的 规 
范 EFI 将 要 取代 BIOS， 并 且 在 安 腾 机 上 已 经 使 用 了 ， 一 些 苹果 笔记 本 
也 开始 使 用 EFI 作 为 BIOS 的 替代 。 在 EFI 中 可 以 灵活 定制 这 些 选 项 ， 比 
如 从 哪里 启动 ， 不 仅 可 以 选择 设备 ， 还 可 以 选择 设备 上 的 具体 地 址 。 


MBR 中 除了 包含 启动 指令 代码 ， 还 包含 分 区 表 。 通 单 启动 时 ， 程 
序 都 会 跳 转 到 活动 分 区 去 读 取 代码 做 OS 的 启动 ， 所 以 必须 有 一 个 活动 
分 区 。 这 在 分 区 工具 中 可 以 设置 。 


高 级 卷 管理 软件 在 划分 了 逻辑 卷 之 后 ， 一 定 要 记录 逻辑 卷 是 怎么 
划分 的 ， 比 如 LVM 就 需要 记录 PV 的 数量 和 信息 、PP 的 大 小 、 起 始 位 置 
及 LV 的 数量 和 信息 等 。 这 些 信息 都 要 保存 在 磁盘 上 ， 所 以 也 要 有 一 个 
数据 结构 来 存储 。 这 个 数据 结构 ，LVM 使 用 VGDA (Volume Group 
Descriptor Area) 。 每 次 启动 系统 ，VM 就 是 通过 读 取 这 些 数 据 来 判断 
目前 的 卷 情 况 并 挂 载 LV 的 。VGDA 的 大 致 结构 示意 图 如 图 5-74 所 示 。 


图 5-74 VGDA 示 意图 


不 管 是 MBR 中 的 分 区 表 ， 还 是 VGDA9 数 据 结构 ， 一 旦 这 些 信息 
丢失 ， 逻 辑 卷 信 息 就 会 丢失 ， 整 个 系统 的 数据 就 不 能 被 访问 。 


低级 VM 在 给 磁盘 分 区 的 时 候 ， 会 更 新 MBR 中 的 分 区 表 ; 高 级 VM 
做 逻辑 卷 的 时 候 ， 同 样 也 会 更 新 VGDA 中 的 数据 。 其 实 高 级 VM 初始 化 
一 组 新 磁盘 的 时 候 ， 并 没有 抛弃 MBR。 因 为 它们 除了 写 入 VGDA 信 息 
之 外 ， 也 要 更 新 MBR 扇 区 中 的 分 区 表 ， 将 用 于 启动 基本 操作 系统 的 代 
码 单独 存放 到 一 个 小 分 区 中 ， 并 标明 分 区 类 型 为 bootable 类 型 ， 证 明 这 


个 分 区 是 用 于 在 卷 管理 模块 还 没有 加 载 之 前 启动 操作 系统 的 。 并 将 磁 
盘 所 有 剩余 容量 划分 到 一 个 分 区 中 ， 并 标明 这 个 分 区 的 类 型 ， 如 AIX 


类 型 。 


在 安装 Linux 的 时 候 ， 必 须 单 独 划 分 一 个 boot 分 区 ， 这 个 分 区 就 是 
用 于 启动 基本 操作 系统 用 的 ，100MB 大 小 足 侨 。 启 动 操 作 系统 所 必需 
的 代码 都 放 在 这 个 分 区 。 同 样 AIX 系 统 也 要 保留 一 个 分 区 用 来 启动 最 
基本 的 操作 系统 代码 。 这 也 是 AIX 在 进行 了 Mirrorvg 镜 像 操 作 之 后 ， 需 
要 执行 BOSboot 命 令 来 写 入 boot 分 区 的 内 容 的 原因 ， 因 为 boot 分 区 没有 
参与 VM 管理 。 这 个 启动 分 区 是 不 能 做 到 VM 中 的 ， 因 为 YM 代码 不 是 
在 BIOS 将 控制 交 给 OS 的 时 候 一 开始 就 执行 的 。 


总 之 ， 高 级 VM 没有 执 弃 MBR 分 区 的 解决 方案 ， 而 是 在 MBR 基 础 
上 ， 又 增加 了 类 似 VGDA 这 种 更 加 灵活 的 数据 结构 来 动态 管理 磁盘 。 


2. RAID 功 能 


高 级 VM 软件 一 般 均 带 有 软 RAID 功 能 ， 可 以 实现 逻辑 卷 之 间 的 镜 
像 。 更 有 甚 者 ， 有 些 VM 甚 至 实现 了 类 似 RAID 0 的 条 带 化 。 在 卷 的 级 
别 条 带 化 ， 达 到 在 物理 盘 级 别 条 带 化 同样 的 目的 。 但 是 如 果 磁 盘 已 经 
被 硬件 RAID 控 制 器 条 带 化 过 了 ， 并 且 这 些 LUN 是 在 一 个 RAID Group 
中 ， 那 么 VM 再 来 条 带 化 一 下 子 不 但 没有 必要 ， 而 且 可 能 二 次 条 市 化 
会 将 效果 抵消 。 


Windows 的 动态 磁盘 VM 还 可 以 以 纯 软 件 方式 实现 RAID 5， 所 有 
计算 都 靠 CPU， 所 以 也 就 注定 了 它 比 硬件 RAID 更 灵活 ， 但 在 高 系统 负 
载 的 情况 下 ， 它 相 比 硬件 RAID 来 说 速度 和 性 能 稍 差 。 


5.5.6 ”VxVM 卷 管理 软件 配置 简介 


VxVM 是 Veritas 公 司 开 发 的 一 个 高 级 卷 管理 软件 ， 支 持 RAID 0、 
RAID 1、RAID 01 和 RAID 5 四 种 软 RAID 模 式 ， 支 持 动态 扩大 和 缩小 卷 


DR 旦 . 
合 星 。 


下 面 的 例子 是 在 一 个 UNIX 系 统 中 对 4 块 磁盘 做 卷 管 理 的 案例 。 所 
有 命令 均 在 UNIX 的 Shell 下 执行 。 


1. 创建 磁盘 组 


磁盘 组 就 是 将 所 有 磁盘 作为 一 个 大 的 资源 池 ， 卷 将 在 这 个 闻 中 产 


首先 ， 初 始 化 硬盘 。 


vxdisksetup —i disk1 


vxdisksetup —i disk2 


vxdisksetup —i disk3 


vxdisksetup —i disk4 


然后 创建 一 个 名 为 “DataDG” 的 磁盘 组 ， 该 磁盘 组 包含 了 disk1、 
disk2、disk3 和 disk4 四 个 磁盘 。 


=m Vxdg init DataDG disk1l disk2 disk3 disk4 
除了 这 种 方法 ， 用 户 还 可 以 用 以 下 方法 来 创建 磁盘 组 。 


" Vxdg init DataDG DataDG01 二 disk1 (创建 一 个 只 包含 disk1 的 磁 
盘 组 ) 


sa。 Vvxdg -g DataDG adddisk DataDG02 王 disk2 (将 disk2 加 入 到 该 磁 
盘 组 ) 

"= Vvxdg -g DataDG adddisk DataDG03 三 disk3 (将 disk3 加 入 到 该 磁 
盘 组 ) 

"= Vvxdg -g DataDG adddisk DataDG03 二 disk4 (将 disk4 加 入 到 该 磁 
盘 组 ) 


如 果 用 户 在 所 需 磁盘 空间 不 足 ， 需 要 扩容 的 时 候 ， 利 用 添加 磁盘 
到 磁盘 组 的 方法 ， 就 可 以 在 不 破坏 现 有 环境 的 情况 下 扩大 系统 的 容 


量 。 
2. 创建 卷 
创建 卷 必须 指明 在 哪个 磁盘 组 下 面 创建 ， 最 常用 的 方法 如 下 : 
" vxassist—g DataDG make DataVolA 5g 


该 命令 将 在 DataDG 人 磁盘 组 上 创建 名 为 “DataVolA” 的 卷 ， 卷 的 大 小 
是 5GB。 


如 果 用 户 希 望 该 卷 只 创建 在 disk1 和 disk2 上面， 不 占用 disk3 和 
disk4 的 空间 ， 那 么 可 以 执行 下 列 命令 。 


ms Vxassist —g DataDG make DataVolA 5g diskl disk2 
创建 一 个 5GB 大 小 的 条 之 卷 (RAID 0) 。 


=m VXxassist ~g DataDG make DataVolB 5g layout= stripe 


这 样 就 在 DataDG 磁 盘 组 上 面 建立 了 一 个 名 为 “DataVolB” 的 5GB 大 
小 的 条 带 卷 。 


提示 : 4 块 物理 磁盘 中 ， 只 有 5GB 的 空间 是 条 带 化 的 ， 剩 余 
的 空间 还 是 常规 的 磁盘 空间 。 为 什么 呢 ? 条 带 化 RAID 0 不 是 
需要 至 少 两 块 物理 硬盘 么 ? 这 就 是 卷 管理 软件 的 优越 性 了 。 
我 们 上 文 提 过 ， 卷 管理 软件 将 物理 磁盘 划分 为 PP 和 LV， 所 以 
有 了 更 加 细 粒 度 的 存储 单位 ， 条 带 化 可 以 在 这 些 LV 之 间 进 
行 ， 而 其 他 LV 不 受 影响 。 


创建 RAID 5 格式 的 卷 。 
=" VXassist ~—g DataDG make DataVolC 5g layout=RAIDS5 


注意 ; RAID 5 至 少 需 要 3 块 盘 ， 否 则 不 能 成 功 。 因 为 两 块 盘 
的 RAID 5， 还 不 如 做 RAID 1。 但 是 3 块 盘 的 RAID 5 不 能 获得 
并 发 IO 性 能 。 


创建 镜像 卷 (RAID 1) 。 

=s Vxassist —g DataDG make DataVolD 5g layout= mirror 

创建 RAID 10 卷 。 

s。 vxdg init RAID 10dg diskl disk2 disk3 disk4 

创建 磁盘 组 

=m VXxassist ~g RAID l0dg RAID 10vol 5g layout=mirror-stripe 


创建 RAID 01 卷 。 


" vxdg init RAID 01dg diskl disk2 disk3 disk4 
创建 磁盘 组 。 


sa Vvxassist—g RAIDOldg RAIDO1lvol 5g layout= stripe-mirror 


3. 创建 文件 系统 并 使 用 


mn mkfs—F vxfs /dev/vx/rdsk/DataDG/DataVolA 
ms mount—F vxfs /dev/vx/dsk/DataDG/DataVolA /mnt 


以 上 例子 将 卷 DataVolA 格 式 化 成 VxFS (Veritas 公 司 的 文件 系统 ) 
格式 ， 然 后 挂 载 于 /mnt 目 录 下 ， 执 行 命 令 cd /mnt 之 后 ， 就 可 以 读 写 这 
个 卷 的 内 容 了 。 


4. 动态 扩大 和 缩小 卷 

将 卷 空 间 增加 到 10GB。 

sa VXxassist -g DataDG growto DataVolA 10G 

更 改 之 后 ， 卷 的 容量 将 会 变 成 10GB。 或 者 用 vxresize 命 令 。 
ms Vxresize -g DataDG DatavolA 10G 

将 卷 容量 增加 10GB。 

m VXxassist -g DataDG growby DataVolA 10G 


或 者 用 vxresize 命 令 : 


= Vxresize -g DataDG DatavolA 十 10G 


这 样 ， 更 新 之 后 卷 的 容量 将 在 原来 的 基础 上 增加 10GB 大 小 。 
5。 文件 系统 动态 扩容 


卷 扩 容 之 后 ， 只 是 在 卷 的 末尾 增加 了 一 块 多 余 空间 。 这 块 空间 如 
果 没 有 文件 系统 的 管理 就 无 法 存放 文件 ， 所 以 必须 让 文件 系统 将 这 块 
多 余 的 空间 利用 起 来 。 


m fsadm -F vxfs -b 10240000 —r dev/vx/rdsk/DataDG/DataVolA /mnt 
6. 文件 系统 缩小 


如 果 决 定 将 某 个 卷 缩小 以 省 出 更 多 空间 ， 则 在 缩小 卷 空间 之 前 ， 
必须 缩小 文件 系统 的 空间 。 也 就 是 说 ， 被 裁 挥 的 卷 空间 上 存放 的 数 
据 ， 需 要 转移 到 卷 剩 余 的 空间 上 存放 ， 所 以 剩余 空间 必须 足够 ， 以 便 
容纳 被 裁 掉 空 间 中 的 数据 。 


m fsadm -F vxfs -b 5120000 一 dev/vx/rdsk/DataDG/DataVolA /mnt 


以 上 命令 将 这 个 卷 上 的 文件 系统 缩小 至 5GB 大 小 。 剩 余 的 5GB 没 
有 数据 ， 可 以 被 裁剪 掉 。 


7。 卷 容量 缩小 


在 缩小 了 文件 系统 之 后 ， 卷 容量 方 可 缩小 。 


sm VXxassist -g DataDG shrinkto DataVolA 5G 
sm VXxresize -g DataDG DataVolA 5G 


上 面 的 两 个 命令 均 可 以 使 DataVolA 卷 的 容量 变 为 5GB。 


=m VXassist -g DataDG shrinkby DataVolA 5G 
=" Vxresize -g DataDG DataVolA -5G 


上 面 的 两 个 命令 均 可 以 使 DataVolA 卷 的 容量 在 原来 的 基础 上 缩减 
5GB。 


8. 从 磁盘 组 中 移 除 磁盘 


若 想 从 磁盘 组 中 移 除 一 块 或 者 几 块 物理 磁盘 ， 则 必须 先 将 待 移 除 
物理 磁盘 上 的 数据 转移 到 磁盘 组 中 的 其 他 物理 磁盘 的 剩余 空间 中 ， 这 
个 动作 通过 下 面 的 命令 完成 。 


sa VXxevac -g DataDG DataDG04 DataDG03 


上 面 的 命令 将 disk4 中 的 数据 转移 到 disk3 上 。 除 了 容量 改变 之 外 ， 
会 影响 卷 的 其 他 信息 。 


sm VXxdg -g DataDG rmdisk disk4 


上 面 的 命令 将 已 经 没有 数据 的 disk4 物 理 磁 盘 从 磁盘 组 DataDG 中 移 
除 《逻辑 移 除 ) 。 


= Vxdiskunsetup -C Disk4 
上 面 的 命令 将 disk4 物 理 磁盘 从 整个 VxVM 管 理 模 块 中 注销 。 


5.6 ”大 话 文件 系统 


5.6.1 ”成 何 体 统一 没有 规矩 的 仓库 


话说 这 一 天 ， 老 道 闲 来 无 事 ， 在 后 山 溜达 。 他 走 到 了 武当 的 粮 库 
门口 ， 发 现 这 里 堵 了 一 大 帮 人 。 老 道上 前 一 问 ， 原 来 这 些 人 都 是 各 个 
院 来 领取 粮食 的 。 只 见 他 们 一 拥 而 上 ， 进 入 仓库 就 各 自 找 自己 的 房间 
去 搬 粮 食 。 老 道 一 看 ， 怎 么 这 么 乱 呢 ? 就 不 能 有 个 顺序 么 ? 


他 向 其 中 一 个 小 道 打听 了 一 下 ， 这 才 知 道 ， 造 成 这 种 乱七八糟 进 
入 粮 库 搬 粮 食 局 面 的 原因 ， 是 因为 当初 没有 好 好 规划 仓库 。 上 个 月 ， 
各 个 院 从 山下 各 自 运 了 粮食 上 来 ， 当 时 的 政策 是 大 家 各 自 进 入 仓库 ， 
自己 找 房间 放 自 己 的 粮食 ， 自 己 找 了 哪些 房间 放 粮 食 ， 自 己 记 住 了 。 
到 取 粮 食 的 时 候 ， 大 家 根据 自己 记录 的 房间 来 进入 取 粮 。 这 个 政策 看 
似 没 什么 可 非议 的 ， 实 则 不 然 。 如 今 山 下 粮食 供应 紧张 ， 造 成 大 家 各 
顾 各 的 ， 没 有 顺序 ， 央 能 不 乱 ? 老道 进入 粮仓 一 看 ， 眼 前 一 片 狼藉 ! 
土豆 、 西 红 柿 酒 藻 得 满 地 都 是 。 这 间 房 放 这 样 ， 那 间 房 放 那 样 ， 就 不 
能 顺序 地 堆放 粮食 蔬菜 ? 成 何 体 统 ! ! 


提示 : 在 早期 的 计算 机 系统 中 ， 每 个 程序 都 必须 自己 管理 磁 
盘 ， 在 磁盘 中 放 自 己 的 数据 ， 程 序 需 要 直接 和 磁盘 控制 器 打 
交道 。 有 多 少 个 程序 要 利用 磁盘 ， 就 有 多 少 个 和 磁盘 交互 的 
驱动 接口 。 


老道 摇 了 摇头 ， 得 想 个 办 法 彻底 解决 这 个 问题 。 老 道 回 到 了 书 
房 ， 闭 目 思 索 。 首 先 大 家 不 能 都 堵 在 门口 ， 那 么 必须 让 他 们 排 起 队 
来 。 其 次 ， 每 个 人 各 顾 各 ， 自 己 记录 自己 用 了 哪 间 房子 ， 一 个 是 滔 
费 ， 另 一 个 是 容易 造成 冲突 。 一 旦 某 个 人 记 错 了 ， 就 会 影响 其 他 人 。 
那么 就 应 该 只 让 一 个 人 记录 所 有 人 的 信息 ， 他 自己 不 会 和 自己 冲突 。 


同样 这 个 人 也 要 充当 一 个 门卫 的 作用 ， 接 待 来 取 粮 或 者 送 粮 的 人 ， 让 
他 们 按 一 定 的 顺序 来 运作 。 


最 终 决 定 就 应 该 是 这 样 的 : 找 一 个 人 ， 这 个 人 的 职责 就 是 接待 来 
取 粮 或 者 送 粮 的 人 ， 把 要 取 的 或 者 要 送 的 粮食 的 名 称 和 数量 等 信息 先 
登记 在 这 个 人 的 一 个 本 子 上 ， 然 后 由 这 个 人 来 合理 地 选择 仓库 中 的 房 
间 ， ee 而 且 提取 或 放 入 粮食 之 后 要 将 本 子 
上 的 记录 更 新 ， 以 便 下 次 备查 。 嗯 ， 这 么 做 就 好 多 了 ， 哈 哈哈 哈 ! 这 
天 晚上 的 北斗 七 星 ， 光 芒 格 外 光 眼 。 


5.6.2 ”慧眼 识 人 一 -一 交 给 下 一 代 去 设计 


第 二 天 ， 老 道 杀 自 挑选 了 一 位 才思 敏捷 、 内 向 稳重 、 善 于 思考 的 
道士 来 担任 这 个 重要 的 角色 。 让 他 和 库 管 员 一 起 完成 管理 粮 库 的 工 
作 ， 给 他 起 了 一 个 职称 ， 叫 做 理 货 员 。 并 且 将 自己 的 想法 告诉 了 这 位 

士 ， 让 他 当晚 就 考虑 出 一 套 符合 这 个 思想 的 方法 ， 还 可 以 做 出 改进 


= 
局 见 。 


就 这 样 ， 又 过 了 一 晚 。 第 三 天 ， 这 位 道士 上 任 了 。 一 大 早 ， 张 老 
道 就 在 暗中 观察 。 这 时 候 ， 一 个 送 粮食 的 人 来 了 ， 他 带 了 1024 斤 土豆 
和 512 斤 白菜 。 这 人 还 是 按 老 习 惯 ， 上 来 就 往 仓库 问 。 小 道士 截 住 了 
他 :“ 道 长 且慢 ! 请 问 您 送 的 是 什么 蔬菜 ? * 那 人 道 :“ 土 豆 和 白菜 ! ” 
小 道士 又 道 :“ 土 豆 多 少 斤 ? ” 答 日 :“ 土 豆 1024 斤 。”( 上 面 这 个 过 程 
就 是 应 用 程序 和 FS 的 API 交 互 的 过 程 ) 。 小 道士 笑 道 :“ 道 长 尽 可 放心 
将 土豆 交 于 我 ， 我 自 当 为 您 找 房间 存放 。” 然 后 小 道士 到 仓库 中 找 了 两 
个 空房 间 ， 每 个 房间 放 了 512 斤 土豆 。 并 在 本 子 上 记录 :“ 土 豆 1024 斤 
房间 1 一 2。” 接 着 他 就 命令 库 管 员 来 搬运 货物 到 相应 的 房间 。 


道士 给 每 个 库 区 都 预备 了 一 个 记录 本 。 小 道士 不 关心 具体 房间 到 
底 在 仓库 哪里 ， 怎 么 走 才 能 达到 ， 这 些 事情 统统 由 库 管 员 来 协调 。 小 
道士 同样 也 不 关心 来 送 货物 的 人 到 底 送 的 是 什么 货物 。 如 果 送 粮 的 人 
告诉 他 ， 请 给 我 存放 rubbish 1000 斤 ， 道 士 眼 都 不 瞬 照 样 给 他 存放 。 一 
旦 仓库 的 房间 都 满 了 ， 小 道 长 再 次 命令 库 管 员 搬运 货物 的 时 候 ， 库 管 
员 就 会 告诉 他 ， 已 经 没有 房间 了 。 那 么 道 长 就 告诉 来 存放 货物 的 人 : 
“对 不 起 ， 空 间 不 足 。” 


用 同样 的 方法 ， 小 道士 将 那 人 的 白菜 ， 也 放 到 了 一 间 房 中 ， 记 录 
下 : “白菜 512 斤 房间 3”。 然 后 向 那 人 说 到 :“ 这 位 道 长 ， 您 下 次 来 取 
的 时 候 ， 直 接 向 我 说 要 某 厨 房 存 放 的 土豆 多 少 斤 就 可 以 了 ， 我 会 帮 您 
找到 并 取出 。” 那 人 非常 满意 地 离 去 了 。 接 着 又 有 很 多 人 也 来 送 取 冬 
瓜 、 南 的 、 西 的、 大 米 、 面 粉 等 粮食 蔬菜 ， 小 道士 一 一 对 应 ， 有 条 有 
理 。 小 道士 也 专门 给 自己 在 每 个 库 区 中 预 留 了 几 间 房 ， 用 于 存放 他 那 
一 本 本 厚 厚 的 记录 。 老 道 一 旁 看 了 ， 频 频 点 头 ,“ 虽 ， 前 途 无 量 ， 前 途 


无 量 啊 ， 啊 哈哈 哈哈 哈 ! ! ! ” 


过 了 几 天 ， 张 真人 又 来 探查 。 此 时 只 见 有 个 人 一 下 送 来 10000 斤 大 
米 。 小 道 长 开始 只 是 表示 吃惊 ， 并 没有 多 想 ， 仍 旧 按 照 老 办 法 ， 记 
录 :“ 大 米 10000 斤 ， 房 间 4 一 4096”。 接 着 又 来 了 一 位 要 存放 65535 斤 小 
麦 的 。 这 下 可 昔 了 小 道 土 了 ， 把 他 累 得 够 哈 。 随 着 全 国 粮食 大 丰收 ， 
存粮 数量 动 辑 上 万 斤 。 这 让 小 道士 苦 不 堪 言 ， 他 决定 思考 一 种 解决 方 
法 。 第 二 天 ， 小 道 长 将 每 8 个 房间 划分 为 一 个 逻辑 房间 ， 称 作 *“ 往 ”。 第 
一 艇 对 应 房间 1、2、3、4、5、6、7、8， 第 二 簇 对 应 房间 9、10、11、 
12、13、14、15、16， 依 此 类 推 。 这 样 道士 记录 的 数字 量 就 是 原来 的 
八 分 之 一 了 。 比 如 4000 斤 粮食 ， 只 需 记 录 “* 簇 1? 就 可 以 了 。 老 道 心 中 暗 


想 ,“ 嗯 ， 不错， 我 没 看 错 人 ! ”这 一 年 ， 因 为 大 丰收 ， 粮 食 降价 了 。 
农民 丰产 不 丰收 ， 很 多 农民 打算 第 二 年 不 种 粮 了 ， 改 做 其 他 小 生意 。 


5.6.3 ”无 孔 不 入 一 一 不 浪费 一 点 空间 


第 二 年 ， 果 然 不 出 张 老道 所 料 ， 全 国 粮食 大 减产 ， 价 格 飞 涨 ， 全 
面 进 了 恐慌 阶段 。 张 真人 悬 壶 济世 ， 开 仓 放 粮 ， 平息 物价 。 这 一 举动 
受到 了 老百姓 的 称赞 和 感激 ， 但 也 招致 了 一 小 部 分 奸商 的 忌 恨 。 


放 粮 消息 宣布 之 后 ， 山 下 老百姓 都 排队 来 武当 买 粮 。 这 可 忙 坏 了 
理 货 员 道 土 ， 连 续 几 天 没 休 息 ， 给 老百姓 取 粮 食 。 一 个 月 之 后 ， 武 当 
粮 库 存粮 已 经 所 剩 无 几 ， 张 老道 和 众 院 道士 每 天 省 吃 俭 用， 为 的 是 给 
老百姓 多 留 点 存粮 。 


大 和 恐 民 的 一 年 ， 终 于 歼 过 去 了 。 农 民 一 看 粮食 价格 那么 高 ， 第 三 
年 又 都 准备 种 粮 了 。 不 出 意料 ， 这 一 年 粮食 又 得 丰收 ! 张 老道 提前 考 
虑 他 的 粮 库 在 这 一 年 的 使 用 问题 了 ， 他 叫 来 理 货 员 道 士 ， 让 他 回去 考 
虑 一 个 问题 ; 经 过 了 去 年 的 折腾 ， 仓 库 中 的 存货 是 零 零散 散 ， 乱 七 八 
糟 ， 为 了 准备 这 一 年 大 量 粮食 涌 入 仓库 ， 必 须 解决 这 个 问题 ， 让 他 回 
去 考虑 解决 办 法 。 其 实 张 老道 早 就 在 心里 盘算 出 了 解决 办 法 了 。 


第 二 天 ， 理 货 员 趁 人 少 的 时 候 ， 就 命令 库 管 员 :“ 请 帮 有 我 把 房间 
XXXX 的 货物 移动 到 房间 XXXX 处 ， 请 帮 有 我 把 房间 XXX 的 货物 移动 到 
房间 XXX 处 ......。” 


这 可 累 坏 了 库 管 员 。 但 是 经 过 几 个 时 辰 的 整理 之 后 ， 人 仓库 里 的 货 
物 重 新 变 得 连续 ， 井 井 有 条 。 老 道 称赞 说 :“ 不 错 ! 继续 努力 ! ” 


这 天 上 晚上， 小道 长 也 没 闲 着 ， 他 继续 思考 ， 今 天 是 有 时 间 整 理 货 
物 ， 如 果 一 旦 遇 到 忙 的 时 候 ， 没 有 时 间 整 理 货 物 ， 那 麻烦 就 大 了 ， 得 
想 一 种 一 劳 永 锡 的 办 法 。 有 些 人 来 送 完 粮食 之 后 ， 第 二 天 就 来 取 了 ， 
这 个 真是 头疼 了 。 因 为 我 都 按照 顺序 将 每 个 人 的 粮食 连续 存放 到 各 个 
复 中 ， 他 一 下 取 走 了 ， 对 应 的 族 就 空 了 。 如 果 再 有 人 来 ， 他 惠 的 货物 
数量 如 果 这 个 空 族 能 存 下 还 好 ， 可 以 接着 用 。 如 果 存 不 下 呢 ? 还 得 找 
新 的 连续 空 往来 存放 。 如 果 这 种 情况 出 现 太 多 ， 那 么 整个 仓库 就 是 二 
疮 百 孔 ， 大 的 放 不 下 ， 小 的 放下 了 又 浪费 空间 .……... 真 头疼 。 他 中 思 苗 
想 ， 最 后 终于 想 出 一 个 办 法 。 


一 早 仓库 还 没有 开门 的 时 候 ， 小 道 长 就 来 了 ， 他 把 所 有 记录 本 都 
拿 了 出 来 ， 进 行 修改 。 他 原本 对 每 个 来 送 货 的 人 ， 都 只 用 一 条 简单 记 
录 来 描述 它 ， 描 述 中 包含 3 个 字段 : 名 称 、 大 小 和 存放 位 置 。 比 如 冬瓜 
10000 斤 簇 1 一 3。 此 时 仓库 中 ， 虽然 总 空余 空间 远 远 大 于 10000 斤 的 
量 ,， 但 是 已 经 没有 能 连续 地 放 入 10000 斤 大 小 的 簇 空间 ， 那 么 这 个 货物 
就 不 能 被 放 入 仓库 ， 而 这 是 不 能 容忍 的 一 种 浪费 。 有 一 个 办 法 ， 就 是 
上 面 说 过 的 ， 找 空闲 时 间 来 整理 仓库 ， 整 理 出 连续 的 空间 来 。 这 次 小 
道 长 想 出 了 另 一 个 方法 ， 就 是 将 货物 分 开 存放 ， 并 不 一 定 非 要 连续 存 
放 在 仓库 。 因 为 仓库 已 经 被 逻辑 分 割 成 一 簇 (8 个 房间 ) 为 最 小 单位 存 
放 货 物 。 那 么 就 可 以 存在 类 似 这 样 的 描述 方式 : 冬瓜 10000 斤 簇 2、 
6、19。 也 就 是 说 这 10000 斤 的 冬瓜 是 分 别 被 按 顺序 存放 在 仓库 的 2 号 
簇 、6 号 簇 和 19 号 簇 中 的 。 取 出 的 时 候 ， 需 要 先 去 2 号 取出 货物 ， 再 跨 
过 3 个 艇 去 6 号 ， 再 跨 过 13 个 艇 去 19 号 。 都 取出 后 再 交 给 提货 人 。 这 样 
确实 慢 了 点 ， 但 是 完美 地 解决 了 空间 浪费 的 问题 。 


5.6.4 一箭双雕 一 一 一 张 图 解决 两 个 难题 


粮食 大 丰收 果然 又 被 张 老道 猜 中 了 ， 这 次 小 道 长 是 应 对 自如 ,一 
丝 不 乱 。 老 道 喷 喷 称赞 ! 但 是 老道 却 从 小 道士 的 记录 中 ， 又 看 出 了 一 
些 问题 ， 他 告诉 小 道士 ， 要 继续 思考 更 好 的 解决 办 法 。 小 道士 心 很 
灵 ， 他 知道 这 个 方法 确实 解决 了 问题 ， 但 是 有 缺陷 ， 会 有 后 患 ， 只 不 
过 现在 的 环境 并 没有 显示 出 来 。 这 天 晚上 ， 小 道 在 仓库 睡觉 ， 没 有 回 
去 。 


提示 : 看 着 他 那些 记录 ， 只 见 上 面 一 条 一 条 、 一 行 一 行 的 ， 
却 也 比较 有 条 理 。 但 是 仔细 一 看 发 现 ， 每 一 条 记录 的 最 后 一 
个 字段 ， 也 就 是 描述 货物 存放 在 哪些 簇 的 那个 字段 ， 非 常 凌 
乱 ， 因 为 每 个 人 送 来 的 货物 数量 不 一 样 ， 那 么 就 注定 这 个 字 
段 长 短 不 一 ， 显 得 非常 乱 。 现 在 记录 不 是 很 多 ， 但 记录 一 旦 
增多 ， 每 次 查询 的 时 候 就 很 不 好 办 。 而 且 要 找 一 个 未 被 占用 
的 族 ， 需 要 把 所 有 已 经 被 占用 的 全 找 出 来 ， 然 后 才 去 选择 一 
个 未 被 占用 的 和 族 ， 分 配给 新 的 货物 存放 。 这 个 过 程 是 非 党 耗 
时 间 的 ， 货 物 少 了 还 可 以 ， 货 物 一 多 ， 那 可 丈 费 劲 了 。“ 咽 ， 
张 真人 让 我 继续 思考 ， 确 实 是 有 道理 的 ， 这 两 个 隐患 ， 确 实 
是 致命 的 ， 尤 其 是 第 二 个 。 得 继续 找 新 方法 。” 

提示 : 小 道士 继续 思考 。 第 一 个 问题 ， 要 想 解决 长 短 不 一 的 
毛病 ， 最 简单 的 就 是 给 他 一 个 定 长 的 描述 字 ， 这 仿佛 是 不 可 
能 的 ， 有 的 需要 1 个 簇 就 够 了 ， 有 的 却 需要 10 个 甚至 100 个 ， 
如 果 把 这 需要 10 个 徐 的 和 需要 1 个 艇 的 ， 都 用 1 个 簇 来 描述 ， 
那么 确实 非常 漂亮 了 ， 记 录 会 非常 工整 。 


想到 这 里 ， 小 道士 办 了 ， 想 出 去 走 走 。 他 溜达 到 一 个 路 口 ， 看 见 
路 口上 有 路 标牌 ， 上 面 写 着 : “去 会 客厅 请 走 左边 ， 去 习 武 观 请 走 右 
边 。 "小 道士 顺 着 路 标 指向 ， 走 了 右边 ， 然 后 又 遇 到 一 个 路 标 : “去 习 


武 观 请 走 左 边 ， 下 山 请 走 右 边 。”* 道 士 走 了 左边 ， 最 终 来 到 了 习 武 观 。 
他 看 着 习 武 观 正中 央 的 那个 醒目 的 “ 道 ” 字 ， 忽 然 眼前 一 亮 ! 


他 迅速 原 路 返回 到 粮 库 ， 拿 出 记录 本 ， 将 其 中 一 条 记录 改 为 :“ 冬 
瓜 10000 斤 首 禾 1”。 每 条 记录 都 改 成 这 种 形式 ， 也 就 是 只 描述 这 个 货 
物 占用 的 第 一 个 艇 的 号 码 ， 这 样 完美 解决 了 记录 长 短 不 一 的 问题 ， 那 
么 后 续 的 簇 呢 ? 只 知道 首 徐 ， 剩 余 的 不 知道 ， 一 样 不 能 全 部 把 货物 取 
出 。 


所 以 小 道士 参照 路 标的 形式 ， 有 既然 知道 了 首 簇 号 ， 那 么 如 果 找 到 
首 族 ， 再 在 首 往 处 作 一 个 标记 ， 写 明 下 一 个 簇 是 多 少 号 ， 然 后 找到 下 
一 个 禾 取 货 ， 然 后 再 参照 这 个 禾 处 的 路 标 ， 到 下 下 个 簇 处 接着 取 货 ， 
依 此 类 推 ， 如 果 本 簇 就 是 这 批 货 物 的 最 后 一 簇 ， 那 么 就 标识 :“ 结 束 ， 
无 下 一 簇 ”。 比 如 :“ 冬 瓜 10000 斤 首 簇 1” 这 个 例子 ， 先 把 4096 斤 冬瓜 
放 到 簇 1 中 ， 然 后 在 簇 1 的 门 上 贴 上 一 个 标签 :“ 簇 10”， 这 就 表明 下 一 
簇 是 10 号 簇 。 继 续 向 10 号 得 中 存 入 4096 斤 冬瓜 ， 此 时 还 剩 808 斤 冬瓜 没 
放 入 ， 还 需要 一 个 路 标 ， 于 是 在 10 号 艇 的 门 上 再 贴 一 个 标签 : “90 
号 ”。 然 后 去 90 号 簇 放 入 剩 下 的 808 斤 冬瓜 。 


第 二 天 ， 张 老道 继续 来 视察 。 老 道 一 看 他 的 记录 ， 不 由 地 一 惊 ! 
“一 个 晚上 就 想到 了 这 种 绝妙 方法 。 嗯 ， 此 人 大 有 前 途 ! ”老道 频频 点 
头 称 赞 。 然 后 老道 进 仓库 查看 ， 一 看 有 些 艇 的 门 上 ， 贴 着 标签 ， 老 道 
立即 明白 了 小 道 长 的 做 法 ， 对 小 道 说 :“ 孩 子 ， 不 错 ， 但 是 还 需要 再 改 


进 ! 99 
小 道 心里 盘算 ，“ 嗯 ， 这 个 方法 是 解决 了 第 一 个 问题 ， 但 是 每 个 簇 


门 上 都 贴 一 个 标签 ， 这 样 是 不 太 像样 。 而 且 寻 找 未 被 占用 的 族 的 效率 
还 是 那么 低 ， 还 是 需要 把 所 有 已 经 占用 的 族 找 出 来 ， 再 比 对 选 出 没有 


使 用 的 空 族 。 而 且 我 这 么 一 弄 ， 找 空 簇 的 效率 比 原来 还 差 了 ， 因 为 原 
来 已 经 使 用 的 族 都 会 被 记录 在 货物 描述 中 的 字段 中 ， 现 在 把 这 个 字段 
缩减 成 一 个 字 了 ， 这 样 每 次 找寻 的 时 候 ， 还 得 去 仓库 中 实际 一 个 门 一 
个 门 地 去 抄 下 已 经 使 用 的 族 ， 还 不 如 直接 在 本 子 上 找 来 得 快 。 这 个 问 


题 得 解决 ! ” 


思考 : 有 既然 要 拿 掉 贴 在 门 上 的 标签 ， 那 么 就 必须 找 另外 一 个 
地 方 存放 标签 ， 所 以 只 能 存放 到 我 的 记录 本 上 。 可 是 各 个 簇 
的 路 标 我 都 记录 在 本 子 上 ， 用 一 个 什么 数据 结构 好 呢 ? 货物 
描述 那 三 个 字段 肯定 不 能 再 修改 了 ， 那 样 已 经 很 完美 了 ,不 
能 破坏 它 。 那 么 就 需要 再 自己 定义 一 个 结构 来 存放 这 些 路 标 
之 间 的 关系 ， 而 且 每 个 货物 的 路 标 还 不 能 混淆 ， 混 了 就 惨 
了 。 他 在 纸 上 写 写 画 画 ， 不 知 不 觉 把 整个 仓库 的 禾 画 出 来 
了 ， 从 第 一 个 复 ， 到 最 后 一 个 簇 ， 都 用 一 个 方 格 标识 ， 然 后 
他 参照 “冬瓜 ，10000 斤 ， 首 得 1” 这 个 例子 ， 下 一 簇 是 簇 10， 
那么 他 在 艇 1 的 格子 上 写 上 了 “ 艇 10”， 然 后 他 找到 第 10 个 格 
子 ， 也 就 是 代表 艇 10 的 格子 ， 在 艇 10 格 子 里 面 写 上 “ 艇 90”， 
也 就 是 10 号 艇 的 下 一 禾 路 标 。 然 后 继续 找到 90 号 族 ， 此 时 他 
在 这 个 格子 里 写 上 “结束 ”。 接 着 他 又 举 了 几 个 例子 ， 分 别 画 
了 上 去 。 就 这 么 逐渐 睡 着 了 。 


第 二 天 早晨 ， 小 道士 迷 迷糊 糊 地 起 来 了 ， 只 见 张 道 长 已 经 在 他 的 
面前 ， 带 着 赞许 的 笑容 。“ 孩 子 ， 你 累 了 ， 不 错 不 错 ， 你 终于 把 所 有 问 
题 都 解决 了 啊 ! ” 张 老道 摸 着 小 道士 的 头 ， 称 赞 地 说 道 。 小 道士 还 不 知 
道 是 怎么 回 事 呢 ， 他 告诉 张 老道 说 ， 他 还 没 想 出 来 呢 。 老 道 大 笑 说 : 
“哈哈 哈哈 ， 你 看 看 你 画 在 纸 上 的 图 ， 这 不 是 已 经 解决 了 么 ?哈哈 哈哈 
哈 。” 说 完 老 道 扬 长 而 去 。 


小 道士 一 头 雾 水 ， 看 着 那 张 画 ， 这 才 想 起 了 昨 晚 的 思考 。“ 对 啊 ， 
这 张 图 不 就 行 了 么 ?这 就 是 我 所 要 找 的 数据 结构 啊 ! ”接着 ， 小 道士 把 
图 重新 画 了 一 张 ， 工 工整 整地 夹 在 了 记录 本 里 面 。 这 时 ， 来 了 一 个 取 
货 的 人 ， 他 告诉 小 道士 说 :“ 二 库 区 ， 南 瓜 ，10000 斤 。”* 道 十 说 :“ 稍 
等 。” 然 后 立即 查询 二 库 区 的 记录 本 ， 找 到 南瓜 的 记录 ， 发 现 首 徐 是 
128。 然 后 立即 到 那 张 图 上 找到 第 128 号 簇 所 在 的 格子 ， 发 现 上 面 写 的 
是 “ 簇 168”。 继 续 找 到 第 168 号 格子 ， 上 面 写 的 是 “得 2006”。 立 即 找到 
第 2006 个 格子 ， 只 见 上 面 写 的 是 “结束 "。 然 后 他 通知 库 管 员 : “请 将 第 
128、168、2006 三 个 簇 的 货物 提取 出 来 给 我 。” 不 一 会 儿 ， 货 物 到 了 ， 
交 货 签字 。 小 道士 悦 然 大 悟 ,，“ 太 完美 了 ! ! ” 


紧 接 着 ， 又 来 了 一 个 存货 的 人 ， 他 有 西瓜 500 斤 要 存放 到 1 库 区 。 
小 道士 立即 查看 那 张 图 ， 一 目 了 然 。 只 要 格子 上 没有 写字 的 就 是 空 
徐 ， 就 可 以 用 来 存放 货物 。 所 以 道士 立即 找到 一 个 空 着 的 50 号 往来 存 
放 这 500 斤 西瓜 。 存 放 完 毕 之 后 ， 在 对 应 的 这 个 格子 上 写 上 “结束 ”， 
为 500 斤 的 数量 一 个 房间 就 够 了 ， 更 不 用 说 一 个 徐 了 (最 多 8 个 房 
间 ) 。 接 着 也 在 1 库 区 的 记录 本 上 增加 一 条 记录 “西瓜 500 斤 首 艇 50”。 


道士 发 现 ， 第 二 个 问题 也 就 是 查找 未 被 使 用 的 得 的 问题 ， 自 从 有 
了 这 张 图 ， 就 自然 解决 了 。 道 士 非常 兴奋 ， 同 时 也 佩服 张 真 人 ， 是 他 
引导 着 自己 一 步 一 步 解 决 问题 的 。 


5.6.5 ”宽容 似 海 一 一 设计 也 要 像 心胸 一 样 宽 


随 着 仓库 业务 的 不 断 成 熟 ， 小 道士 的 技能 越 来 越 熟 练 ， 他 开始 考 
虑 描述 货物 的 三 个 字段 : 名 称 、 数 量 、 存 放 的 第 一 个 族 。 随 着 国民 生 
产 力 水 平 不 断 提高 ， 各 种 层出不穷 的 产品 被 生产 出 来 ， 它 们 有 些 具 有 
一 些 奇特 的 属性 。 所 以 小 道士 准备 增加 字段 来 表述 一 件 货 物 更 多 的 属 


性 ， 比 如 送 货 时 间 、 只 读 、 隐 藏 等 各 种 伦 哨 属 性 。 同 时 ， 那 张 图 也 不 
能 满足 要 求 了 ， 因 为 随 着 生产 力 发 展 ， 仓 库 每 平方 米 造价 越 来 越 低 ， 
武当 决定 扩大 仓库 容量 。 这 样 仓 库 中 所 包含 的 簇 数 量 就 大 大 增加 了 ， 
甚至 成 几何 数量 级 增长 ， 所 以 族 号 码 越 来 越 大 ， 甚 至 超过 了 亿 。 要 记 
录 这 么 多 位 的 数字 ， 本 来 那个 小 格子 就 写 不 开 了 ， 所 以 需要 增 大 格子 
的 宽度 ， 以 便 能 写 下 更 多 的 数字 位 数 。 以 前 每 个 格子 是 2 字 节 (16 位 ) 
长 度 ， 现 在 扩展 到 了 4 字 节 (32 位 )。 而 据 传 江湖 上 另 一 位 大 侠 已 经 将 
格子 的 宽度 扩展 到 了 128 位 。 


这 位 小 道 长 姓 字 名 谁 ? 因为 当时 张 真 人 收留 他 的 时 候 ， 发 现 他 身 
板 有 点 软 ， 不 适合 练武 。 但 思维 敏捷 ， 适 合 练 心 法 ， 所 以 给 他 一 个 道 
号 叫做 微软 。 


就 这 样 ， 仓 库 又 运作 了 两 年 。 
5.6.6 ”老将 出 马 一 一 权威 发 布 


仓库 存储 容量 不 断 增 加 ， 仓 库 管 理 技 术 方面 却 并 没有 什么 进步 ， 
还 是 沿袭 两 年 前 那 一 套 运 作 模 式 。 这 显然 已 经 不 适应 现代 仓库 了 ， 所 
以 造成 入 库 等 待 、 处 理 速度 逐渐 变 慢 等 一 系列 的 问题 。 张 真人 决定 跟 
上 时 代 ， 要 研究 出 一 套 新 的 仓库 运作 模式 ， 并 且 定 义 出 一 个 规范 ， 让 
全 天 下 的 仓库 都 沿袭 这 个 规范 来 运作 。 张 老道 先 仔细 考察 了 微软 道士 
的 运作 模式 ， 然 后 根据 现代 仓库 管理 的 特点 ， 提 出 了 一 系列 的 解决 方 


杀 。o 


现代 仓库 管理 要 求 入 库 出 库 速 度 快 ， 由 于 在 仓库 硬件 方面 提高 很 
快 ， 有 了 更 加 新 式 的 传送 融和 机 器 人 等 机 器 ， 所 以 大 大 提高 了 操作 简 
化 度 ， 减 轻 了 库 管 员 的 负担 。 库 管 员 只 需要 阅读 机 器 的 随机 手册 ( 驱 


动 程序 ) 便 可 以 轻松 地 完成 操作 。 与 此 同时 ， 对 于 理 货 员 这 块 技术 并 
没有 什么 新 的 突破 ， 因 为 理 货 这 块 主要 靠 好 的 算法 ， 并 不 需要 硬件 支 
持 ， 除 了 那些 记录 本 之 外 。 而 从 仓库 中 取出 记录 本 的 速度 ， 由 于 库 管 
员 操 作 迅 速 ， 所 以 也 不 在 话 下。 关键 就 看 理 货 算 法 了 。 这 是 任何 硬件 
都 不 能 解决 的 问题 。 


首先 张 老 道 通 过 观察 、 记 录 ， 发 现 一 般 货 物 就 算是 存放 到 不 连续 
的 簇 中 ， 这 些 簇 往往 也 是 局 部 连续 的 ， 比 如 1、2、3、5、6、7、100、 
101、102， 其 中 1、2、3 就 是 局 部 连续 ，5、6、7 也 是 ，100、101、102 
也 是 。 而 不 太 可 能 出 现 一 个 货物 占用 了 1、56、168、2008 簇 这 种 情 
况 。 如 果 此 时 不 是 一 个 簇 一 个 簇 地 去 找 路 标 ， 而 是 一 段 一 段 地 去 找 ， 
这 样 会 节约 很 多 时 间 和 精力 。 比 如 簇 段 1~~3， 簇 段 5~~7， 簇 段 100~ 
102。 这 样 就 大 大 简化 了 路 标 。 还 有 其 他 的 一 些 改进 方式 ， 如 直接 将 一 
些小 货物 存放 到 它们 的 描述 记录 中 ( 驻 留 文 件 ) 。 只 有 描述 记录 中 放 
不 下 时 ， 才 到 仓库 其 他 区 域 找 一 些 簇 来 存放 ， 然 后 记录 这 些 艇 段 。 


微软 道士 将 他 的 记录 本 上 的 信息 ， 称 为 Metadata， 即 元 数据 ， 也 
束 是 用 来 描述 其 他 数据 是 怎么 组 织 存放 的 一 种 数据 。 如 果 记 录 本 丢 
失 ， 那 么 纵然 仓库 中 货物 完好 无 损 ， 也 无 法 取出 。 因 为 已 经 不 知道 货 
物 的 组 织 结 构 了 。 


张 真人 最 后 把 微软 道士 实现 的 一 共 三 种 仓库 运作 管理 模式 ， 分 别 
叫做 FAT16、FAT32 和 NTFS， 并 取 名 为 小 道藏 龙 。 


5.6.7 ”一统 江湖 一 一 所 有 操作 系统 都 在 用 


后 来 张 老道 把 这 套 管理 模式 移植 到 了 磁盘 管理 上 ， 这 就 是 胡 动 武 
林 的 所 谓 “ 文 件 系 统 ”。 对 应 仓库 来 说 ， 送 货 人 送 来 的 每 一 件 货 物 都 称 


作 “ 文 件 ”"。 取 货 时 ， 只 要 告诉 理 货 员 文 件 名 称 、 所 要 取出 的 长 度 及 其 
他 一 些 选 项 ， 那 么 理 货 员 就 可 以 从 仓库 中 取出 这 些 数 据 。 


在 一 个 没有 文件 系统 的 计算 机 上 ， 如 果 一 个 程序 要 向 磁盘 上 存储 
一 些 自己 的 数据 ， 那 么 这 个 程序 只 能 自己 调用 磁盘 控制 器 驱动 (无 
VM 的 情况 下 ) ,或 者 调用 VM 提供 的 接口 ， 对 磁盘 写 数 据 。 而 写 完 数 
据 后 ， 很 有 可 能 被 其 他 程序 的 数据 覆盖 掉 。3 引 入 文件 系统 之 后 ， 各 个 
程序 之 间 都 通过 文件 系统 接口 访问 磁盘 ， 所 有 被 写 入 的 数据 都 称 为 一 
个 文件 ， 有 着 自己 的 名 字 ， 是 一 个 实体 。 而 且 其 他 程序 写 入 的 数据 ， 
会 将 其 他 人 的 文件 效 据 覆 盖 择 ， 因 为 文件 系统 会 计算 并 保障 这 一 
点 


/IO 


除 此 之 外 ， 不 仅 张 真人 的 NTFS 文 件 系统 取得 了 巨大 的 成 功 ， 适 应 
了 现代 的 要 求 。 与 此 同时 ， 少 林 的 雷 牛 方丈 也 创造 出 了 其 他 的 文件 系 
统 ， 比 如 EXIT 一 代 、 二 代 、 三 代 和 JFS 等 文件 系统 。 一 时 间 文 件 系统 思 
想 的 光环 是 照耀 江湖 ! ! 


5.7 “文件 系统 中 的 IO 方式 
那么 ， 有 了 文件 系统 之 后 ， 整 个 系统 是 个 什么 架构 ? 
图 5-75 为 Windows 系 统 的 IO 简化 流程 图 。 
图 5-75 “Windows 系 统 的 IO 流程 图 


图 中 的 IO Manager 是 操作 系统 内 核 的 一 个 模块 ， 专 门 用 来 管理 
IO， 并 协调 文件 系统 、 卷 、 磁 盘 驱 动 程序 各 个 模块 之 间 的 运作 。 整 个 
流程 解释 如 下 。 


" 某 时 刻 ， 某 应 用 程序 调用 文件 系统 接口 ， 准 备 写 入 某 文件 从 某 
个 字 节 开始 的 若干 字 节 。 

=。 IO Manager 最 终 将 这 个 请 求 发 送 给 文件 系统 模块 。 

" 文件 系统 将 某 个 文件 对 应 的 逻辑 偏 移 映 射 成 卷 的 LBA 地 址 偏 
移 。 

”文件 系统 向 IO Manager 请 求 调用 卷 管理 软件 模块 的 接口 。 


卷 管理 软件 将 卷 对 应 的 LBA 地 址 偏 移 翻 译 映射 成 实际 物理 磁盘 对 
应 的 LBA 地 址 偏 移 ， 并 请 求 调用 磁盘 控制 器 驱动 程序 。 


= IO Manager 向 磁盘 控制 器 驱动 程序 请 求 将 对 应 LBA 地 址 段 的 数 
据 从 内 存 写 入 某 块 物理 磁盘 。 


文件 系统 的 IO 包 括 同步 1O、 异 步 10、 阻 塞 / 非 阻塞 IO 和 Direct IO。 


(1) 同步 10: 同步 IO 是 指 程序 的 某 一 个 进程 或 者 线程 ， 如 果 某 
时 刻 调 用 了 同步 IO 接口 ， 则 IO 请 求 发 出 后 ， 这 个 进程 或 者 线程 必须 等 
待 IO 路 径 上 的 下 位 程序 返回 的 信号 (不 管 是 成 功 收 到 数据 的 信号 还 是 
失败 的 信号 ) 。 如 果 不 能 立刻 收 到 下 位 的 信号 ; 则 一 直 处 于 等 待 状 
态 ， 不 继续 执行 后 续 的 代码 ， 被 操作 系统 挂 起 ， 操 作 系统 继续 执行 其 
他 的 进程 或 者 线程 。 


而 如 果 在 这 期 间 ， 倘 若 IO 的 下 位 程序 尚未 得 到 上 位 程序 请 求 的 数 
据 ， 此 时 IO 路 径 上 的 下 位 程序 又 可 以 选择 两 种 动作 方式 : 第 一 是 如 果 
暂时 没有 得 到 上 位 程序 请 求 的 数据 ， 则 返回 通知 通告 上 位 程序 数据 未 
收 到 ， 而 上 位 程序 此 时 便 可 以 继续 执行 ;第 二 种 动作 则 是 下 位 程序 也 
等 待 它 自己 的 下 位 程序 来 返回 数据 ， 直 到 数据 成 功 返 回 ， 才 将 数据 送 
给 上 位 程序 。 前 者 就 是 非 阻塞 IO， 后 者 就 是 阻塞 IO 方式 。 


同步 十 阻塞 IO 是 彻底 的 堵 死 状态 ， 这 种 情况 下 ， 除 非 这 个 程序 是 
多 线程 程序 ， 否 则 程序 就 此 挂 死 ， 失 去 响应 。 同 理 ， 异 步 十 非 阻塞 的 
IO 方式 则 是 最 松 耦 合 的 IO 方式 。 


(2) 异步 IO0 : 异步 IO 请 求 发 出 后 ， 操 作 系统 会 继续 执行 本 线程 
或 者 进程 中 后 续 的 代码 ， 直 到 时 间 片 到 时 或 者 因 其 他 原因 被 挂 起 。 异 
步 IO 模式 下 ， 应 用 程序 的 响应 速度 不 会 受 IO 瓶颈 的 影响 ， 即 使 这 个 IO 
很 长 时 间 没 有 完成 。 虽然 应 用 程序 得 不 到 它 要 的 数据 ， 但 不 会 影响 其 
他 功能 的 执行 。 


基于 这 个 结果 ， 很 多 数据 库 在 异步 IO 的 情况 下 ， 都 会 将 负责 把 缓 
存 Flush 到 磁盘 的 进程 (Oracle 中 这 个 进程 为 DBWR 进 程 ) 数量 设置 成 
比较 低 的 数值 ， 甚 至 为 1。 因 为 在 异步 IO 的 情况 下 ，Flush 进 程 不 必 挂 
起 以 等 待 IO 完成 ， 所 以 即使 使 用 很 多 的 Flush 进 程 ， 也 与 使 用 1 个 进程 
效果 差不多 。 


异步 10 和 非 阻塞 IO 的 另 一 个 好 处 是 文件 系统 不 必 立 刻 返 回 数 气 ， 
所 以 可 以 对 上 层 请 求 的 IO 进行 优化 排队 处 理 ， 或 者 批量 向 下 层 请 求 
IO， 这 样 就 大 大 提升 了 系统 性 能 。 


(3) Direct IO : 文件 系统 都 有 自己 的 缓存 机 制 ， 增 加 缓存 就 是 
为 了 使 性 能 得 到 优化 。 而 有 些 应 用 程序 ， 比 如 数据 库 程 序 ， 它 们 有 自 
己 的 缓存 ，IO 在 发 出 之 前 已 经 经 过 自己 的 缓存 算法 优化 过 了 ， 如 果 请 
求 IO 到 达 文 件 系统 之 后 ， 又 被 缓存 起 来 进行 额外 的 优化 ， 融 是 多 此 一 
举 了 ， 既 浪费 了 时 间 ， 又 降低 了 性 能 。 对 于 文件 系统 返回 的 数据 ， 同 
样 也 有 这 个 多 余 的 动作 。 所 以 文件 系统 提供 了 另外 的 一 种 接口 ， 就 是 
Direct IO 接口 。 调 用 这 种 接口 的 程序 ， 其 IO 请 求 、 数 据 请 求 以 及 回 送 
的 数据 将 都 不 被 文件 系统 缓存 ， 而 是 直接 进入 应 用 程序 的 缓存 ， 这 样 


就 提升 了 性 能 。 此 外 ， 在 系统 路 径 上 任何 一 处 引入 缓存 ， 如 果 是 Write 
Back 模 式 ， 都 将 之 来 数据 一 致 性 的 问题 。Direct IO 绕 过 了 文件 系统 的 
缓存 ， 所 以 降低 了 数据 不 一 致 的 风险 。 


提示 : 关于 更 详尽 的 系统 IO 论述 ， 请 参考 本 书后 面 的 章节 。 
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两 三 块 磁盘 做 RAID 0 或 1， 四 五 块 磁盘 做 个 RAID 3、4、5 是 小 事 
一 柱 ， 不 过 太 没 魄力 。 要 玩 就 弄 个 几 十 块 盘 ， 那 才 过 闻 。 这 不 ， 有 人 
发 明了 专门 装 这 些 磁 盘 的 大 柜子 ， 我 们 这 就 去 看 看 这 柜子 是 怎么 回 事 
儿 吧 。 


退隐 江湖 一 一 太 累 了 ， 该 歇 歇 了 

自从 张 真人 创立 了 降 龙 三 掌 之 后 ， 江 湖 各 门 各 派 争 相 修炼 ， 商 人 
不 断 推 出 基于 降 龙 掌 的 新 商品 。 江 湖上 浮躁 之 气 再 次 袭 来 ， 很 少 有 人 
去 钻研 底层 功夫 了 ， 都 是 拿 来 就 用 ， 不 思 进 取 。 几 十 年 过 去 了 ， 张 老 
道 已 经 成 了 头发 区 日 的 老人 。 


这 天 晚上 ， 人 少 星 稀 。 唯 独 天 上 的 北斗 七 星 ， 光 并 还 是 那么 灿 
烂 ， 仿 佛 已 逝去 自 年 的 七 星 大 侠 ， 还 在 天 上 震 舌 钻研 。 


张 真 人 如 今 也 已 经 是 日 发 苑 区， 可 是 知己 已 不 在 。 一 自 年 来 ， 江 
湖上 为 了 利益 你 争 我 抢 ， 反 目 成 做 ， 打 打 杀 杀 。 鸣 呼 哉 ! ! ! 难道 这 
个 江湖 真 要 从 此 衰败 么 ” 张 老 道 失 望 至 极 。 


闻 道 


尘世 浮华 迷人 眼 ， 
梦 中 情境 亦 非 真 
朝 若 闻 道 夕 死 可 ， 
世间 何 处 有 高 人 ? 


第 二 天 ， 张 真人 对 外 宣布 ， 他 从 此 退隐 江湖 ， 不 再 参与 江湖 事 。 
瞬时 间 ， 整 个 江湖 就 像 地 震 了 一 样 ， 人 们 没有 了 主心骨 ， 都 不 知道 该 
干什么 好 了 。 打 打 杀 杀 的 也 不 打 了 ， 商 人 也 疫 得 哆 了 。 很 多 商人 纷纷 
上 武当 来 游说 张 真人 ， 让 他 出 山 ， 包 匠 华 富贵 ， 都 被 张 真 人 一 一 回绝 
了 。 江 湖 又 恢复 了 以 往 的 平静 ， 只 是 这 平静 似乎 预示 着 一 场 更 加 猛烈 
的 暴风 雨 即 将 来 临 。 


前 仆 后 继 一 一 后 来 者 居 上 


话说 有 位 少年 ， 自 幼 好 钻研 和 寻根 问 底 ， 被 人 称 作 “ 隅 一 路 "。 此 
人 不 善于 口头 表达 ， 不 会 忽悠 ， 但 是 如 果 世 界 只 剩 下 他 一 个 人 人， 那么 
他 便 会 爆发 出 神奇 的 力量 。 由 于 内 向 的 性 格 ， 他 吃 了 不 少 亏 ， 但 他 依 
然 我 行 我 素 ， 并 不 在 乎 别人 的 议论 和 猜忌 甚至 是 诈 毁 。 这 位 少年 名 为 
无 忌 。 他 实际 上 也 确实 是 无 所 黑 忌 ， 明 知 山 有 虎 ， 仿 向 虎 山 行 ， 用 天 
真 和 执著 去 挑战 世俗 ， 跌 倒 了 大 不 了 重 来 。 


既然 选择 了 这 条 路 ， 就 要 把 它 走 完 。 孤 独 和 压迫 给 了 他 巨大 的 动 
力 ， 每 天 晚上 都 在 刻苦 学 习 。 他 学 习 IO 大 法 和 磁盘 大 挪移 ， 学 习 七 星 
北斗 阵 和 降 龙 大 法 。 虽 然 他 并 没有 实践 过 这 些 知识 ， 但 是 依然 有 一 股 
力量 促使 他 不 断 地 学 习 钻 研 。 


6.1 初 露 端倪 一 一 外 置 磁盘 柜 应 用 探索 


无 尽 已 经 充分 掌握 了 前 人 留 下 的 心 法 口诀。 在 不 知道 该 做 点 什么 
的 时 候 ， 他 突然 有 了 一 个 想法 。 昌 然 按照 七 星 大 侠 的 RAID 方 式 ， 可 以 
将 多 块 磁盘 做 成 逻辑 盘 ， 但 是 普通 的 服务 器 或 者 PC 机 箱 里 面 ， 也 就 安 
装 两 三 块 磁盘 ， 空 间 就 满 了 。 如 果 做 很 多 块 盘 的 RAID， 把 磁盘 都 放 到 
机 箱 里 面 肯 定 不 行 ， 得 想 个 办 法 来 让 机 器 可 以 带 多 块 磁盘 。 


“ 拿 出 来 ， 拿 出 来 ， 全 部 都 掏 出 来 ! ”他 找 来 一 台 机 器 ， 装 了 一 块 
Ultra 320 SCSI 卡 ， 这 个 卡 只 有 一 个 通道 ， 可 以 连接 15 块 磁盘 。 但 是 15 
块 盘 怎么 放 入 一 个 机 箱 呢 ? 太 困 难 了 ， 所 以 必须 把 这 些 盘 放 到 机 箱 外 
面 。 但 是 连 线 和 电源 问题 又 不 好 办 。 他 索性 找 来 一 个 箱子 ， 把 所 有 磁 
盘 都 放 在 这 个 箱子 里 。 箱 子 有 独立 电源 和 散热 系统 ， 保 障 磁 盘 的 稳定 
运行 。 接 口 方面 ， 内 部 其 实 就 是 一 条 SCSI 线 绕 ， 只 不 过 将 它 做 到 了 电 
路 板 上 ， 然 后 在 外 面 放 一 个 接口 ， 这 个 接口 是 用 来 连接 主机 上 的 SCSI 
卡 的 。 如 果 主 机 上 装 的 是 不 带 RAID 功 能 的 SCSI 卡 ， 那 么 加 电 之 后 ， 
主机 会 识别 到 磁盘 箱 中 的 所 有 磁盘 。 箱 子 中 有 多 少 磁 盘 ， 在 OS 磁 盘 管 
理 器 中 就 会 显示 多 少 块 磁 盘 。 如 果 主 机 上 安装 的 是 带 RAID 功 能 的 
SCSI 卡 ， 那 么 可 以 用 这 个 RAID 卡 先 来 对 认 到 的 多 块 磁盘 做 一 下 
RAID， 划 分 出 逻辑 盘 ， 这 时 OS 识别 到 的 就 是 逻辑 磁盘 ， 而 不 会 认 到 
箱子 中 的 物理 磁盘 。 


这 种 简单 的 磁盘 箱 如 图 6-1 所 示 ， 无 忌 给 它 取 了 个 学 名 ， 叫 做 
“JBOD”， 也 就 是 Just a Bound Of Disks, “只 是 一 串 磁盘 ”， 这 个 描述 非 
常 形象 。 无 尽 立 即将 这 个 做 法 公布 了 出 去 ， 没 想到 大 受 欢 迎 ， 一 时 间 
各 个 厂家 争 相 生产 这 种 磁盘 柜 ， 在 市 场 上 卖 得 很 火 。 


图 6-1 JBOD 磁 盘 阵 列 示 意图 


6.2 ”精益 求 精 一 一 结合 RAID 卡 实现 外 置 磁盘 阵 


列 


思考 : 能 否 把 RAID 功 能 做 到 磁盘 箱 中 ， 因 为 如 果 要 调整 
RAID 的 话 ， 还 需要 重启 主机 等 ， 会 影响 主机 应 用 。 如 果 做 到 
了 磁盘 箱 中 ， 那 么 在 主机 上 就 不 需要 做 什么 ， 只 要 在 磁盘 箱 
中 做 完 之 后 连接 到 主机 ， 主 机 重启 之 后 或 者 不 用 重启 就 能 认 
到 新 逻辑 盘 了 。 


经 过 多 次 实验 ， 终 于 做 成 了 一 个 设备 。 少 年 把 这 种 自 带 RAID 控 制 | 
器 的 磁盘 箱 叫 做 < 磁盘 阵列 ”。 自 此 在 江湖 上 有 了 一 个 不 成 文 的 规定 ， 
凡是 JBOD 都 叫做 磁盘 柜 ， 凡 是 自 带 RAID 控 制 器 的 盘 柜 就 叫做 磁盘 阵 
列 或 者 盘 阵 。 盘 柜 和 盘 阵 ， 前 者 只 是 一 串 外 置 的 磁盘 ， 而 后 者 自 融 
RAID 控 制 器 。 图 6-2 为 JBOD 磁 盘 柜 实物 图 。 


图 6-2 ” JBOD 磁盘 柜 实 物 图 


盘 阵 是 在 盘 柜 的 基础 上 ， 将 内 部 的 磁盘 经 过 其 自 带 的 RAID 控 制 器 
的 分 分 合 合 ， 虚 拟 化 成 逻辑 人 磁盘， 然后 经 过 外 部 SCSI 接 口 连 接 到 主机 
上 端的 SCSI 接 口 。 此 时 ， 整 个 盘 阵 对 于 主机 来 说 ， 就 是 主机 SCSI 总 线 


上 的 一 个 或 者 多 个 设备 ， 具 有 一 个 或 者 多 个 SCSI ID。 所 有 逻辑 磁盘 都 
以 LUN 的 形式 呈现 给 主机 。 


如 图 6-3 所 示 ， 盘 阵 中 的 SCSI 控 制 器 在 逻辑 上 有 两 个 部 分 ， 右 边 的 
S2 控 制 器 连接 了 一 条 SCSI 总 线 ， 上 面 有 若干 磁盘 。 左 边 的 S1 控 制 器 同 
样 也 连接 了 一 条 SCSI 总 线 ， 但 是 上 面 只 有 两 个 设备 : 一 个 就 是 主机 
SCSI 控 制 器 ， 另 一 个 就 是 它 自己 。 


图 6-3” 带 RAID 控 制 器 的 磁盘 阵列 示意 图 


毫 无 疑问 ， 在 左边 的 SCSI 总 线 上 ， 盘 阵 SCSI 控 制 器 是 作为 Target 
模式 ， 被 主机 SCSI 控 制 器 操控 ， 处 于 被 动 地 位 ; 在 右边 的 SCSI 总 线 
上 ， 盘 阵 的 S2 控制 器 成 了 Initiator 模 式 ， 它 在 右边 总 线 上 占据 主动 权 ， 
拥有 最 高 优先 级 ， 而 各 个 磁盘 均 为 SCSI Target， 受 控 于 Initiator。 当然 
S1 和 S2 不 一 定 就 是 两 块 物理 上 分 开 的 心 片 ， 很 有 可 能 就 是 一 块 单独 的 
心 片 逻 辑 地 分 成 两 个 部 分 。 甚 至 有 可 能 将 RAID 忆 片 和 SCSI 控 制 器 心 
片 全 部 集成 到 一 个 大 蕊 片 中 。 


图 6-4 所 示 的 是 一 个 SATA 盘 阵 控 制 器 的 主板 示意 图 。 
图 6-4 ”一 个 可 以 连接 16 块 SATA 磁 盘 的 小 型 RAID 控 制 器 主板 
图 6-5 所 示 的 是 一 个 小 型 盘 阵 控制 器 的 内 部 实物 图 。 
图 6-5 一 个 小 型 控制 器 实物 图 
图 6-6 所 示 的 是 一 台 盘 阵 的 磁盘 插 槽 实物 图 。 


图 6-6 ”磁盘 插 模 、 背 板 


图 6-7 所 示 的 为 这 全盘 阵 的 电源 模块 插 槽 。 


图 6-7 ”电源 模块 插 模 
6.3 ”独立 宣言 一 一 独立 的 外 部 人 磁盘 阵列 


主机 由 于 肚 量 太 小 容 不 下 想法 太 多 的 磁盘 ! 终于 磁盘 从 主机 内 部 
跑 出 来 了 ,磁盘 们 在 外 置 的 大 箱子 里 ， 在 RAID 控 制 器 的 带领 下 ， 欣 欣 
向 荣 ， 勇 往 直 前 ! 


磁盘 和 控制 器 发 布 了 独立 宣言 ， 彻 底 摆脱 了 主机 的 束缚 ， 成 为 与 
主机 对 峙 的 一 个 独立 的 外 部 设备 。 从 此 以 后 ， 存 储 技术 才 真 正 的 成 为 
一 个 独立 的 庞大 学 科 ， 并 不 断 发 展 壮大 。 本 书后 面 的 章节 会 介绍 更 多 
的 存储 技术 ， 包 括 存储 网 络 和 网 络 存储 。 


1. 前 端 和 后 端 


对 于 盘 阵 来 说 ， 图 6-3 中 RAID 控 制 器 的 左边 就 称 为 “前 端 "， 右 边 
则 称 为 “后 端 "。 面 向 主机 对 外 提供 服务 的 就 叫 前 端 ， 面 向 自己 管理 的 
磁盘 用 于 内 部 管理 而 外 部 不 需要 了 解 的 部 分 就 叫做 后 端 。 同 样 ， 对 于 
主机 来 说 ， 它 的 SCSI 适 配器 反而 成 了 后 端 ， 而 以 太 网 卡 可 能 变 成 了 前 
端 。 因 为 对 于 主机 来 说 ， 直 接 面 对 外 部 客户 机 的 是 以 太 网 ， 而 管理 磁 
盘 的 工作 不 必 对 客户 说 明 ， 所 以 变 成 了 后 端 。 


2. 内 部 接口 和 外 部 接口 


对 于 盘 阵 来 说 ， 还 有 一 个 内 部 接口 和 外 部 接口 的 概念 。 内 部 接口 
是 指 盘 阵 RAID 控 制 器 连接 其 内 部 磁盘 时 用 的 接口 ， 比 如 可 以 连接 IDE 


磁盘 、SCSI 磁 盘 、SATA 磁 盘 和 FC 磁 盘 等 。 外 部 接口 是 指 盘 阵 控 制 器 
对 于 主机 端 ， 也 就 是 前 端 ， 提 供 的 是 什么 接口 ， 比 如 SCSI 接 口 、FC 接 
口 等 。 内 部 接口 可 以 和 外 部 接口 相同 ， 比 如 内 部 用 SCSI 磁 盘 ， 外 部 也 
用 SCSI 接 口 连接 主机 ， 这 种 情况 也 就 是 图 6-3 中 所 示 的 情况 。 


内 外 接口 也 可 以 不 同 ， 比 如 内 部 连接 IDE 磁 盘 ， 外 部 却 用 SCSI 接 
口 连接 主机 〈 仅 限于 盘 阵 ， 盘 柜 必 须 内 外 接口 一 致 ) 。 盘 阵 控 制 器 是 
一 个 虚拟 化 引擎 ， 它 的 前 端 和 后 端 可 以 不 一 致 ， 它 可 以 向 主机 报告 其 
有 多 少 LUN， 尽 管内 部 的 磁盘 是 IDE 的 。 


3. 多 外 部 接口 


同时 ， 我 们 也 不 要 被 盘 阵 上 为 什么 可 以 有 多 个 外 部 SCSI 接 口 而 感 
到 困惑 。 有 多 个 接口 是 为 了 连接 多 台 主 机 用 的 。 每 个 由 盘 阵 RAID 控 制 
器 生成 的 逻辑 磁盘 ， 可 以 通过 设置 只 分 配 (Assign/Map) 到 其 中 一 个 
口 ， 比 如 LUN1 被 分 配 到 了 1 号 口 ， 那 么 连接 到 2 号 口 的 主机 就 不 会 看 
到 这 个 LUN。 也 可 以 把 一 个 LUN 同 时 分 配 (或 叫做 Map， 映 射 ) 到 两 
个 口 ， 那 么 两 台 主机 能 同时 识别 出 这 个 LUN。 让 两 台 主 机 同时 对 一 个 
LUN 写 数据 ， 底 层 是 允许 的 ， 但 是 很 容易 造成 数据 的 不 一 致 ， 除 非 使 
用 集群 文件 系统 ， 或 者 高 可 用 性 系统 软件 的 参与 。 


4. 关于 LUN 


LUN 是 SCSI 协 议 中 的 名 词 ， 我 们 前 面 也 描述 过 。LUN 是 SCSI ID 
的 更 细 一 级 的 地 址 号 ， 每 个 SCSIID (Target ID) 下 面 还 可 以 有 更 多 的 
LUN ID 《〈 视 ID 字段 的 长 度 而 定 ) 。 对 于 大 型 磁盘 阵列 来 说 ， 可 以 生成 
几 百 甚至 几 千 个 虚拟 磁盘 ， 为 每 个 虚拟 磁盘 分 配 一 个 SCSI ID 是 远 远 不 
够 用 的 。 因 为 每 个 SCSI 总 线 最 多 允许 16 个 设备 接 入 (目前 32 位 SCSI 标 


准 最 大 允许 32 个 设备 ) 。 要 在 一 条 总 线 上 放置 多 于 16 个 物理 设备 也 是 
不 可 能 的 ，LUN 就 是 这 样 一 个 次 级 寻 址 ID。 磁 盘 阵 列 可 以 在 一 个 SCSI 
ID 下 虚拟 多 个 LUN 地 址 ， 每 个 LUN 地 址 对 应 一 个 虚拟 磁盘 ， 这 样 就 可 
以 在 一 条 总 线 上 生成 众多 虚拟 磁盘 ， 以 满足 需求 。 


后 来 ， 人 们 把 硬件 层次 生成 的 虚拟 磁盘 ， 统 一 称 为 "LUN”， 不 管 
是 不 是 在 SCSI 环 境 下 ， 虽 然 LUN 最 初 只 是 SCSI 体 系 里 面 的 一 个 概念 。 
而 由 软件 生成 的 虚拟 磁盘 ， 统 一 称 为 “ 卷 >， 比 如 各 种 卷 管理 软件 、 软 
RAID 软 件 等 所 生成 的 虚拟 磁盘 。 


有 些 盘 阵 配 有 液晶 操控 面板 ， 如 图 6-8 所 示 。 而 有 些 低 端的 盘 阵 更 
是 在 液晶 面板 周围 加 上 了 按钮 ， 用 来 对 盘 阵 进行 简单 快速 的 配置 ， 比 
如 查看 磁盘 状态 、 设 置 RAID、 划 分 逻辑 磁盘 等 。 这 种 方式 极其 简化 了 
配置 操作 ， 一 般 用 户 通 过 阅读 说 明 书 就 可 以 完成 配置 。 不 过 液晶 屏幕 
比较 小 ， 能 完成 的 功能 不 多 ， 操 作 相 比 用 鼠标 要 麻烦 。 所 以 一 些 盘 阵 
提供 了 COM 口 或 者 以 太 网 接口 ， 可 以 用 PC 连接 这 些 接口 与 盘 阵 通信 ， 
通过 仿真 终端 或 Web 界 面 就 可 以 对 盘 阵 进行 配置 。 


图 6-8 一 个 带 液晶 面板 的 盘 阵 前 视图 


提示 : 用 户 用 PC 与 盘 阵 的 COM 口 或 专用 于 配置 的 以 太 网 接 
口 连接 ， 完 全 是 为 了 配置 磁盘 阵列 的 各 种 参数 ， 而 不 是 通过 
这 些 配 置 专用 接口 从 磁盘 阵列 的 磁盘 上 读 写 数据 。 


6.4 ”双龙 戏 珠 一 一 双 控 制 器 的 高 安全 性 磁盘 阵列 


如 果盘 阵 内 部 只 有 一 个 控制 器 模块 ， 那 么 会 是 一 个 SPOF (Single 
Point Of Failure) ， 即 单 点 故障 点 。 所 以 一 些 高 端的 盘 阵 内 部 都 有 两 个 
控制 器 ， 互 为 见 余 。 分 配给 其 中 一 个 控制 器 的 LUN 逻 辑 卷 ， 可 以 在 这 


个 控制 器 因 故 障 失效 的 时 候 ， 目 动 袜 另 一 个 工作 正音 的 控制 器 接管 ， 
继续 处 理 针 对 这 个 LUN 的 读 写 请 求 。 两 个 控制 器 平时 都 管理 各 自 的 
LUN, 一 旦 发 现 对 方 故障 ， 那 么 就 会 自动 将 所 有 LUN 都 接管 过 来 。 


因为 如 此 ， 两 个 控制 器 之 间 需 要 相互 通信 ， 通 告 对 方 自己 的 状态 
以 及 交互 一 些 其 他 的 信息 。 两 个 控制 器 之 间 可 以 用 PCI 总 线 连 接 ， 也 
可 以 用 厂商 自己 设计 的 总 线 来 连接 ， 没 有 统一 标准 。 至 于 交互 信息 的 
逻辑 和 内 容 ， 更 是 因 品 牌 而 人 不同， 而 没有 标准 来 统一 它们 。 


为 了 避免 单 点 故障 ， 给 盘 阵 安装 一 个 额外 的 控制 器 ， 这 个 控制 器 
和 原来 的 控制 器 在 它们 后 端 共享 一 条 或 者 多 条 磁盘 总 线 。 两 个 控制 器 
可 以 使 用 Active-Standby 方 式 ， 也 可 以 使 用 Dual-Active 的 互 备 方式 连 
接 。 


1. Active-Standby 


这 种 方式 又 称 HA (High Availability 方 式 ， 高 可 用 性 ) ， 即 两 个 控 
制 器 中 同一 时 刻 只 有 一 个 在 工作 ， 另 外 一 个 处 于 等 待 、 同 步 和 监控 状 
态 。 一 旦 主 控制 器 发 生 故 障 ， 则 备份 控制 器 立即 接管 其 工作 。 


对 于 内 部 为 SCSI 总 线 的 双 控制 器 盘 阵 ， 在 机 头 内 部 的 一 条 SCSI 总 
线 中 ， 两 个 控制 器 可 以 分 别 占 用 一 个 ID ， 这 样 剩余 14 个 ID 给 磁盘 使 
用 。 平 时 只 有 主 控制 器 这 个 ID 作为 Initiator 向 除了 备份 控制 器 ID 之 外 总 
线 上 的 其 他 ID (也 就 是 所 有 磁盘 的 ID) 来 发 送 指 令 从 而 读 写 数据 。 


同时 备份 控制 器 与 主 控制 器 之 间 保 持 通信 和 缓存 同步 ， 一 旦 主 控 
制 器 与 备份 控制 器 失去 联系 ， 那 么 备份 控制 器 立即 接管 主 控制 器 。 同 
时 为 了 预防 脑 分 裂 〈 见 下 文 ) ， 备 份 控制 器 在 接管 之 前 需要 通过 某 种 


机 制 将 主 控制 器 断 电 或 者 重启 ， 释 放 其 总 线 使 用 权 ， 然 后 自己 接管 后 
端 总 线 和 前 端 总 绪 。 


提示 : 主机 端 必须 用 两 个 SCSI 适 配器 分 别 连 接 到 盘 阵 的 两 个 
控制 器 上 ， 才 能 达到 宛 余 的 目的 ， 但 是 这 样 做 主机 端 必须 通 
过 某 种 方式 感知 到 这 种 HA 策略 并 在 故障 发 生 时 切换 。 目 前 ， 
由 于 SCSI 盘 阵 本 身 比 较 低 端 ， 可 接 入 容量 不 大 ， 所 以 没有 双 
控制 器 的 设计 ， 以 上 文字 只 是 对 HA 机 制 的 一 种 描述 。 但 是 对 
于 本 书后 面 要 讲述 的 FC 盘 阵 来 说 ， 使 用 双 控 制 器 以 及 在 主机 
端 使 用 双 FC 适 配 卡 是 非常 普遍 的 。 


2. Dual-Active 


顾名思义 ， 这 种 双 控 制 器 的 实现 方式 是 两 个 控制 器 同时 在 工作 ， 
每 个 控制 器 都 对 所 有 后 端的 总 线 有 通路 ， 但 是 每 个 总 线 平时 只 被 其 中 
一 个 控制 器 管理 ， 另 一 个 控制 器 不 去 触动 。 可 以 将 后 端 一 半数 量 的 总 
线 交 由 一 个 控制 器 管理 ， 另 一 半 交 由 另外 一 个 控制 器 管理 。 一 旦 其 中 
一 个 控制 损坏 ， 则 另外 一 个 控制 器 接管 所 有 总 线 。 这 种 方式 比 Active- 
Standby 方 式 高 效 很 多 。 


3。 脑 分 裂 (Split Brain) 


这 个 词 明显 有 点 恐怖 。 设 想 一 下 ， 如 果 某 时 刻 连接 两 个 控制 器 之 
间 的 通路 出 现 了 问题 ， 而 不 是 其 中 某 个 控制 器 死机 ， 此 时 两 个 控制 器 
其 实 都 是 工作 正常 的 ， 但 是 两 者 都 检测 不 到 对 方 的 存在 ， 所 以 两 者 都 
党 试 接管 所 有 总 线 ， 这 时 候 就 是 所 谓 的 “ 脑 分 裂 ”， 即 同时 有 两 个 活动 
控制 器 来 操控 所 有 后 端 设备 。 这 种 情况 是 可 怕 的 ， 类 似 精神 分 裂 证 。 


如 何 预防 这 种 情况 呢 ? 通常 做 法 是 利用 一 个 仲裁 者 来 选择 到 底 使 
ee 总 线 ， 比 如 用 一 两 个 控制 器 都 能 访问 到 的 磁 

， 控 制 器 向 其 上 写 入 自己 的 仲裁 信息 。 一 旦 发 生 脑 分 裂 ， 二 者 就 参 
考 这 个 磁盘 ， 谁 最 后 写 入 了 信息 就 把 控制 权 给 谁 。 或 者 用 一 种 电源 控 
制 器 ， 一 旦 其 中 某 个 控制 器 要 接管 ， 那 么 不 管 对 方 是 确实 发 生 故 障 了 
还 是 正常 的 ， 这 个 控制 器 都 会 向 电源 控制 器 发 送信 号 ， 让 对 方 重启 并 
进入 Standby 状 态 ， 这 样 就 成 功 地 预防 了 脑 分 裂 。 


接管 了 总 线 的 控制 器 一 般 都 会 对 总 线 上 所 有 磁盘 进行 SCSI 
Reserve 操 作 ， 即 预订 操作 。 总 线 上 所 有 目标 设备 一 旦 被 预订 ， 它 们 便 
不 再 接受 其 他 控制 器 的 IO 请 求 。SCSI 2 标准 中 的 SCSI Reserve 不 允许 其 
他 控制 器 读 写 被 原 有 控制 器 预订 的 设备 ， 但 是 SCSI 3 中 的 Reserve 策 略 
有 了 一 些 灵 活性 ， 可 以 允许 其 他 控制 器 对 已 经 被 预订 的 目标 设备 进行 
读 IO， 而 写 IO 则 被 拒绝 。 


图 6-9 所 示 的 是 一 双 控制 器 盘 阵 机 头 示意 图 。 
图 6-9” 双 控制 器 磁盘 阵列 示意 图 
提示 : 实际 中 ， 由 于 SCSI 盘 阵 比较 低 端 ， 一 般 没 有 这 种 设计 
模式 的 产品 。 
6.5 ”龙头 凤 尾 一 一 连接 多 个 扩展 柜 


一 条 SCSI 总 线 最 多 可 以 连接 15 块 磁盘 ， 为 了 这 15 块 磁盘 ， 大 动 干 
戈 地 赋予 两 个 昂贵 的 RAID 控 制 器 ， 有 点 不 值 。 为 了 把 这 两 个 控制 器 充 
J 榨取 最 后 一 滴 性 能 ，15 块 磁盘 不 够 ， 那 就 再 加 。 前 面 说 

一 个 控制 器 上 可 以 有 多 个 通道 ， 一 个 通道 下 面 就 是 一 条 SCSI 总 
> 那么 将 盘 阵 的 每 个 控制 器 上 再 多 接 一 个 或 者 两 个 通道 ， 来 充分 发 


挥 它 的 能 力 ， 这 样 就 比较 实惠 了 。 如 图 6-10 所 示 ， 这 人 台 盘 阵 机 头 带 有 
一 个 扩展 后 端 磁 盘 柜 接口 。 


图 6-10” 带 有 一 个 扩展 外 部 磁盘 通道 接口 的 控制 器 示意 图 


通道 建 好 之 后 ， 下 一 步 就 是 要 扩充 磁盘 数量 了 。 当 然 ，JBOD 就 成 


了 最 佳 选择 。 


图 6-11 所 示 的 盘 阵 的 每 个 控制 器 上 多 出 一 个 额外 的 磁盘 通道 接 
口 ， 这 个 接口 露 在 机 箱 外 面 ， 用 线 缆 连 接 了 一 个 JBOD 扩 展柜 。 


图 6-11 外接 一 个 JBOD 扩 展柜 的 磁盘 阵列 


经 过 这 样 的 改造 ， 可 连接 的 磁盘 数量 成 倍增 长 。 图 中 所 示 的 是 每 
个 控制 器 增加 了 一 个 磁盘 通道 ， 还 可 以 增加 到 两 个 或 者 多 个 通道 。 理 
论 上 ， 只 要 RAID 控 制 器 处 理 速 度 够 强 ， 总 线 融 宽 和 面板 上 空间 够 大 ， 
多 增加 几 个 通道 都 没 问题 。 


JBOD 盘 柜 以 前 只 有 一 个 外 部 接口 ， 为 了 配合 双 控 制 器 ，JBOD 在 
其 外 部 也 增加 了 一 个 接口 用 来 连接 宛 余 的 控制 器 。 这 样 ， 扩 展柜 上 也 
有 两 个 外 部 接口 了 。 


把 带 有 控制 器 的 磁盘 柜 称 作 “ 机 头 ”， 因 为 它 就 像 火车 头 一 样 ， 是 
提供 动力 的 。 机 头 里 可 以 有 磁盘 ， 也 可 以 根本 不 含 磁盘 。 把 用 于 扩展 
容量 用 的 JBOD 叫 做 “扩展 柜 ?， 它 就 像 一 节 节 火车 车 硒 ， 本 身 没有 动 
力 ， 全 靠 车 头 带 ， 但 是 基本 的 供电 和 冷却 系统 还 是 要 有 的 。 图 6-12 所 
示 的 是 IBM 的 DS400 盘 阵 机 头 后 视图 ， 每 控制 器 提供 3 个 通道 ， 机 头 内 
部 的 磁盘 占用 一 个 ， 然 后 另外 两 个 提供 扩展 ， 在 后 面板 上 给 出 两 个 


SCSI 接 口 。 图 中 Expansion ports 所 示 的 就 是 这 两 个 SCSI 接 口 。 右 边 空 
白 的 地 方 是 用 来 接 入 另外 一 个 控制 器 的 ， 这 个 控制 器 是 可 选 组 件 。 


图 6-12 DS400 盘 阵 的 机 头 后 视图 


图 6-13 是 用 于 连接 DS400 机 头 的 扩展 柜 EXP400。 可 以 看 到 它 的 左 
右 各 有 一 个 接口 模块 ， 每 个 模块 上 有 一 个 SCSI 接 口 用 来 连接 机 头 。 


图 6-13 EXP400 扩 展柜 的 后 视图 


6.6 ”锦上添花 一 一 完整 功能 的 模块 化 磁盘 阵列 


再 后 来 ， 机 头 做 的 都 比较 漂亮 ， 而 且 感 觉 很 厚实 。 但 是 JBOD 就 是 
一 堆 磁 盘 ， 显 得 和 机 头 有 些 不 搭配 。 所 以 也 给 扩展 柜 增加 了 所 谓 的 模 
块 ， 不 仔细 看 的 话 ， 外 观 和 机 头 疫 多 大 区 别 。 只 不 过 扩展 柜 的 模块 
上 ， 没 有 RAID 控 制 器 的 功能 ， 但 是 会 加 上 一 些 其 他 功能 ， 如 探测 磁盘 
瘟 度 等 二 线 辅 助 功能 。 这 个 模块 将 接口 、 功 能 心 片 、 电 路 等 都 集成 在 
一 个 板子 上 ， 所 以 外 观 和 机 头 差不多 。 


图 6-14 所 示 的 ESM 模 块 ， 就 是 实现 这 些 功 能 的 插 板 。 图 6-15 中 所 
示 的 是 一 个 磁盘 扩展 柜 的 实物 后 视图 ， 可 以 看 到 上 下 两 个 模块 ， 这 两 
个 模块 不 但 负责 链 路 通信 ， 还 负责 收集 设备 各 处 的 传感器 发 来 的 信 
息 。 


图 6-14 ”一 个 扩展 柜 的 前 视图 图 6-15 ”一 个 磁盘 扩展 柜 的 后 视图 


图 6-14 为 一 台 盘 阵 的 前 视图 。 图 6-15 是 一 台 FC 接 口 的 扩展 柜 后 视 
图 ， 可 以 看 到 上 下 两 个 ESH (Electrical Switch Hub) 模块 。 这 些 磁 盘 
扩展 柜上 的 模块 中 主要 包含 单片机 或 者 DSP 心 片 、FC-AL 半 交换 逻辑 


处 理 以 及 其 他 功能 的 FPGA/ASIC/CPLD 忌 片 、SFP 适 配器 编码 芯片 、 
ROM 或 者 Flash 芯 片 (存放 Firmware) 、RAM 缓 存 芯 片 〈 用 于 存放 芯 
片 执 行程 序 时 所 需 的 数据 ) 等 ， 视 设计 不 同 而 定 。 如 果 有 新 的 
Firmware 被 开发 出 来 ， 可 以 将 程序 逻辑 写 入 Flash 或 ROM 心 片 中 ， 这 个 
过 程 就 是 固件 升级 。FPGA/CPLD 等 芯片 需要 用 外 置 的 编程 器 写 入 新 的 
电路 逻辑 。ASIC 心 片 不 可 升级 ， 是 固定 逻辑 的 心 片 ， 适 用 于 成 熟 的 、 
量 产 的 芯片 ， 比 如 SFP 编 码 心 片 等 。 


图 6-16 为 扩展 柜上 的 一 个 ESH2 模 块 的 内 部 实物 图 。 


图 6-16 ESH2 模 块 实物 图 


6.7 ”一脉相承 一 一 主机 和 磁盘 阵列 本 是 一 家 
1. 盘 阵 (磁盘 阵列 ) 控制 器 的 主机 化 


随 着 人 们 需求 的 不 断 提高 ， 一 个 存储 系统 拥有 几 TB 甚 至 几 十 几 百 
TB 的 容量 已 经 不 是 什么 惊人 的 事情 了 。 面 对 如 此 大 的 容量 和 如 此 多 的 
磁盘 ， 小 小 的 控制 器 已 经 不 能 满足 要 求 了 。 因 此 大 的 主机 系统 替代 了 
短小 精 悍 的 控制 器 。 


思考 : 可 能 有 人 已 经 不 知 所 措 了 ， 用 主机 系统 替代 盘 阵 控制 
器 ， 这 不 矛盾 么 ? 盘 阵 是 给 主机 服务 的 ， 主 机 蔡 代 了 盘 阵 控 
制 器 ， 岂 不 是 乱 了 非 分 了 ? 


事实 并 非 如 此 。 众 所 周知 ， 主 机 系统 的 经 典 染 构 就 是 CPU、 内 
存 、 总 线 、 各 种 IO 设备 和 CPU 执行 的 代码 《软件 ) ， 而 观察 一 下 盘 阵 
控制 器 的 基本 架构 ， 如 RAID 控 制 器 心 片 《CPU) 、 内 存 、 总 线 、IO 接 


口 (SCSI 接 口 等 ) 和 RAID 心 片 执行 的 代码 (软件 ) ， 就 可 以 发 现 盘 
阵 控 制 器 就 是 一 个 简单 的 主机 系统 。 


既然 这 样 ， 完 全 可 以 用 一 台 主 机 服务 器 来 充当 存储 系统 的 控制 
器 。 比 如 ， 在 这 台 主 机 上 插入 几 张 SCSI 卡 作为 前 端 接口 卡 ， 再 插入 若 
干 SCSI 卡 作为 后 端 连接 磁盘 箱 的 接口 卡 ， 然 后 设计 软件 从 /向 后 端 读 写 
效 据 ， 经 过 处 理 或 者 虚拟 化 之 后 ， 再 传送 给 前 端的 主机 服务 器 。 


目前 有 两 种 趋势 : 一 种 是 趋向 使 用 现成 的 主机 来 充当 控制 器 的 载 
体 ， 另 一 种 是 趋向 使 用 高 集成 度 的 心 片 作为 控制 器 的 核心 。 两 种 趋势 
各 有 利 浆 。 


图 6-17 所 示 的 是 一 台 主 机 化 的 磁盘 阵列 实物 图 。 


图 6-17 主机 化 的 盘 阵 控制 器 


2. 盘 阵 的 类 型 


按照 前 端 和 后 端 接口 来 分 ， 有 SCSI-FC 盘 阵 、FC-FC 盘 阵 、SATA- 
FC 盘 阵 、SCSI-SCSI 盘 阵 等 类 型 。SCSI-FC 类 型 表示 后 端 接口 为 SCSI 
接口 ， 前 端 用 于 连接 主机 的 为 FC 接 口 ， 也 就 是 后 端 为 SCSI 磁 盘 ， 前 端 
为 FC 接口 的 盘 阵 。 

我 们 在 后 面 会 讲 到 FC-FC 盘 阵 ， 这 也 是 目前 最 高 端的 盘 阵 所 采用 
的 架构 。 图 6-18 所 示 的 就 是 一 台大 型 FC 磁盘 阵列 的 透视 图 ， 图 示 中 一 
共 5 个 机 柜 ， 中 间 的 机 柜 整 柜 都 为 控制 器 ， 上 方 可 见 一 排 1JO 插 卡 ， 插 
卡 上 方 为 9 个 风扇。 其 余 机 柜 中 均 为 磁盘 扩展 柜 。 


图 6-18 ” EMC DMX 系 列 盘 阵 透视 图 


6.8 “天罗地网 一 SAN 
存储 区 域 网 络 


大 家 来 看 最 后 一 张 图 片 ， 如 图 6-19 所 示 。 我 们 一 开始 描绘 的 那 张 
“网 中 有 网 ”的 图 片 ， 现 在 大 家 应 该 能 更 深刻 地 理解 了 了。 网络， 不 仅仅 
指 以 太 网 、TCP/IP 网 ， 可 以 是 SCSI 网 、PCI 总 线 网 、USB 网 等 。RAID 
控制 器 ， 就 相当 于 一 个 路 由 器 ， 也 就 是 协议 转换 器 。 


图 6-19 ”网 中 有 网 


将 磁盘 放 到 了 主机 外 部 ， 存 储 设备 和 主机 之 间 ， 就 形成 了 又 一 个 
独立 的 网 络 : 存储 区 域 网络 (Storage Area Network，SAN) 。 


效 据 就 是 在 这 种 网 络 中 来 回 穿 梭 ， 格 式 不 断 被 转换 和 还 原 。 


第 7 章 ” 熟 读 宝典 一 系统 与 系统 
之 间 的 语言 OSI 


国 OSI 
日 三 元 素 
@ 七 层 结构 


千 百 年 来 ， 江 湖 中 人 一 直 都 把 祖宗 流传 下 来 的 一 本 宝典 铭记 于 
心 ， 这 本 宝典 就 是 号 称 “ 号 令 武林 ， 莫 敢 不 从 ”的 OSI 大 上 典 ! 


任何 系统 之 间 ， 如 果 需 要 通信 ， 就 有 一 套 自 己 的 协议 系统 。 这 个 
协议 系统 不 仅 要 定义 双方 互相 通信 所 使 用 的 语言 ， 还 要 规定 所 使 用 的 
硬件 ， 比 如 通信 线路 等 。 例 如 以 太 网 协议 ， 凡 是 接 入 以 太 网 的 (交换 
机 或 者 HUB) 节点 ， 都 必须 遵循 以 太 网 所 规定 的 通信 规程 。 两 个 对 讲 
机 之 间 进 行 通话 ， 必 须 预先 定义 好 发 送 和 接收 的 频率 ， 而 且 还 要 指定 
通信 的 逻辑 ， 比 如 每 说 一 句 话 之 后 ， 要 说 一 个 “完毕 ”， 表 示 本 地 已 经 
说 完 ， 该 对 方 说 了 。 


7.1 人 类 模型 与 计算 机 模型 的 对 比 训 析 
人 和 计算 机 ， 二 者 有 着 天 然 的 相似 性 。 
7.1.1 人 类 模型 


人 类 自身 用 语言 来 交流 信息 ， 这 本 身 就 是 系统 间 通 信 的 极 佳 例 
子 。 每 个 人 都 是 一 个 系统 ， 这 个 系统 由 八大 子 系统 组 成 ， 每 个 子 系统 
行使 自己 的 功能 ， 各 个 子 系统 相互 配合 ， 使 得 和 人体 可 以 做 出 各 种 各 样 
的 事情 ， 包 括 制 造 计算 机 系统 这 个 “部 分 仿生 ”产物 。 


1. 消化 系统 


消耗 系统 负责 食物 的 摄取 和 消化 ， 使 我 们 获得 糖 类 、 脂 肪 、 蛋 白 
质 、 维 生 素 等 营养 ， 再 经 过 一 系列 生化 酶 促 反 应 ， 最 终 可 以 生成 能 
量 ， 以 ATP 分 子 的 形式 向 各 个 细胞 供应 化 学 能 ， 再 经 过 一 系列 的 分 子 
机 器 〈 蛋 白质 或 者 蛋白 质 复 合体 ) 的 处 理 ， 可 以 形成 机 械 能 、 热 、 
光 、 电 等 各 种 能 量 形式 。 


2。 神 经 系统 


神经 系统 负责 处 理 外 部 信息 和 调控 人 类 自身 运动 ， 使 我 们 能 对 外 
界 的 刺激 有 很 好 的 反应 ， 包 括 学 习 等 重要 的 活动 也 是 在 神经 系统 控制 
下 完成 的 。 比 如 皮肤 、 耳 灯 、 眼 睛 等 接收 的 各 种 信号 ， 都 会 经 过 神经 
网 络 传送 到 大 脑 进行 处 理 并 做 出 反映 。 


3。 呼吸 系统 


呼吸 系统 是 气体 交换 的 场所 ， 可 以 使 人 体 获 得 新 鲜 的 氧气 。 人 类 
制造 、 储 存 和 利用 能 量 的 每 个 过 程 ， 都 需要 氧气 的 参与 ， 氧 气 是 很 好 
的 氧化 剂 ， 人 类 利用 这 种 氧化 剂 ， 氧 化 摄取 的 糖 、 蛋 白质 等 物质 ， 产 
生 能 量 ， 如 果 没 有 氧气 ， 则 人 体 一 切 的 生命 活动 就 会 终止 ， 包括 心 肌 
的 收缩 和 扩张 运动 。 


4。 循环 系统 


循环 系统 负责 氧气 、 营 养 和 体液 以 及 各 种 信号 控制 分 子 的 运输 ， 
废物 和 二 氧化 碳 的 排 港 ， 以 及 免疫 活动 。 人 体 的 这 些 空间 中 ， 各 种 器 
官 按照 规则 分 布 着 ， 每 个 器 官 行使 其 功能 ， 必 须 供给 它们 能 量 、 水 和 
氧气 以 及 各 种 控制 因子 蛋白 ， 遍 布 周 身 的 密 密 麻 打 的 动脉 、 静 脉 和 毛 
细 血 管 ， 就 是 运输 这 些 物质 必需 的 通道 。 这 些 物质 溶 在 血液 中 ， 从 动 
脉 流入 器 官 ， 完 成 生命 有 逻辑 后 ， 从 静脉 流入 肾脏 ， 过 渡 废物 ， 排 港 ， 
干净 的 静脉 血 再 流 回 心 脏 ， 然 后 进入 动脉 ， 经 过 肺 部 的 时 候 ， 将 肺 部 
获取 的 氧气 吸 深入 血液 ， 成 为 鲜红 色 的 动脉 血 ， 然 后 再 流入 各 个 器 
官 ， 供 给 必须 物质 。 


5。 运 动 系统 


运动 系统 负责 身体 的 活动 ， 使 我 们 可 以 做 出 各 种 动作 。 骨 骼 和 肌 
肉 属 于 运动 系统 ， 骨 骼 虽然 不 直接 运动 ， 但 是 它 能 在 肌肉 的 牵引 下 进 
行 运动 。 控 制 肌肉 运动 的 是 神经 信号 ， 大 脑 发 出 神经 控制 信号 (一 系 
列 的 蛋白 质 或 者 离子 流 ) ， 肌 肉 组 织 收 到 之 后 ， 便 会 引发 雪 骨 似 的 化 
学 反应 ， 包 括 肌肉 细胞 中 的 微 管 结构 的 不 断 重 组 和 释放 ， 用 这 种 形式 
来 改变 细胞 形状 ， 从 而 造成 肌肉 收缩 或 者 扩张 。 而 微 管 的 组 装 和 各 
放 ， 需 要 能 量 和 酶 的 参与 ， 这 时 候 ， 细 胞 便 会 贪 梦 地 利用 ATP 分 子 来 
获取 化 学 能 ， 而 血液 ATP 损 耗 之 后 ， 血 液 便 会 加 速 流动 到 肌肉 周围 ， 
提供 更 多 的 能 量 。 这 也 是 运动 时 心脏 加 速 跳 动 的 原因 。 而 心脏 跳动 速 
度 的 控制 因素 很 多 ， 比 如 受到 惊吓 的 时 候 ， 大 脑 便 会 分 泌 一 些 物质 ， 
传送 到 心肌 ， 引 发 反应 ， 促 使 跳动 速度 加 快 。 


6. 内分泌 系统 


内 分 涂 系 统 调节 生理 活动 ， 使 各 个 器 官 组 织 协调 运作 。 内 分 滋 系 
统 是 一 个 中 央 调 控 系 统 ， 比 如 生长 素 融 是 内 分 滋 系 统 分 滋 的 一 种 电 日 
质 分 子 ， 它 被 骨骼 吸收 后 ， 可 以 促进 骨骼 生长 。 内 分 滋 系 统 如 果 发 生 
功能 故障 ， 则 人 体 就 会 表现 异常 ， 包 括 精 神 和 物理 上 的 异常 。 


7。. 生殖 系统 


生殖 系统 负责 生殖 活动 ， 维 持 第 二 性 征 。 生 殖 系 统 是 人 类 繁衍 的 
天 键 ， 生 和 殖 系统 将 人 类 的 所 有 特征 融入 精子 和 卵子 ， 受 精 卵 在 母 杀 子 
宫 中 逐渐 发 育成 全 功能 的 人 体 。 


8. 泌尿 系统 
冯 尿 系统 负责 血液 中 生化 废物 的 排 港 ， 产 生 尿 液 。 
7.1.2 ”计算 机 模型 


我 们 发 现 ， 计 算 机 系统 和 工作 模式 ， 与 生物 系统 有 很 大 一 部 分 是 
类 似 的 。 


1. 计算 机 的 消化 系统 


消化 子 系统 是 为 整个 系统 提供 基本 能 量 和 排泄 消化 废物 的 。 给 计 
算 机 提供 能 量 的 是 电源 和 密布 在 电路 板 上 的 供电 线路 。 为 计算 机 排泄 
能 量 废物 的 ， 是 接地 低 电 位 触 点 。 电 流 流 经 供电 线路 ， 到 接地 触 点 终 
止 ， 将 能 量 提供 给 电路 板 上 的 各 个 部 件 (器 官 ) 。 此 外 ， 计 算 机 的 “ 消 
化 "也 包含 另外 的 意思 ， 即 吞 入 数据 、 吐 出 数据 的 过 程 。 计 算 机 从 磁盘 
上 读 入 数据 ， 进 行 计 算 〈 消 化 ) 后 ， 再 输出 数据 。 


2. 计算 机 的 循环 系统 


循环 子 系统 是 为 整个 系统 提供 能 量 和 物质 传输 通道 的 。 给 计算 机 
提供 数据 传输 通道 的 是 各 种 总 线 ， 数 据 从 总 线 流入 CPU 处 理 单元 ， 完 
成 计算 逻辑 后 ， 又 从 总 线 输 出 到 内 存 或 者 外 设 。 所 以 我 们 说 ， 计 算 机 
的 循环 系统 ， 就 是 总 线 ， 心 脏 就 是 电路 振荡 小 置 。 


3。 计算 机 的 呼吸 系统 


呼吸 子 系统 是 为 整个 系统 提供 完成 生命 逻辑 所 必需 的 氧化 剂 ， 即 
氧气 为 计算 机 散热 的 风 届 ， 貌 似 呼吸 系统 ， 但 风 届 的 功能 更 类 似 于 及 
肤 和 毛孔 的 散热 作用 。 


4. 计算 机 的 神经 系统 


神经 子 系统 的 作用 是 传输 各 种 信号 ， 调 节 各 个 器 官 的 功能 。 对 于 
生物 体 来 说 ， 神 经 系统 是 运行 在 脑 组 织 中 的 一 种 逻辑 ， 这 种 逻辑 通过 
执行 一 系列 生化 物理 反应 来 体现 它 的 存在 。 通 过 向 血液 中 释放 各 种 蛋 
白质 信号 分 子 ， 从 而 靶 向 各 种 器 官 ， 调 节 它 们 的 功能 。 对 于 计算 机 系 
统 来 说 ， 神 经 系统 就 是 由 CPU 载 入 执行 的 程序 ， 程 序 生成 各 种 信号 ， 
通过 总 线 传输 给 各 个 外 部 设备 ， 从 而 调节 它们 的 工作 。 


计算 机 的 神经 系统 ， 可 以 认为 就 是 外 部 硬件 设备 的 驱动 程序 。 神 
经 网 络 就 是 控制 总 线 ， 循 环 系统 是 数据 总 线 。 而 生物 体内 没有 地 址 总 
线 的 概念 ， 血 管 凌乱 的 分 布 ， 并 没有 一 种 显 式 的 区 分 机 制 来 区 分 各 个 
器 官 或 者 组 ， 信 号 分 子 可 以 遍布 周游 全 身 。 


5. 计算 机 的 运动 系统 


计算 机 本 身 是 一 堆 电 路 和 心 片 ， 不 存在 运动 的 概念 。 但 是 如 果 向 
计算 机 接口 上 接 入 了 可 以 运动 的 部 件 ， 比 如 打印 机 、 电 动机 、 硬 盘 
等 ， 那 么 这 些 设备 就 可 以 在 计算 机 控制 信号 (神经 信号 ) 的 驱动 下 做 
运动 ， 并 且 可 以 打印 或 者 读 写 数据 。 


6. 计算 机 的 生殖 系统 


目前 ， 计 算 机 系统 表现 的 生殖 能 力 ， 只 是 在 一 个 硬件 中 生成 不 同 
的 软件 。 软 件 通 过 CPU 的 执行 ， 可 以 任意 复制 自身 ， 并 可 以 形成 新 的 
逻辑 。 在 这 种 逻辑 下 ， 程 序 通过 无 数 次 的 复制 ， 难 免 在 一 些 细微 的 
Bug 或 者 电路 干扰 的 情况 下 发 生 奇 特 的 变化 ， 这 些 变 化 一 开始 可 能 不 
太 会 表现 出 来 ， 但 是 随 着 量变 的 积累 ， 就 会 引发 质变 ， 发 生 进 化 。 


当然 ， 计 算 机 系统 完全 可 以 物理 复制 硬件 ， 即 通过 程序 控制 外 部 
机 器 ， 来 生产 新 的 计算 机 硬件 ， 然 后 将 软件 复制 到 硬件 上 ， 继 续 繁 
殖 。 


7.1.3 个体 间 交 流 是 群体 进化 的 动力 


人 也 好 ， 计 算 机 也 好 ， 他 们 之 间 都 在 不 停 地 交流 着 。 人 和 人 的 交 
流 ， 让 人 类 得 到 了 进化 。 同 样 ， 计 算 机 之 间 的 交流 ， 也 会 让 计算 机 得 
到 进化 。 交 流 是 进化 的 动力 ， 不 可 能 有 某 种 事物 会 完全 脱离 外 界 的 刺 
激 而 自身 进化 。 

OsSI 便 是 这 种 交流 所 遵循 的 一 张 蓝 图 。 


7.2 ”系统 与 系统 之 间 的 语言 一 一 OSI 初 步 


OSI 模型 是 一 种 被 提取 抽象 出 来 的 系统 间 通 信 模 型 。OSI 中 文 的 意 
思 为 “开放 式 系 统 互联 ”模型 ， 是 一 个 描述 两 个 或 者 多 个 系统 之 间 如 何 
交流 的 通用 模型 。 它 不 只 适合 于 计算 机 系统 互联 ， 而 且 适 合 任何 独立 
系统 之 间 的 互联 。 比 如 ， 人 体 和 人 体 之 间 的 通信 ， 或 者 人 体 和 计算 机 
之 间 的 通信 ， 都 可 以 用 OSI 模 型 来 描述 。 


比如 我 和 你 之 间 需 要 交流 ， 我 们 面对面 坐 着 ， 此 时 我 有 一 句 话 要 
和 你 说 :“ 您 好 ， 您 怎么 称呼 ? ” 


首先 ， 我 要 说 出 这 句 话 ， 要 在 脑海 中 生成 这 句 话 ， 即 在 语言 处 理 
单元 中 根据 要 表达 的 意思 ， 生 成 符合 语法 的 数据 。 然 后 通过 神经 将 数 
据 信 号 发 送 到 声带 、 咬 肌 、 丘 头 和 口 形 固定 之 后 ， 使 声带 振动 。 声 带 
振动 导致 口腔 空气 共振 ， 发 出 声音 ， 经 过 空气 机 械 波 振动 ， 到 达 你 的 
耳膜 接收 器 ， 耳 膜 被 机 械 波 谐振 于 一 定 频率 ， 耳 膜 的 振动 通过 神经 信 
号 传导 到 大 脑 ， 大 脑 相 天 的 处 理 单元 进行 信号 的 解 调 ， 最 终 从 神经 信 
号 中 提取 出 我 说 的 话 “ 您 好 ， 您 怎么 称呼 ? ”， 这 句 话 在 大 脑 中 ， 可 能 
是 离子 流产 生 的 模拟 电信 号 ， 也 可 能 是 通过 其 他 形式 表示 ， 比 如 一 套 
编码 系统 。 这 句 话 被 传送 到 大 脑 的 语言 处 理 单元 ， 这 个 单元 分 析 这 名 
话 , “您 好 ?是 一 个 问候 语 ， 当 你 知道 我 在 问候 你 的 时 候 ， 你 的 大 脑 会 
在 这 个 “您 好 ”信号 的 刺激 下 ， 进 入 一 种 “礼貌 "逻辑 运算 过 程 ， 运 算 生 
成 的 信号 ， 通 过 神经 传送 到 你 的 颈 部 肌肉 ， 收 缩 ， 使 你 的 头 部 下 降 ， 
并 使 面部 肌肉 收缩 ， 这 就 完成 了 点 头 致意 和 微笑 的 动作 。 


这 个 过 程 ， 与 计算 机 网 络 通信 的 模型 完全 一 致 。 两 台 计 算 机 之 间 
通过 以 太 网 交换 机 相连 ， 它 们 之 间 要 进行 通信 。 比 如 ，a 计 算 机 想 向 b 
计算 机 发 送 一 个 数据 包 ， 这 个 数据 包 的 内 容 是 “打开 文件 
C:\tellme.txt”， 过 程 如 下 所 示 。 


(1) a 计算 机 首先 要 在 内 存 中 通过 双方 定义 的 语言 ， 生 成 这 个 数 
据 包 。 


将 这 个 数据 包 通 过 总 线 发 送 给 TCP/IP 协 议 处 理 单元 ， 告 诉 TCP/IP 
处 理 单元 对 方 的 IP 地 址 和 所 用 的 传输 方式 (UDP 或 TCP) 和 端口 号 。 


TCP/IP 处 理 模块 收 到 这 个 包 之 后 ， 将 它 包 装 好 ， 通 过 总 线 发 送 给 
以 太 网 卡 。 


以 太 网 卡 对 数据 包 进 行 编码 ， 然 后 通过 电路 将 包装 好 的 数据 包 变 
成 一 串 电路 的 高 低 电 平 振荡 ， 发 送 给 交换 机 。 


交换 机 将 数据 包 交 换 到 b 计 算 机 的 接口 。 


(2) b 计 算 机 收 到 这 串 电位 流 后 ， 将 其 输送 到 以 太 网 卡 的 解码 心 
片 ， 去 掉 以 太 网 头 ， 之 后 产生 中 断 信号 ， 将 数据 包 送 到 内 存 。 


由 TCP/IP 协 议 处 理 模块 对 这 个 数据 包 进 行 分 析 ， 提 取 IP 头 和 TCP 
或 UDP 头 ， 以 便 区 分 应 输送 到 哪个 应 用 程序 的 缓冲 区 内 存 。 


最 终 TCP/IP 协 议 将 “打开 文件 Ci:\tellme.txt” 这 句 话 ， 成 功 输送 到 了 b 
计算 机 应 用 程序 的 缓冲 区 内 存 中 。 


(3) b 计 算 机 应 用 程序 提取 这 句 话 ， 分 析 它 的 语法 ， 发 现 a 计 算 机 
要 求 它 打 开 C:\tellme.txt 文 件 ， 则 应 用 程序 根据 这 个 命令 ， 调 用 操作 系 
统 打 开 文 件 的 API 执 行 这 个 操作 。 


分 析 一 下 上 面 的 过 程 ， 我 们 发 现 如 下 内 容 。 


数据 总 是 由 原始 直接 可 读 状 态 被 转变 成 电路 的 电位 振荡 流 ， 或 者 
频率 和 振幅 不 断 变化 的 机 械 疲 ， 也 可 能 转换 成 一 定 频率 的 电磁 波 。 


互相 通信 的 两 个 系统 之 间 必 定 要 有 连通 的 介质 ， 空 气 、 以 太 网 或 
者 其 他 形式 ， 电 磁 疲 传递 不 需要 介质 。 


相互 通信 的 双方 必须 知道 自己 是 在 和 谁 通信 。 


以 上 三 个 要 素 ， 就 是 系统 互联 通信 所 有 具备 的 * 连 、 找 、 友 ”三 要 


= 连 : 就 是 指 通信 的 双方 必须 用 某 种 形式 连通 起 来 ， 否 则 两 个 没 
有 任何 形式 连通 的 系统 之 间 是 无 法 通信 的 。 即 便 是 电磁 疲 通 
信 ， 也 至 少 通过 了 电磁 疲 和 连通。 

= 找 : 是 说 通信 的 双方 或 者 多 方 ， 必 须 能 够 区 分 自己 和 对 方 以 及 
多 方 (广播 系统 除外 ) 。 

= 发: 定义 了 通信 的 双方 如 何 将 数据 通过 连通 介质 或 者 电磁 波 发 
送 到 对 方 。 


7.3 “OSI 模型 的 七 个 层次 


网 络 通信 三 元 素 抽象 模型 是 对 OSI 模 型 的 更 高 层次 的 抽象 。OSI 模 
型 将 系统 间 通 信和 划分 成 了 七 个 层次 。 


OSI 模 型 的 最 上 面 的 三 层 ， 可 以 归属 到 应 用 层 之 中 ， 因 为 这 三 层 
都 不 关心 如 何 将 数据 传送 到 对 方 ， 只 关心 如 何 组 织 和 表达 要 传送 的 数 
据 。 


7.3.1 ”应 用 层 


应 用 层 是 OSI 模型 的 最 上 层 ， 它 表示 一 个 系统 要 对 另 一 个 系统 所 
传达 的 最 终 信息 。 比 如 * 您 好， 您 怎么 称呼 ? ”这 句 话 ， 就 是 应 用 层 的 
数据 。 应 用 层 只 关心 应 用 层 自 身 的 逻辑 ， 比 如 这 句 话 应 该 用 什么 语 
法 ， 应 该 加 逗号 还 是 句号 ? 末尾 是 否 要 加 一 个 问号 ? 用 “你 ”还 是 “您 
等 这 样 的 逻辑 。 对 于 计算 机 系统 来 说 ， 上 文 所 述 的 例子 中 “open file 
C:\tellme.txt”， 这 条 指令 ， 就 是 应 用 层 的 数据 。 应 用 层 程 序 不 必 关 心 这 
条 措 令 是 如 何 传达 到 对 方 的 。 


7.3.2 ”表示 层 


表示 层 就 是 对 应 用 层 数据 的 一 种 表示 。 如 果 前 面 说 的 “您 好 ， 您 怎 
么 称呼 ? ”这 人 句 话 是 有 一 定 附加 属性 的 ， 例 如 “您 好 ”这 两 个 字 要 显示 在 
i 用 红色 显示 在 第 1 行 的 中 央 ， 而 “您 怎么 称呼 ? ”这 几 个 

用 监 色 显示 在 第 10 行 的 中 央 。 这 些 关 于 颜色 、 位 置 等 类 似 的 信息 ， 
人 


发 送 方 必须 用 一 种 双方 规定 好 的 格式 来 表示 这 些 信息 ， 比 如 用 一 
个 特定 长 度 和 位 置 的 字段 来 编码 各 种 颜色 (一 般 用 三 原色 的 组 合 编码 
来 表示 ) ， 用 一 个 字段 来 表示 行列 坐标 位 置 。 将 这 些 附 加 表示 层 信息 
字段 放置 于 要 表达 的 内 容 的 前 面 或 后 面 ， 接 受 方 按照 规定 的 位 置 和 编 
码 来 解析 这 些 表 示 层 信息 ， 然 后 将 颜色 和 位 置信 息 赋 予 * 您 好 ， 您 怎么 
称呼 ? ”这 句 话 ， 显 示 于 屏幕 上 。 需 要 强调 一 点 ， 表 示 层 不 一 定 非得 是 
单独 的 一 个 结构 体 ， 它 可 以 僚 入 在 实体 数据 中 。 这 就 是 表示 层 ， 一 些 
加 密 等 操作 就 是 在 表示 层 来 起 作用 的 。 


7.3.3 ”会 话 层 


顾名思义 ， 会 话 层 的 逻辑 一 定 是 建立 某 种 会 话 交 互 机 制 。 这 种 交 
互 机 制 实 际 上 是 双方 的 应 用 程序 之 间 在 交互 。 它 们 通过 交互 一 些 信 
息 ， 以 便 确 定 对 方 的 应 用 程序 处 于 良好 的 状态 中 。 比 如 两 个 人 通电 
话 ， 拨 通 之 后 这 个 问 :“ 能 听 清 么 ?” ”那个 说 :“ 能 听 清 ， 请 讲 。” 这 就 
是 一 个 会 话 的 过 程 。 也 就 是 说 通信 的 双方 在 发 送 实际 数据 之 前 ， 先 建 
立 一 个 会 话 ， 互 相 打 个 招呼 ， 以 便 确 认 双 方 的 应 用 程序 都 处 于 正常 状 
太 
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应 用 层 、 表 示 层 和 会 话 层 的 数据 内 容 被 封装 起 来 ， 然 后 交 给 了 我 
们 的 货物 押运 员 传输 层 。 


TCP/IP 协 议 体 系 模型 中 有 4 层 ， 即 应 用 层 (应 用 访问 层 ) 、 传 输 
层 、 网 络 层 和 物理 链 路 层 (硬件 访问 层 ) 。TCP/IP 协 议 体 系 没 有 完全 
按照 OSI 匹 配 ， 它 将 OSI 中 的 应 用 层 、 表 示 层 和 会 话 层 统统 合并 为 一 
层 ， 叫 做 应 用 访问 层 ， 意 思 是 指 这 个 层 全 部 是 与 应 用 程序 相关 的 逻 
辑 ， 与 网 络 通信 无 关 ， 应 用 程序 只 需 调用 下 层 的 接口 即 可 完成 通信 。 


7.3.4 ”传输 层 


可 以 说 OSI 模 型 中 上 三 层 属 于 应 用 相关 的 ， 可 以 划 入 应 用 层 范 
围 ， 而 下 四 层 就 属于 网 络 通信 方面 的 。 也 就 是 说 ， 下 四 层 的 作用 是 把 
上 三 层 生成 的 数据 成 功 地 送 到 目的 地 。 典 型 的 传输 层 程序 如 下 。 


TCP 协 议 的 作用 融 是 保障 上 层 的 数据 能 传输 到 目的 地 。TCP 就 像 
一 个 货运 公司 的 押运 员 ， 客 户 给 你 的 货物 ， 就 要 保证 给 客户 送 到 目的 
地 ， 而 不 管 你 通过 什么 渠道 ， 是 直达 ( 直 连 路 由 ) 还 是 绕道 (下 一 跳 
路 由 ) ， 是 飞机 还 是 火车 、 轮 船 (物理 线路 类 型 ) 。 


如 果 运 输 过 程 中 出 现 错误 ， 必 须 重新 把 货物 发 送出 去 。 每 件 货 物 
到 了 目的 地 ， 必 须 找 收 件 人 签字 (TCP 中 的 ACK 应 答 包 ) ， 或 者 一 批 
货物 到 达 后 ， 收 件 人 一 次 签收 (滑动 窗口 ) 。 


最 后 回 公司 登记 。 


提示 : TCP 还 处 理 拥塞 和 流量 控制 。 比 如 调度 (路 由 器 ) 选 
择 了 走 这 条 路 ， 但 是 太 拥挤 了 ， 那 么 我 也 不 好 说 什么 ， 因 为 
选 哪 条 路 到 达 目 的 是 由 调度 (路由器) 说 了 算 ， 我 只 管 押 
运 。 那 么 我 只 能 通知 后 续 的 货物 慢 一 点 发 货 ， 因 为 这 条 路 太 
挤 了 。 当 道路 变 得 畅通 时 ， 我 会 通知 后 面 的 货物 加 速 发 货 。 
这 就 是 TCP 的 任务 。TCP 是 通过 接收 方 返回 的 ACK 应 答 数 据 
包 来 判断 链 路 是 否 拥挤 ， 比 如 发 了 一 批 货 ， 半 天 都 没 接收 到 
对 方 的 签字 ， 证 明 链 路 拥塞 ， 有 货物 被 去 人 痉 了 ， 那 么 就 减 绥 
发 送 速 度 。 当 有 ACK 被 接收 到 后 ， 我 会 增加 一 次 发 送 货物 的 
数量 ， 直 到 再 次 拥塞 。 那 么 调度 怎么 知道 这 些 货物 是 送 到 哪 
里 的 呢 ? 这 是 网 络 层 程 序 的 任务 。 

注意 : 传输 层 的 程序 一 定 要 运行 在 通信 双方 的 终端 设备 上 ， 
而 不 是 运行 在 中 间 的 网 络 互 联 设备 上 上。 传输 层 是 一 种 端 到 端 
的 保障 机 制 ， 所 谓 端 到 端的 保障 就 是 指数 据 从 一 端 发 送 到 另 
一 端 之 后 ， 对 方 必 须 在 它 的 传输 保障 时 间 中 成 功 收 到 并 处 理 
了 数据 ， 才 能 算 发 送 成 功 。 如 果 只 是 发 送 到 了 对 方 的 网 卡 缓 
冲 区 ， 此 时 发 生 故 障 ， 如 突然 断 电 ， 这 就 不 叫 端 到 端的 保 
障 。 因 为 数据 在 网 卡 缓冲 区 内 ， 还 没有 被 提交 到 TCP 协 议 的 
处 理 逻 辑 中 进行 处 理 ， 所 以 不 会 返回 成 功 信号 给 发 送 方 ， 那 
么 这 个 数据 包 就 没有 被 发 送 成 功 ， 发 送 方 会 通过 超时 来 感知 
到 这 个 结果 。 


7.3.5 ”网 络 层 


客户 把 货物 交 给 货运 公司 的 时 候 ， 必 须 填写 目的 地 址 《比如 了 地 
址 ) 。 只 要 一 个 地 址 就 够 了 ， 至 于 到 这 个 地 址 应 该 坐 几 路 公交 车 或 哪 
趟 火车 等 问题 ， 客 户 统统 不 管 ， 全 部 交 给 网 络 层 处 理 。 


货运 公司 为 每 件 货物 贴 上 一 个 地 址 标签 (IP 头 ) 。 


货运 公司 的 调度 们 掌握 了 全 球 范围 的 地 址 信息 (路 由 表 ) ， 比 如 
去 某 某 地 方 应 该 走 哪 条 路 。 


在 选择 了 一 条 路 之 后 ， 就 让 司机 开车 上 路 了 。 
押运 员 进 行 理 货 和 收发 货物 ， 没 事 就 在 后 车 厢 里 睡觉 。 


此 时 最 忙 的 是 各 个 中 转 站 的 调度 了 。 货 物 每 次 中 转 到 一 个 地 方 就 
交 给 那个 地 方 的 调度 ， 由 那个 调度 来 决定 下 一 站 应 该 到 哪里 。 


接班 的 时 候 ， 旧 调度 不 必 告 诉 新 调度 最 终 目的 应 该 怎么 走 ， 因 为 
所 有 的 调度 都 知道 这 个 目的 ， 一 看 就 知道 该 走 什么 路 了 。 


例如 ， 有 客户 从 新 疆 发 货 到 青岛 ， 由 于 新 疆 没有 直达 青岛 的 航班 
或 者 火车 ， 所 以 只 能 先 到 达 北 京 ， 然 后 再 从 北京 直达 青岛 。 


新 疆 的 调度 收 到 货物 之 后 ， 他 查找 路 由 表 ， 发 现 要 到 青岛 ， 必 须 

到 北京 。 新 疆 的 调度 会 在 货物 上 贴 上 青岛 的 标签 而 不 是 北京 的 标 
签 ， 但 是 发 货 的 时 候 ， 调 度 会 选择 将 货物 运送 到 新 疆 到 北京 的 火车 
上 。 


货物 到 达 北 京 之 后 ， 北 京 货运 分 公司 的 调度 收 到 这 件 货物 ， 首 先 
查看 这 件 货物 的 最 终 目 的 地 址 ， 然 后 北京 调度 也 去 查找 路 由 表 。 他 的 
路 由 表 与 新 疆 调度 的 路 由 表 不 同 ， 在 他 的 表 上 ， 北 京 到 青岛 有 直达 的 
火车 ， 所 以 北京 调度 立即 将 货物 原封 不 动 的 送 上 去 青岛 的 火车 。 就 这 
样 一 站 一 站 的 往 前 送 (路 由 转发 ) ， 货 物 最 终 从 新 疆 到 达 了 青岛 。 


思考 : 那么 调度 是 怎么 知道 全 球 地 址 表 (路 由 表 ) 的 呢 ? 这 
个 表 的 生成 是 一 个 复杂 的 学 习 阶 段 ， 可 以 通过 调度 自行 学 习 
或 者 调度 之 间 相 互通 告 ， 也 可 以 通过 手工 录入 。 前 者 称 为 动 
态 路 由 ， 后 者 称 为 静态 路 由 。 


路 由 器 充当 的 就 是 调度 的 角色 。 比 如 在 青岛 想 访问 一 个 位 于 北京 
的 服务 器 ， 具 体 步 又 如 下 。 


首先 必须 知道 这 个 服务 器 的 IP 地 址 ， 然 后 用 这 个 IP 地 址 作为 最 终 
目的 地 址 组 装 成 数据 包 ， 发 送 给 位 于 青岛 的 Internet 提 供 商 机 房 中 的 路 
由 器 。 


这 个 路 由 器 收 到 这 个 包 后 ， 解 析 其 目的 IP 地 址 ， 然 后 查找 其 路 由 
表 ， 发 现 这 个 目的 IP 地 址 的 包 应 该 从 1 号 端口 转发 出 去 ， 所 以 它 立 即将 
这 个 包 原 封 不 动 地 向 一 号 口 转发 。 一 号 口 通过 光缆 直接 连接 到 了 位 于 
河北 机 房 中 的 另 一 全 路 由 器 。 

提示 : 当然 青岛 到 河北 之 间 不 可 能 只 用 一 条 连续 不 断 的 光缆 

连接 ， 中 途 肯 定 经 过 一 些 光 绕 通信 中 继 站 。 


河北 的 路 由 器 收 到 这 个 IP 包 后 ， 同 样 根据 目的 IP 地 址 查找 路 由 
表 ， 发 现 这 个 目的 地 址 的 包 应 该 从 8 号 端口 中 转发 ， 它 立即 将 这 个 包 转 
发 向 8 号 端口 。 


8 号 端口 通过 光缆 直接 连接 到 了 位 于 北京 机 房 的 一 台 路 由 器 。 
这 台 路 由 器 同样 查找 路 由 表 做 转发 动作 。 


经 过 一 层 层 的 寻找 ， 最 终 找到 了 北京 的 这 台 服 务 器 ， 将 这 个 包 传 
送 到 这 人 台 服 务 器 的 网 卡 ， 并 提交 到 TCP/IP 协 议 处 理 内 存 空间 中 。 


经 过 解析 和 处 理 ， 服 务 器 发 现 最 终 的 数据 是 一 个 TCP 握 手数 据 
包 ， 然 后 TCP/IP 程 序 立 刻 返回 一 个 确认 包 ， 再 次 返回 给 服务 器 一 个 确 
认 包 。 三 次 握手 完成 后 ， 就 可 以 向 服务 器 发 送 HTTP 请 求 来 获取 它 的 网 
页 资源 了 。 


7.3.6 ”数据 链 路 层 


数据 链 路 层 就 是 指 连通 两 个 设备 之 间 的 链 路 ， 数 据 要 经 过 这 条 链 
路 来 传递 给 对 方 。 数 据 链 路 层 的 程序 将 上 层 的 数据 包 再 次 打包 成 对 应 
链 路 的 特定 格式 ， 按 照 对 应 链 路 的 规则 在 链 路 上 传输 到 对 方 。 


数据 链 路 就 好 比 交 通 规则 。 在 高 速 公路 或 者 铁路 上 是 需要 遵守 规 
则 的 ， 不 能 超速 ， 不 能 乱 停车 ， 不 能 开车 灯 到 最 亮 等 。 上 路 之 前 ， 先 
要 看 看 公路 的 质量 怎么 样 ， 是 不 是 适合 跑车 或 者 先 和 对 方 商量 一 下 传 
输 的 事宜 。 这 就 是 链 路 层 协 商 。 


链 路 层 的 作用 


首先 是 协商 链 路 参数 ， 比 如 双 工 、 速 率 、 链 路 质量 等 。 


其 次 是 将 上 层 数据 内 容 打 包 成 帧 ， 加 上 同步 头 进行 传输 ， 一 次 传 
输 一 句 或 者 一 个 字符 一 个 字符 的 传输 (取决 于 上 层 的 选择 ) 。 


最 后 ， 链 路 层 程序 调用 物理 层 提 供 的 接口 ， 将 帧 提交 给 物理 层 。 


相对 于 传输 层 的 保障 来 说 ，OSI 的 数据 链 路 层 也 提供 一 些 保障 机 
制 。 比 如 一 些 链 路 层 协 议会 在 每 个 帧 后 面 加 一 个 校 验 字段 ， 如 果 对 方 
收 到 的 帧 的 校 验 值 与 这 个 校 验 字段 不 符 ， 则 证 明 链 路 受到 干扰 ， 数 据 
产生 上 畸变 ， 那 么 就 将 这 一 帧 视 为 无 效 帧 直接 丢弃 ， 不 会 向 上 层 报告 这 
个 错误 ， 因 为 上 层 对 链 路 层 的 错误 不 关心 。 而 接收 方 的 传输 层 协议 会 
感知 某 个 包 没 有 到 达 或 者 不 完整 ， 接 收 方 的 传输 层 协议 会 要 求 发 送 方 
重新 传送 这 个 不 完整 或 者 没有 接收 到 的 包 ， 也 就 是 端 到 端的 保障 传 
输 。 链 路 层 只 侦 错 ， 不 纠 错 ， 而 传输 层 既 侦 错 ， 又 纠 错 。 


根据 OSI 模 型 ， 两 台 路 由 器 或 者 交换 机 之 间 传 送 数 据 也 属于 两 个 
系统 间 的 互联 ， 那 么 它们 也 一 定 遵循 OSI 的 模型 。 下 面 就 来 分 析 一 下 
两 全 PC 之 间 通 信和 两 个 路 由 器 之 间 通 信 有 什么 区 别 。PC 间 通信 我 们 上 
文 已 经 描述 过 ， 下 面 来 讲 一 下 路 由 间 的 通信 。 


简单 的 路 由 器 设备 工作 在 OSI 的 第 三 层 ， 即 网 络 层 。 它 只 处 理 下 
三 层 的 内 容 ， 只 有 下 三 层 的 处 理 逻 辑 ， 而 没有 上 四 层 的 处 理 逻 辑 。 路 
由 器 收 到 包 后 ， 只 检查 包 中 的 IP 地 址 ， 不 会 改变 任何 IP 头 之 上 的 其 他 
内 容 ， 最 简单 的 路 由 器 甚至 不 会 改变 IP 头 。 在 一 些 带 有 诸如 NAT 功 能 
的 路 由 器 上 ， 可 能 会 对 IP 包 的 源 或 者 目的 IP 地 址 做 修改 。 数 据 包 流入 
路 由 器 后 ， 路 由 器 只 分 析 到 第 三 层 的 也 头 ， 便 可 以 根据 路 由 表 完 成 转 
上 友 逻 辑 。 


如 图 7-1 所 示 为 通信 路 径 上 各 个 设备 所 作用 的 层次 示意 图 ， 具 体 过 
程 如 下 。 


图 7-1 通信 路 径 上 各 个 设备 所 作用 的 层次 


左边 的 PC 机 A 连 接 到 路 由 器 A 的 以 太 网 卡 1 上 ， 路 由 器 A 的 以 太 网 
卡 2 与 路 由 器 B 的 以 太 网 卡 2 相 和 连 ， 右 边 的 PC 机 B 连 接 到 路 由 器 B 的 以 太 
网 卡 1 上 。 此 时 ， 要 用 PC 机 A 上 的 正 浏 览 器 访问 位 于 PC 机 B 上 的 web 服 
务 ， 在 下 浏览 器 的 地 址 栏 中 输入 PC 机 B 的 也 地 址 并 按 Enter 键 后 ， 正 浏 
览 器 便 会 调用 WinSock 接 口 来 访问 操作 系统 内 核 的 TCP/IP 协 议 栈 。IE 
浏览 器 告诉 TCP/IP 协 议 栈 它 所 访问 的 目的 IP 地 址 和 目的 端口 ， 并 把 要 
发 送 的 数据 告诉 TCP/AP 协 议 栈 。 正 浏览 器 发 送 给 PC 机 B 的 数据 ， 当 然 
是 一 个 HITP GET 请 求 ， 具 体内 容 属 于 上 三 层 ， 在 这 里 不 关心 也 不 做 
分 析 。 


TCP/IP 协 议 栈 收 到 这 个 数据 之 后 ， 发 现下 浏览 器 与 PC 机 B 当 前 并 
不 存在 连接 ， 所 以 它 首 先 要 向 PC 机 B 上 的 TCP/IP 协 议 栈 发 起 连接 请 
求 ， 也 就 是 TCP 的 三 次 握手 过 程 。PC 机 A 的 TCP/IP 协 议 栈 先 组 装 第 一 
次 握手 IP 包 ， 组 好 后 发 送 给 操作 系统 内 核 缓 冲 区 ， 内 核 调用 网 卡 驱 动 
程序 从 缓冲 区 内 将 这 个 IP 包 编码 并 在 线路 上 传递 出 去 。 握 手数 据 包 很 
小 ， 只 要 一 个 以 太 网 帧 就 可 以 容纳 。 


这 个 帧 最 终 到 达 路 由 器 A 的 以 太 网 卡 1 缓冲 区 内 。 以 太 网 卡 1 产生 
中 断 信号 ， 然 后 将 这 个 帧 去 掉 以 太 网 头 ， 发 送 到 路 由 器 A 的 内 存 中 ， 
等 待 iP 转 发 逻辑 模块 的 处 理 。 运 行 在 路 由 器 A 上 的 IP 转 发 逻辑 模块 ， 其 
实 就 是 IP 路 由 协议 计算 模块 ， 这 个 模块 分 析 此 IP 包 的 头 部 目的 IP 地 
址 ， 查 找 路 由 表 以 确定 这 个 包 将 从 哪个 接口 发 送出 去 。IP 路 由 运算 一 
定 要 快速 高 效 ， 才 不 至 于 对 网 络 性 能 造成 瓶颈 。 


路 由 器 A 查找 路 由 表 发 现 这 个 包 应 当 从 以 太 网 卡 2 转发 出 去 ， 所 以 
它 立 即将 这 个 包 发 送 到 以 太 网 卡 2 并 通过 线路 传送 到 了 路 由 器 B 的 以 太 
网 卡 2 上 。 经 过 同样 的 过 程 ， 路 由 器 B 将 这 个 包 路 由 到 PC 机 B 的 以 太 网 


卡 缓冲 区 内 ，PC 机 B 的 网 卡 产生 中 断 ， 将 这 个 包 通 过 总 线 传 送 到 PC 机 
B 的 TCP/IP 协 议 栈 缓冲 区 内 存 。 


运行 在 PC 机 B 上 的 TCP/IP 协 议 栈 程序 分 析 这 个 包 ， 发 现 IP 是 自己 
的 ，TCP 端 口号 为 80， 握 手 标识 位 为 二 进 制 1， 就 知道 这 个 连接 是 由 源 
地 址 IP 所 在 的 设备 向 自己 的 80 端 口 ， 也 就 是 Web 服 务 程 序 所 监听 的 端 
口 发 起 的 握手 连接 。 根 据 这 个 逻辑 ，TCP/IP 协 议 栈 返回 握手 确认 IP 包 
给 PC 机 A，PC 机 A 再 返回 一 个 最 终 确认 包 ， 这 样 就 完成 了 TCP 的 三 次 
握手 。 


握手 成 功 后 ，PC 机 A 上 的 TCP/IP 协 议 栈 立 即 在 其 缓冲 区 内 将 由 IE 
浏览 器 发 送 过 来 的 HTTP GET 请 求 数据 组 装 成 TCP/ 了 数据 包 ， 发 送 给 
PC 机 B。PC 机 B 得 到 这 个 数据 包 之 后 ， 分 析 其 TCP 端 口号 ， 并 根据 对 
应 关系 将 数据 放 到 监听 这 个 端口 的 应 用 程序 的 缓冲 区 内 存 。 


应 用 程序 收 到 这 个 GET 请 求 之 后 ， 便 会 触发 Web 服 务 逻 辑 流 程 ， 
返回 Web 网 页 数据 ， 同 样 经 由 PC 机 B 的 TCP/IP 协 议 栈 ， 发 送 给 PC 机 
A。 


上 述 过 程 是 一 个 正常 通信 的 过 程 。 


提示 : 如 果 在 PC 机 B 向 PC 机 A 传送 网 页 数据 的 时 候 ， 路 由 器 
A 和 路 由 器 B 之 间 的 链 路 发 生 了 几 秒 钟 的 短暂 故障 后 又 恢复 连 
通 性 ， 这 期 间 丢 失 了 很 多 数据 。 虽 然 这 样 ， 依 靠 TCP 协 议 的 
纠 错 功 能 ， 数 据 依然 会 被 顺序 的 传送 给 PC 机 A。 


我 们 就 来 分 析 一 下 TCP 是 如 何 做 到 的 。 假 如 ， 在 链 路 中 断 的 时 
候 ， 愉 好 有 一 个 帧 在 链 路 上 传送 。 发 生 故 障 后 ， 这 个 帧 就 永久 的 丢失 
了 。 即 使 链 路 恢复 后 ， 路 由 器 也 不 会 重新 传送 这 个 帧 。 但 PC 机 B 由 于 


很 长 时 间 都 没有 收 到 PC 机 A 的 确认 信息 ， 便 知道 刚才 发 送 的 数据 包 可 
能 已 经 被 中 途 的 网 络 设 备 丢 弃 了 ， 所 以 PC 机 B 上 的 TCP 协 议 将 重新 发 
送 这 个 数据 包 。 


提示 : 未 接收 到 确认 的 包 会 存放 在 缓冲 区 内 ， 不 会 删除 ， 直 
到 收 到 对 方 确 认 。 


所 以 ， 即 便 中 途经 过 的 网 络 设备 将 这 个 包 丢 看 了 ， 运 行 在 通信 路 
径 最 两 端的 TCP/PP 协 议 ， 依 然 会 重 传 这 些 丢弃 的 包 ， 从 而 保障 了 数据 
传输 ， 这 也 就 是 端 到 端的 传输 保障 。 只 有 端 到 端的 保障 ， 才 是 真正 的 
保障 ， 因 为 中 途 网 络 设备 不 会 缓存 发 送 的 数据 ， 更 不 会 自动 重 传 。 


7.3.7 ”物理 层 


物理 层 的 作用 就 是 研究 在 一 种 介质 上 (或 者 真空 ) 如 何 将 数据 编 
码 发 送 给 对 方 。 如 果 选 择 公 路 来 跑 汽 车 ， 要 根据 沥青 路 或 者 土路 来 选 
用 不 同 的 轮胎 ; 如 果 选 择 利用 空气 来 跑 飞 机 ， 则 需 根据 不 同 的 气流 密 
度 来 调整 飞行 参数 ， 如 果 选 择 了 真空 ， 则 只 能 利用 电磁 波 或 者 光 来 传 
输 ， 可 以 根据 障碍 物 等 因素 选择 不 同 波长 的 波 来 承载 信号 ; 如 果 选 择 
了 海水 ， 则 要 根据 不 同 的 浪 高 来 调整 航海 参数 。 这 些 都 是 物理 层 所 关 
心 的 。 


物理 层 和 链 路 层 的 区 别 


物理 层 和 链 路 层 是 很 容易 混淆 的 两 个 层次 。 链 路 层 是 控制 物理 层 
的 。 物 理 层 好 比 一 个 答 头 笨 脑 的 传送 带 ， 它 不 停 地 在 运转 ， 只 要 有 东 
西 放 到 传送 带 上 就 会 被 运输 到 对 方 。 不 管 给 它 什么 东西 ， 它 都 一 视 同 
仁 并 且 不 会 停 下 。 


假设 你 我 之 间 有 一 个 不 停 运 转 的 传送 市 ， 肝 时 刻 我 有 一 大 批 货物 
要 传送 给 你 ， 是 否 可 以 一 股 脑 的 把 这 些 货 物 不 停 地 放 到 传送 带 上 ,一 
下 子 传送 给 你 呢 ? 当然 可 以 ， 但 是 那样 将 没有 整理 货物 的 时 间 ， 永 远 
处 于 不 停 地 从 传送 带 上 拿 下 货物 的 状态 ， 货 物 越 堆 越 多 ， 最 终 造成 月 
溃 。 如 果 能 将 货物 一 批 一 批 的 传送 过 来 ， 不 但 给 予 了 双方 充足 的 整理 
货物 的 时 间 ， 而 且 使 得 货物 传输 显得 井井有条 。 而 将 货物 分 批 这 件 
事 ， 传 送 带 本 身 是 不 会 做 的 ， 只 能 靠 TCP 或 者 IP 来 做 。 链 路 层 给 每 批 
货物 附加 上 一 些 标志 性 的 头 部 或 者 尾部 ， 接 收 方 看 到 这 些 标志 ， 就 知 
道 一 批 货物 又 来 了 ， 并 做 接收 动作 。 


每 种 链 路 ， 都 有 自己 的 一 个 最 适 分 批 大 小 ， 叫 做 最 大 传输 单元 ， 
MTU。 每 次 传输 ， 链 路 上 最 大 只 能 传输 MTU 大 小 的 货物 。 如 果 要 在 一 
次 传输 中 传送 大 于 这 个 大 小 的 货物 ， 超 过 了 链 路 接收 方 的 处 理 吞 吐 
量 ， 则 可 能 造成 接收 方 缓冲 区 溢出 或 者 强行 截断 等 错误 。 


TCP 和 IP 这 两 个 协议 程序 都 会 给 货物 分 批 。 第 一 个 分 批 的 是 
TCP， 下 到 IP 这 一 层 ， 又 会 根据 链 路 层 的 分 批 大 小 来 将 TCP 已 经 分 批 
的 货物 再 次 分 批 ， 如 果 TCP 分 批 小 于 链 路 层 分 批 ， 则 IP 不 需要 再 分 。 
如 果 是 大 于 链 路 层 的 分 批 ， 则 IP 会 将 货物 分 批 成 适合 链 路 层 分 批 的 大 
小 。 被 耻 层 分 批 的 货物 ， 最 终 会 由 接收 方 的 卫 层 来 再 组 装 合并 ， 但 是 
由 TCP 分 批 的 货物 ， 接 收 方 的 TCP 层 不 会 合并 ，TCP 可 以 任意 分 割 货物 
进行 发 送 而 接收 的 时 候 并 不 做 合并 的 动作 。 对 货物 的 处 理 分 析 全 部 交 
由 上 层 应 用 程序 来 处 理 ， 所 以 利用 TCP/IP 通 信 的 应 用 程序 必须 对 自己 
所 发 送 的 数据 有 定 界 措施 。 


说 白 了 ， 物 理 层 就 是 用 什么 样 的 线 绕 、 什 么 样 的 接口 、 什 么 样 的 
物理 层 编 码 方式 ， 归 零 还 是 不 归 零 ， 同 步 方式 ， 外 同步 还 是 内 同步 ， 
高 电压 范围 ， 低 电压 范围 ， 电 气 规范 等 的 东西 。 


通过 物理 层 编码 后 ， 我 们 的 数据 最 终 变 成 了 一 串 比特 流 ， 通 过 电 
路 振荡 传输 给 对 方 。 对 方 收 到 比特 流 后 ， 提 交 给 链 路 层 程序 ， 由 程序 
处 理 ， 剥 去 链 路 层 同步 头 、 帧 头 帧 尾 、 控 制 字 符 等 ， 然 后 提交 给 网 络 
层 处 理 程序 (TCP/P 协 议 栈 等 ) 。IP 头 是 个 标签 ， 收 件 人 通过 IP 头 来 
查看 这 个 货物 是 谁 发 的 。TCP 头 在 完成 押运 使 命 之 后 ， 还 有 一 个 作用 
就 是 确定 由 哪个 上 层 应 用 程序 来 处 理 收 到 的 包 (用 端口 号 来 决定 ) 。 
应 用 程序 收 到 TCP 提 交 的 数据 后 ， 进 行 解析 处 理 。 


7.4 OSI 与 网 络 


网 络 就 是 由 众多 节点 通过 某 种 方式 互相 连通 之 后 所 进行 的 多 点 通 
信 系 统 。 既 然 涉及 到 节点 与 节点 间 的 通信 ， 那 么 就 会 符合 OSI 模 型 。 


首先 我 们 看 看 计算 机 总 线 网 络 。CPU、 内 存 、 外 设 三 者 通过 总 线 
互相 连接 起 来 ， 当 然 总 线 之 间 还 有 北桥 和 南 桥 ， 这 两 个 已 片 犹如 IP 网 
络 中 的 IP 路 由 器 或 者 网 桥 。CPU 与 内 存 这 两 个 部 件 都 连接 到 北桥 这 个 
路 由 器 上 ， 然 后 北桥 连接 到 南 桥 ， 南 桥 下 连 一 个 HUB 总 线 ，HUB 上 连 
接 了 众多 的 外 设 ， 这 些 外 设 共享 这 个 HUB 与 南 桥 进行 通信 。 


提示 : 说 到 HUB ， 不 要 认为 是 专 指 以 太 网 中 的 HUB，HUB 
的 意思 就 是 一 条 总 线 。 如 果 在 这 条 总 线 上 运行 以 太 网 协议 ， 
则 就 是 以 太 网 HUB; 如 果 在 这 条 总 线 上 运行 的 是 PCI 协 议 ， 
则 就 是 PCI HUB (PCI 总 线 ) 。 


连接 到 以 太 网 HUB 上 的 各 个 节点 ， 采 用 CSMA/CD 的 竞争 机 制 来 
获取 总 线 使 用 权 ，PCI 总 线 同样 采用 仲裁 竞争 机 制 ， 只 是 实现 方式 不 
同 。 实 现 方式 也 可 以 称 为 协议 ， 所 以 有 以 太 网 HUB 和 PCI HUB 之 分 ， 


也 就 是 说 HUB 上 运行 的 是 不 同 的 协议 。 当 然 以 太 网 HUB 设 计 要 求 远 远 
比 PCI HUB 低 ， 速 度 也 低 很 多 。 


图 7-2 所 示 的 模型 是 一 个 常见 的 小 型 网 络 ， 几 台 PC 通 过 以 太 网 
HUB 和 路 由 器 互相 连接 起 来 ， 然 后 通过 运行 在 每 人 台 PC 上 的 TCP/IP 协 议 
来 通信 。 路 由 器 的 作用 只 是 分 析 目 的 了 了 地 址 从 而 做 转发 动作 。 


图 7-2 一 个 典型 的 网 络 


而 我 们 再 观察 一 下 图 7-3， 发 现 除了 连接 各 个 组 件 之 间 的 线路 变 成 
了 并 行 多 线路 之 外 ， 其 他 没有 什么 大 的 变化 。 但 是 ， 这 两 个 网 络 的 通 
言 过 程 是 有 区 别 的 。 上 面 的 网 络 利 用 一 种 高 级 复杂 的 协议 一 一 TCP/PP 
协议 来 通信 ， 而 图 7-3 所 示 的 网 络 是 通过 直接 总 线 协议 进行 通信 。 在 下 
面 的 网 络 中 ， 各 个 部 件 之 间 的 连 线 非 常 短 ， 速 度 很 高 且 非 常 稳定 ， 自 
身 就 可 以 保障 数据 的 稳定 传输 ， 所 以 不 需要 TCP 这 种 传输 保障 协议 的 
参与 。 在 上 面 的 网 络 中 ， 各 个 部 件 之 间 可 能 相隔 很 远 的 距离 ， 链 路 速 
度 慢 ， 稳 定性 不 如 主板 上 的 导线 高 ， 所 以 必须 运行 一 种 端 到 端的 传输 
保障 协议 ， 比 如 TCP 协 议 ， 来 保障 端 到 端的 数据 传输 。 


图 7-3 ”计算 机 总 线 网 络 


此 外 ， 上 面 的 两 个 网 络 模型 ， 其 本 质 是 相同 的 ， 因 为 它们 两 个 都 
是 从 基本 原理 发 展 而 来 的 。 我 们 说 ， 这 两 个 网 络 模 型 都 符合 OSI 这 个 
抽象 模型 。 再 甚 者 ， 这 两 个 模型 都 符合 * 连 、 找 、 发 ”抽象 模型 。 


首先 ， 所 有 部 件 之 间 都 用 了 导线 来 连接 。 对 于 第 一 个 模型 ， 导 线 
为 双 绞 线 或 者 其 他 形式 的 外 部 电 绕 ;对 于 第 二 个 模型 ， 导 线 为 电路 板 
上 印刷 的 蛇行 线 。 这 就 是 所 谓 “ 连 ”。 


其 次 ， 这 两 个 模型 中 都 有 寻 址 的 逻辑 。 第 一 个 模型 利用 卫 地 址 作 
为 寻 址 方法 ; 第 二 个 模型 中 利用 地 址 总 线 作 为 寻 址 方法 。 这 就 是 所 谓 
“ 找 ” 


提示 : 生物 细胞 之 间 的 通信 ， 同 样 符合 OSI 模型 和 “和 连 找 发 ” 
模型 。 细 胞 之 间 通 过 血管 来 传递 信息 ， 这 就 是 “ 连 ”， 通 过 配 
体 一 受 体 关 系 来 找到 目标 ， 这 就 是 “ 找 ”， 血 液 流动 将 配 体 分 
子 传递 (广播 ) 到 人 体 的 每 个 角落 ， 这 就 是 “发 "。 我 国 分 子 
生态 学 创始 人 向 近 敏 曾经 提出 分 子 信 息 网 络 学 说 ， 就 恰恰 体 
现 了 网 络 的 思想 。 在 分 子 上 层 ， 还 有 细胞 信息 网 络 学 说 和 遗 
传 信息 网 络 学 说 ， 它 们 一 个 比 一 个 高 层 ， 一 个 比 一 个 抽象。 
然而 分 子 信息 网 络 也 不 一 定 就 是 最 底层 的 网 络 ， 或 许 还 有 原 
子 信息 网 络 、 电 子 信息 网 络 等 。 


最 后 ， 第 一 个 模型 利用 TCP 协 议 进行 有 保障 的 数据 发 送 动作 ， 第 
二 个 模型 中 由 于 线路 非常 稳定 ， 不 需要 高 级 协议 参与 ， 而 是 直接 利用 
电路 逻辑 从 目标 部 件 将 数据 复制 过 来 。 这 就 是 所 谓 “ 发 ”。 


网 中 有 网 


我 们 在 以 前 的 章节 中 ， 多 次 提 到 过 “网 中 有 网 ”这 个 词 。 而 我 们 现 
在 再 来 体会 一 下 ， 发 现 计 算 机 系统 、 计 算 机 网 络 、Internet， 这 些 系 
统 ， 确 实 可 以 用 网 中 有 网 来 描述 。 计 算 机 总 线 这 个 微型 网 络 ， 通 过 一 
个 网 卡 ， 接 入 以 太 网 交换 机 或 者 HUB， 与 其 他 计算 机 总 线 网 络 形成 一 
个 局 域 网 ， 然 后 这 个 局 域 网 再 连接 到 路 由 器 网 关 ， 从 而 连接 到 更 大 的 
网 络 ， 甚 至 Internet。 


所 有 的 网 络 ， 都 按照 0SI 和 * 连 找 发 ”模型 有 条 不 率 地 通信 交互 着 ， 
为 我 们 服务 。 分 子 之 间 和 细胞 之 间 神 奇 地 相互 作用 着 ， 地 球 和 月 球 有 
条 不 率 地 旋转 运行 着 ， 太 阳 系 缓慢 地 自转 ， 并 围绕 着 更 大 的 银河 系 旋 
转 。 


第 8 章 ” 勇 破 难 关 一 一 Fibre 
Channel 协 议 详解 


四 Fibre Channel 


@ 网 状 通道 协议 
@ 光纤 通道 协议 
m OSI 


本 书 的 第 6.8 节 ， 引 出 了 SAN 的 概念 。SAN 首 先是 个 网 络 ， 而 不 是 
指 存 储 设备 。 当 然 ， 这 个 网 络 是 专门 用 来 给 主机 连接 存储 设备 用 的 。 
这 个 网 络 中 有 着 很 多 的 元 件 ， 它 们 的 作用 都 是 为 了 让 主机 更 好 地 访问 
存储 设备 。 


SAN 概 念 的 出 现 ， 只 是 个 开头 而 已 ， 因 为 按照 SCSI 总 线 16 个 节点 
的 限制 ， 不 可 能 接 入 很 多 的 磁盘 。 要 扩大 这 个 SAN 的 规模 ， 还 有 很 长 
一 段 路 要 走 。 如 果 仅 仅 用 并 行 SCSI 总 线 ， 那 么 SAN 只 能 像 PCI 总 线 一 
样 作 为 主机 的 附属 品 ， 而 不 可 能 成 为 一 个 真正 独立 的 “网 络 ”。 必 须 找 
到 一 种 可 寻 址 容量 大 、 稳 定性 强 、 速 度 快 、 传 输 距离 远 的 网 络 结构 ， 
从 而 连接 控制 器 和 磁盘 或 者 连接 控制 器 到 主机 。 


干脆 破釜沉舟 ， 独 立 研发 一 套 全 新 的 网 络 传输 系统 ， 专 门 针 对 局 
部 范围 的 高 速 高 效 传输 。 


然而 ， 形 成 一 套 完 整 的 网 络 系统 并 非 易 事 ， 首 先 必 须 得 有 个 监 
图 。 这 个 监 图 是 否 有 现成 可 以 参考 的 呢 ? 当然 有 ，OSI 就 是 一 个 经 典 
的 监 图 。OSI 是 对 任何 互联 系统 的 抽象 。 


8.1 FC 网 络 一 一 极 佳 的 候选 角色 


FC 协议 自从 1988 年 出 现 以 来 ， 已 经 发 展 成 为 一 项 非常 复杂 、 高 速 
的 网 络 技 术 。 它 最 初 并 不 是 研究 来 作为 一 种 存储 网 络 技术 的 。 最 早 版 
本 的 FC 协议 是 一 种 为 了 包括 IP 数 据 网 在 内 的 多 种 目的 而 推出 的 高 速 骨 
干 网 技术 ， 它 是 作为 惠普 、Sun 和 IBM 等 公司 组 成 的 R&D 实验 室 中 的 
一 项 研究 项 目 开 始 出 现 的 。 曾 经 有 几 年 ，FC 协 议 的 开发 者 认为 这 项 拉 
术 有 一 天 会 取代 100BaseT 以 太 网 和 FDDI 网 络 。 在 20 世 纪 90 年 代 中 期 ， 
还 可 以 看 到 研究 人 员 关 于 FC 技术 的 论文 。 这 些 论文 论述 了 FC 协议 作为 
一 种 高 速 骨干 网 络 技术 的 优点 和 能 力 ， 而 把 存储 作为 不 重要 的 应 用 放 
在 了 第 二 位 。 


Fibre Channel 也 就 是 “网 状 通道 ”的 意思 ， 简 称 FC。 

提示 : 由 于 Fiber 和 Fibre 只 有 一 字 之 差 ， 所 以 产生 了 很 多 流传 
的 误解 。FC 只 代表 Fibre Channel， 而 不 是 Fiber Channel， 后 
者 被 翻译 为 “光纤 通道 *， 甚 至 接口 为 FC 的 磁盘 也 被 称 为 “ 光 
纤 磁 盘 "， 其 实 这 些 都 是 很 滑稽 的 误解 。 


不 过 到 目前 为 止 ， 似 乎 称 FC 为 光纤 而 不 是 直接 称 其 FC 的 文章 和 资 
料 更 多 。 这 种 误解 使 得 初 入 存储 行业 的 人 摸 不 着 头脑 ， 认 为 FC 就 是 使 
用 光纤 的 网 络 ， 甚 至 将 FC 与 使 用 光纤 传输 的 以 太 网 链 路 混淆 起 来 。 在 
本 书 内 不 会 使 用 “光纤 通道 "或 者 “光纤 磁盘 ”这 种 定义 ， 而 统统 使 用 FC 
和 “FC 磁盘 ”"。 相 信和 在 阅读 完 本 章 之 后 ， 大 家 就 不 会 再 混 消 这 些 概 念 
了 ， 会 知道 FC 与 光纤 根本 就 没有 必然 的 联系 。 


Fibre Channel 可 以 称 为 FC 协议 ， 或 FC 网 络 、FC 互 联 。 像 TCP/IP 一 
样 ，FC 协 议 集 同 样 具 备 TCP/IP 协 议 集 以 及 以 太 网 中 的 很 多 概念 ， 比 如 
FC 交换 、FC 交 换 机 、FC 路 由 、FC 路 由 器 ，SPF 路 由 算法 等 。 我 们 完 
全 可 以 类 比 地 看 待 TCP/IP 协 议 以 及 FC 协议 ， 因 为 它们 都 遵循 OSI 的 模 
型 。 任 何 互联 系统 都 逃 不 过 OSI 模型 ， 不 可 能 存在 某 种 不 能 归属 于 OSI 
中 某 个 层次 的 元 素 。 


下 面 我 们 用 OSI 来 将 FC 协议 进行 断层 分 析 。 
8.1.1 ”物理 层 


OSI 的 第 一 层 就 是 物理 层 。 作 为 一 种 高 速 的 网 络 传 输 技术 ，FC 协 
议 体系 的 物理 层 具 有 比较 高 的 速度 ， 从 1Gb/s、2Gb/s、4Gb/s 到 当前 的 
8Gb/s。 作 为 高 速 网 络 的 代表 ， 其 底层 也 使 用 了 同步 串 行 传输 方式 ， 而 
且 为 了 保证 传输 过 程 中 的 电 直 流 平衡 、 时 钟 恢复 和 纠 错 等 特性 ， 其 传 
输 编码 方式 采用 NMb 编 码 方式 。 


为 了 实现 远 距 离 传输 ， 传 输 介 质 起 码 要 支持 光纤 。 铜 线 也 可 以 ， 
但 是 距离 受 限制 。FC 协 议 集 中 物理 层 的 电气 子 层 名 为 FC0， 编 码 子 层 
名 为 FC1。 


8.1.2” 链 路 层 
1。 字 符 编 码 以 及 FC 帧 结构 
现代 通信 在 链 路 层 一 般 都 是 成 帧 的 ， 也 就 是 将 上 层 发 来 的 一 定数 


量 的 位 流 打包 加 头 尾 传输 。FC 协 议 在 链 路 层 也 是 成 帧 的 。 既 然 需要 成 
帧 ， 那 么 一 定 要 定义 帧 控制 字符 。 


FC 协 议定 义 了 一 系列 的 帧 控制 策略 及 对 应 的 字符 。 这 些 控制 字符 
不 是 ASCII 码 字符 集中 定义 的 那些 控制 字符 ， 而 是 单独 定义 了 一 套 专 
门 用 于 FC 协 议 的 字符 集 ， 称 为 “有 序 集 ”。 其 中 的 每 个 控制 字符 其 实 是 
由 4 个 8 位 字 节 组 成 的 ， 称 为 一 个 “ 字 ” (word) ， 而 每 个 控制 字 开头 的 
一 个 字 节 总 是 经 过 8 10b 编 码 之 后 的 0011111010 (左旋 ) 或 者 
1100000101 ( 右 旋 ) 。 


由 于 还 没有 标准 名 词 出现 ， 所 以 不 得 不 引入 “左旋 "和 “ 右 旋 ” 这 两 
个 化 学 名 词 来 描述 这 种 镜像 编码 方式 。 左 旋 和 右 旋 是 指 1 和 0 对 调 。 编 
码 电路 可 以 根据 上 一 个 10 位 中 所 包含 的 1 的 个 数 来 选择 下 一 个 10 位 中 1 
的 个 数 。 如 果 上 一 个 1 的 个 数 比 0 的 个 数 少 ， 那 么 下 一 个 10 位 中 就 编码 
成 1 的 个 数 比 0 的 个 数 多 ， 这 样 总 体 平衡 了 1 和 0 的 个 数 。 


0011111010 左 旋 或 者 1100000101 右 旋 ，FC 协 议 给 这 个 字符 起 了 一 
个 名 字 ， 叫 做 K28.5。 这 个 字 未 经 过 8 10b 编 码 之 前 的 值 是 十 六 进 制 
BC， 即 10111100， 它 的 低 5 位 为 11100 (十 进 制 的 28) ， 高 3 位 为 101 

(十 进 制 的 5) 。FC 协 议 便 对 这 个 字 表 示 为 <K28.5”， 也 就 是 说 高 三 位 
的 十 进 制 是 s， 低 5 位 的 十 进 制 是 28， 这 样 便 可 以 组 合成 相应 的 二 进 制 
位 码 。 然 后 再 加 上 一 个 描述 符号 K (控制 字符 ) 或 者 D (数据 字符 ) 。 
K28.5 这 个 字符 没有 ASCII 字 符 编 码 与 其 冲突 ， 它 的 二 进 制 流 中 又 包含 
了 连续 的 5 个 1， 非 常 容易 被 电路 识别 ， 当 然 符 合 这 些 条 件 的 字符 还 有 
JL 


每 个 控制 字 均 由 K28.5 字 符 开 头 ， 后 接 3 个 其 他 字符 (可 以 是 数据 
字符 ) ， 由 这 4 个 字符 组 成 的 字 来 代表 一 种 意义 ， 比 如 SOF (Start Of 
Frame) 、EOF (End Of Frame) 等 。 


定义 了 相关 的 控制 字 之 后 ， 需 要 定义 一 个 帧 头 了 。FC 协 议定 义 了 
一 个 24B 的 帧 头 。 以 太 网 帧 头 才 14B， 用 起 来 还 绰绰有余 ， 为 什么 FC 
需要 定义 24B 呢 ? 在 这 个 问题 上 ， 协 议 的 设计 者 独树一帜 ， 因 为 这 24B 
的 帧 头 不 但 包含 了 寻 址 功能 ， 而 且 包 含 了 传输 保障 的 功能 。 网 络 层 和 
传输 层 的 逻辑 都 用 这 24B 的 信息 来 传递 。 


我 们 知道 ， 基 于 以 太 网 的 TCP/IP 网 络 ， 它 的 开销 一 共 是 : 14B 
(以 太 网 帧 头 ) 十 20B (IP 头 ) 十 20B (TCP 头 ) ==54B, 或 者 把 TCP 
头 换 成 8B 的 UDP 头 ， 一 共 是 42B。 这 就 注定 了 FC 的 开销 比 以 太 网 加 上 
TCP/IP 的 开销 要 小 ， 而 实现 的 功能 都 差不多 。 


可 以 看 出 ， 以 太 网 中 用 于 寻 址 的 开销 太 大 ， 一 个 以 太 网 MAC 头 和 
一 个 IP 头 这 两 个 就 已 经 34B 了 ， 更 别 说 再 加 上 TCP 头 了 。 而 FC 将 寻 
址 、 传 输 保障 合并 起 来 放 到 一 个 头 中 ， 长 度 才 24B。 图 8-1 所 示 的 是 一 
个 FC 帧 的 示意 图 ， 图 8-2 是 一 个 FC 帧 编码 之 后 的 表示 。 


图 8-1 一 个 FC 帧 的 结构 图 8-2 一 个 完整 的 FC 帧 的 有 序 集 表示 


2. 链 路 层 流量 控制 


在 链 路 层 上 ，FC 定 义 了 两 种 流 控 策 略 : 一 种 为 端 到 端的 流 控 ， 另 
一 种 为 缓存 到 缓存 的 流 控 。 端 到 羡 流 控 比 缓存 到 缓存 流 控 要 上 层 和 高 
级 。 在 一 条 链 路 的 两 端 ， 首 先 面 对 链 路 的 一 个 部 件 就 是 缓存 。 接 收 电 
路 将 一 帧 成 功 接收 后 ， 就 放 入 了 缓存 中 。 如 果 由 于 上 位 程序 处 理 缓慢 
而 造成 缓存 已 经 充满 ，FC 协 议 还 有 机 制 来 通知 发 送 方 减缓 发 送 。 如 果 
链 路 的 一 端 是 FC 终端 设备 ， 另 一 端 是 FC 交换 机 ， 则 二 者 之 间 的 缓存 到 
缓存 的 流量 控制 只 能 控制 这 个 FC 终端 到 FC 交换 机 之 间 的 流量 。 


而 通信 的 最 终 目 标 是 网 络 上 的 另 一 个 FC 终 端 ， 这 之 间 可 能 经 历 了 
多 个 FC 交换 机 和 多 条 链 路 。 而 如 果 数 据 流 在 另外 一 个 FC 终端 之 上 发 生 
拥塞 ， 则 这 个 FC 终端 就 必须 通知 发 起 端 降低 发 送 频 率 ， 这 就 是 “ 端 到 
端 ” 的 流量 控制 。 图 8-3 示 出 了 这 两 种 机 制 的 不 同 之 处 。 


图 8-3”B2B 和 E2E 两 种 方式 的 流量 控制 示意 图 
3. MTU 


一 般 情况 下 ， 以 太 网 的 MTU 为 1500B ， 而 FC 链 路 层 的 MTU 可 以 到 
2112B。 这 样 ，FC 链 路 层 相 对 以 太 网 链 路 层 的 效率 又 提高 了 。 


8.1.3 ”网 络 层 
1。 拓扑 


与 以 太 网 类 似 ，FC 也 提供 了 两 种 网 络 拓扑 模式 : FC-AL 和 


Fabrico 


FC-ALFC-AL 拓 扑 类 似 于 以 太 网 共享 总 线 拓扑 ， 但 是 连接 方式 不 
是 总 线 ， 而 是 一 条 仲裁 环 路 (Arbitral Loop) 。 每 个 FC AL 设备 首尾 相 
接 构成 了 一 个 环 路 。 一 个 环 路 能 接 入 的 最 多 节点 是 128 个 ， 实 际 上 是 用 
了 一 个 字 节 的 寻 址 容量 ,但 是 只 用 到 了 这 个 字 节 经 过 810b 编 码 之 后 奇 
偶 平 衡 (0 和 1 的 个 数 相 等 ) 的 值 ， 也 就 是 256 个 值 中 的 134 个 值 来 寻 
址 ， 这 些 被 筛选 出 来 的 地 址 中 又 被 广播 地 址 、 专 用 地 址 等 占用 了 ， 最 
后 只 剩 下 127 个 实际 可 用 的 节点 地 址 。 


图 8-4 为 4 个 FC-AL 设 备 接 入 一 个 仲裁 环 的 拓扑 图 。 仲 裁 环 是 一 个 
由 所 有 设备 “串联 ?形成 的 闭合 环 路 。 如 果菜 个 设备 发 生 故 障 ， 这 个 串 


联 的 环 路 是 不 是 就 会 全 部 瘫痪 呢 ? 在 FC-AL 集 线 设备 的 每 个 接口 上 都 
有 一 套 “ 旁 路 电路 ”(Bypass Circuit) ， 这 套 电 路 一 旦 检测 到 本 地 设备 
故障 或 电源 断 开 ， 就 会 自动 将 这 个 接口 短路 ， 从 而 使 得 整个 环 路 将 这 
个 故障 的 设备 Bypass 掉 ， 不 影响 其 他 设备 的 工作 。 


图 8-4 ”FC 仲裁 环 结构 示意 图 


数据 帧 在 仲裁 环 内 是 一 跳 一 跳 被 传输 的 ， 并 且 任 何 时 刻 数 据 帧 只 
能 按照 一 个 方向 向 下 游 传输 。 图 8-5 为 AL 环 路 数据 帧 传输 机 制 的 示意 
名。 


图 8-5 ”AL 环 路 数据 帧 传输 机 制 示意 图 


在 图 8-5 所 示 的 仲裁 环 中 ， 若 a 节点 想 与 h 节 点 通信 ， 在 a 节点 赢得 
仲裁 之 后 ， 便 向 h 节 点 发 送 数据 帧 。 然 而 ， 由 于 这 个 环 的 数据 是 顺 时 针 
方向 传递 的 ， 所 以 a 发 出 的 数据 帧 ， 只 能 先 被 b 节 点 收 到 ， 由 b 节 点 接着 
传递 到 c 节 点 ， 依 次 传递 ， 最 终 传递 到 bh 节点。 所 以 ,虽然 a 和 h 节 点 之 
间 只 有 一 跳 的 距离 ， 但 是 仍然 需要 绕 一 圈 来 传递 数据 。 


Fabric 另 一 种 Fabric 拓 扑 和 以 太 网 交换 拓扑 类 似 。Fabric 的 意思 大 
“网 状 构造 >， 表 了 明 这 种 拓扑 其 实 是 一 个 网 状 交换 矩阵。 


交换 矩阵 的 架构 相对 于 仲裁 环 路 来 说 ， 其 转发 效率 大 大 提高 了 ， 
联 入 这 个 矩阵 的 所 有 节点 之 间 都 可 以 同时 进行 点 对 点 通信 ， 加 上 包 交 
换 方 式 所 带 来 的 并 发 和 资源 充分 利用 的 特性 ， 使 得 交换 染 构 获得 的 总 
带宽 为 所 有 端口 带宽 之 和 。 而 AL 架构 下 ， 接 入 环 路 的 节点 不 管 有 多 
少 ， 其 带宽 总 为 恒定 ， 即 共享 的 环 路 带宽 。 


图 8-6 为 一 个 交换 矩阵 的 示意 图 。 每 个 FC 终 端 设 备 都 接 入 了 这 个 
和 矩阵 的 端点 ， 一 个 设备 发 给 另 一 个 设备 的 数据 帧 被 交换 矩阵 收 到 后 ， 
矩阵 便 会 * 拨 动 ”* 这 张 矩阵 网 交叉 处 的 开关 ， 以 连通 电路 ， 传 输 数 据 。 
可 以 将 这 个 矩阵 想象 成 一 个 大 的 电路 开关 矩阵， 和 矩阵 根据 通信 的 源 和 
目的 决定 拨 动 哪些 开关 。 这 种 矩阵 被 做 成 必 片 集成 到 专门 的 交换 机 
上 ， 然 后 辅 以 实现 FC 逻 辑 的 其 他 心 片 或 CPU、ROM， 就 形成 了 一 台 用 
于 Fabric 交 换 的 交换 机 。 


图 8-6 ”Cross Bar 交换 矩 阵 示意 图 


图 8-7 所 示 的 是 一 台 Fabric 交 换 机 。FC 设 备 通过 光纤 或 者 铜 线 等 各 
种 标注 的 线 缆 连接 到 这 人 台 交 换 机 上 ， 便 可 以 实现 各 个 节点 基于 FC 
Fabric 拓 扑 方式 的 点 对 点 通信 。 


图 8-7” Brocade 公司 的 FC 交换 机 


FC 交换 拓扑 寻 址 容量 是 2 的 24 次 方 个 地 址 ， 比 以 太 网 理论 值 (2 
48) 少 。 即 便 是 这 样 ， 对 于 专用 的 存储 网 络 来 说 也 足够 了 ， 毕 竟 FC 设 
计 的 初衷 是 用 于 存储 网 络 的 一 种 高 速 高 效 网 络 。 


2。 寻 址 


任何 网 络 都 需要 寻 址 机 制 ，FC 当 然 也 不 例外 了 。 


首先 ， 像 以 太 网 端口 MAC 地 址 一 样 ，FC 网 络 中 的 每 个 设备 自身 都 
有 一 个 WWNN (World Wide Node Name) ， 不 管 这 个 设备 上 有 多 少 个 
FC 端口 ， 设 备 始终 拥有 一 个 固定 的 WWNN 来 代表 它 自身 。 然 后 ，FC 
设备 的 每 个 端口 都 有 一 个 WWPN (World Wide Port Name， 世 界 范 围 


的 名 字 ) 地 址 ， 也 就 是 说 这 个 地 址 在 世界 范围 内 是 唯一 的 ， 世 界 上 疫 
有 两 个 接口 地 址 是 相同 的 。 


FC Fabric 拓 扑 在 寻 址 和 编 址 方面 与 以 太 网 又 有 所 不 同 。 具 体 体 现 
在 以 太 网 交换 设备 上 的 端口 不 需要 有 MAC 地 址 ， 而 FC 交换 机 上 的 端口 
都 有 自己 的 WWPN 地 址 。 这 是 因为 FC 交换 机 要 做 的 工作 比 以 太 网 交换 
机 多 ， 许 多 智能 和 FC 的 逻辑 都 被 集成 在 FC 交换 机 上 ， 而 以 太 网 的 逻辑 
相对 就 简单 了 许多 ， 因 为 上 层 人 逻辑 都 被 交 给 诸如 TCP/IP 这 样 的 上 层 协 
议 实 现 了 。 然 而 FC 的 Fabric 网 中 ，FC 交 换 机 担当 了 很 重要 的 角色 ， 它 
需要 处 理 到 FC 协议 的 最 上 层 。 每 个 FC 终端 设备 除了 和 最 终 通信 的 目标 
有 交互 之 外 ， 还 需要 和 FC 交换 机 打 好 交道 。 


WWNN 每 个 FC 设备 都 被 赋予 一 个 WWNN， 这 个 WWNN 一 般 被 写 
入 设备 的 ROM 中 不 能 改变 ， 但 是 在 某 些 条 件 下 也 可 以 通过 运行 在 设备 
上 的 程序 动态 的 改变 。 


WWPN 和 三 个 IDWWPN 地 址 的 长 度 是 64 位 ， 比 以 太 网 的 MAC 地 
0 可 见 FC 协 议 很 有 信心， 认为 FC 会 像 以 太 网 一 样 普 

， 全 球 会 产生 264 个 FC 接口 。 然 而 ， 如 果 8B 长 度 的 地 址 用 于 高 效 路 
0 无 疑 是 梦 麻 (IPv6 地 址 长 度 为 128b， 但 是 鉴于 Internet 的 庞 
大 ， 也 只 好 牺牲 速度 换 容量 了 ) 。 所 以 FC 协议 决定 在 WWPN 之 上 再 映 
射 一 层 寻 址 机 制 ， 就 是 像 MAC 和 IP 的 映射 一 样 ， 给 每 个 连接 到 FC 网 络 
中 的 接口 分 配 一 个 Fabric ID， 用 这 个 D 而 不 是 WWPN 来 鲍 入 链 路 帧 中 
做 路 由 。 这 个 ID 长 24 位 ， 高 8 位 被 定义 成 Domain 区 分 符 ， 中 8 位 被 定义 
为 Area 区 分 符 ， 低 8 位 定义 为 PORT 区 分 符 。 


这 样 ，WWPN 被 映射 到 Fabric ID ， 一 个 Fabric ID 所 有 24b 又 被 分 成 
Domain ID、Area ID、Port ID 这 三 个 亚 寻 址 单元 。 


机 、 


议 一 


=。 Domain ID : 用 来 区 分 一 个 由 众多 交换 机 组 成 的 大 的 FC 网 络 中 
每 个 FC 交换 机 本 身 。 一 个 交换 机 上 所 有 接口 的 Fabric ID 都 具有 
相同 的 高 8 位 ， 即 Domain ID。 Domain ID 同 时 也 用 来 区 分 这 个 
交换 机 本 身 ， 一 个 Fabric 中 的 所 有 交换 机 拥有 不 同 的 Domain 
ID。 一 个 多 交换 机 组 成 的 Fabric 中 ，Domain ID 是 自动 被 主 交 换 
机 分 配给 各 个 交换 机 的 。 根 据 wWNN 号 和 一 系列 的 选举 帧 的 传 
送 ，WWNN 最 小 者 获胜 成 为 主 交 换 机 ， 然 后 这 个 主 交 换 机 向 所 
有 其 他 交换 机 分 配 Domain ID， 这 个 过 程 其 实 就 是 一 系列 的 特殊 
帧 的 传送 、 解 析 和 判断 。 

Area ID: 用 来 区 分 同一 台 交 换 机 上 的 不 同 端口 组 ， 比 如 1、2、 
3、4 端 口 属于 Area 1，5、6、7、8 端 口 属于 Area 2 等 。 其 实 Area 
ID 这 一 层 亚 寻 址 单元 意义 不 是 很 大 。 我 们 知道 ， 每 个 FC 接 口 都 
会 对 应 一 块 用 来 管理 它 的 心 片 ， 然 而 每 个 这 样 的 心 片 却 可 以 管 
理 多 个 FC 端 口 。 所 以 如 果 一 片 心 片 可 以 管理 1、2、3、4 号 FC 端 
口 ， 那 么 这 个 心 片 就 可 以 属于 一 个 Area， 这 也 是 Area 的 物理 解 
释 。 同 样 ， 在 主机 端的 FC 适 配 卡 上 ， 一 般 也 都 是 用 一 块 心 片 来 
管理 多 个 FC 接口 的 。 

" Port ID: 用 来 区 分 一 个 同 Area 中 的 不 同 Port。 


经 过 这 样 的 3 段 式 寻 址 体系 ， 可 以 区 分 一 个 大 Fabric 中 的 每 个 交换 
交换 机 中 的 每 个 端口 组 及 每 个 端口 组 中 的 端口 。 


3。 寻 址 过 程 


1) 地 址 映射 


既然 定义 了 两 套 编 址 体系 ， 那 么 一 定 要 有 了 映射 机 制 ， 就 像 ARP 协 
样 。FC 协 议 中 地 址 映射 步骤 如 下 。 


当 一 个 接口 连接 到 FC 网 络 中 时 ， 如 果 是 Fabric 架 构 ， 那 么 这 个 接 
口 会 发 起 一 个 登录 注册 到 Fabric 网 络 的 动作 ， 也 就 是 向 目的 Fabric ID 地 
址 FFFFFE 发 送 一 个 登录 帧 ， 称 为 FLOGIN。 


交换 机 收 到 地 址 为 FFFFFE 的 帧 之 后 ， 会 动态 地 给 这 个 接口 分 配 一 
个 24b 的 Fabric ID， 并 记录 这 个 接口 对 应 的 WWPN， 做 好 映射 。 


此 后 这 个 接口 发 出 的 帧 中 不 会 携带 其 WWPN， 而 是 携带 其 被 分 配 
的 ID 作为 源 地 址 。 


提示 : 以 太 网 是 既 携带 MAC 地 址 ， 又 携带 IP 地 址 ， 在 效率 上 
打 了 折扣 。 


如 果 接 口 是 连 接 到 FC 仲裁 环 网 络 中 ， 那 么 整个 环 路 上 的 节点 会 选 
出 一 个 临时 节点 (根据 WWPN 号 的 数值 ， 最 小 的 优先 级 最 高 ， 然 后 
由 这 个 节点 发 送 一 系列 的 初始 化 帧 ， 给 每 个 节点 分 配 环 路 ID。 


提示 : FC 网 络 中 的 FCID 都 是 动态 的 ， 每 个 设备 每 次 登录 到 
Fabric 所 获得 的 ID 可 能 不 一 样 。 同 样 ，FC 交 换 机 维护 的 Fabric 
ID 与 VWPN 的 映射 也 是 动态 的 。 


图 8-8 所 示 的 是 FC 设 备 登 录 到 Fabric 过 程 示意 图 。 
图 8-8 ”FC 设备 登录 Fabric 网 络 的 过 程 

2) 寻 址 机 制 

编 址 之 后 就 要 寻 址 ， 寻 址 则 牵扯 到 路 由 的 概念 。 


一 个 大 的 FC 网 络 中 ， 一 般 有 多 台 交 换 机 相互 连接 ， 它 们 可 以 链 式 
级 联 ， 也 可 以 两 两 连接 ， 甚 至 任意 连接 ， 就 像 了 网络 中 的 路 由 器 连接 
一 样 ， 但 是 FC 网 络 不 需要 太 多 的 人 工 介 入 。 如 果 将 几 台 交换 机 连接 成 
一 个 FC 网 络 ， 则 它们 会 自动 地 协商 自己 的 Domain ID， 这 个 过 程 是 通 
过 选举 出 一 个 WWPN 号 最 小 的 交换 机 来 充当 主 交换 机 ， 由 主 交 换 机 来 
向 下 给 每 个 交换 机 分 配 Domain ID ， 以 确保 不 会 冲突 。 


对 于 寻 址 过 程 ， 这 些 交 换 机 上 会 运行 相应 的 路 由 协议 。 最 广泛 使 
用 的 路 由 协议 就 是 SPF (最 短路 径 优先 ) 协议 ， 是 一 种 很 健壮 的 路 由 
协议 。 比 如 用 于 IP 网 络 中 的 OSPF 协 议 ，FC 网 络 也 应 用 了 这 种 协议 。 这 
样 就 可 以 寻 址 各 个 节点 ， 进 行 各 个 节点 无 障碍 地 通信 。 


IP 网 络 需要 很 强 的 人 为 介入 性 ， 比 如 给 每 个 节点 配置 IP 地 址 ， 给 
每 个 路 由 器 配置 路 由 信息 及 IP 地 址 等 ， 这 样 出 错 率 会 很 高 。FC 网 络 中 
自动 分 配 和 管理 各 种 地 址 ， 避 免 了 人 算 融 来 的 错误 。FC 采 用 自动 分 配 
地 址 的 策略 ， 一 个 最 根本 的 原因 是 FC 从 一 开始 就 被 设计 为 一 个 专用 、 
高 效 、 高 速 的 网 络 ， 而 不 是 给 Internet 用 的 ， 所 以 自动 分 配 地 址 当然 适 
合 它 。 如 果 给 Internet 也 自动 分 配 地 址 ， 那 么 后 果 不 堪 设想 。 


既然 要 与 目的 节点 通信 ， 怎 么 知道 要 通信 的 目标 地 址 是 多 少 呢 ? 
我 们 知道 ，FC 被 设计 为 一 个 专用 网 络 ， 一 个 小 范围 、 高 效 、 高 速 、 简 
易 配 置 的 网 络 。 所 以 使 用 它 的 时 候 也 非常 简便 ， 就 像 在 Windows 中 浏 
览 网 上 邻居 一 样 。 


每 个 节点 在 登录 到 FC 网 络 并 且 被 分 配 ID 之 后 ， 会 进行 一 个 名 称 注 
册 过 程 ， 也 就 是 接口 上 的 设备 会 向 一 个 特定 的 目的 ID 发 一 系列 的 注册 
帧 ， 来 注册 自己 。 这 个 ID 实际 上 并 没有 物理 设备 与 其 对 应 ， 只 是 运行 
在 交换 机 上 的 一 套 名 称 服 务 程序 而 已 ， 而 对 于 终端 FC 设备 来 说 ， 会 认 


为 自己 是 在 和 一 个 真实 的 FC 设 备 通信 。 对 于 Windows 系 统 来 说 ， 每 台 
机 器 启动 之 后 ， 如 果 设 置 了 WINS 服 务 器 ， 会 向 WINS 服 务 器 来 注册 自 
己 的 主机 名 和 1IP 地 址 。 


每 台 机 器 都 这 么 做 ， 所 以 网 络 中 的 WINS 服 务 器 就 会 掌握 网 络 中 
的 所 有 机 器 的 主机 和 IP。 同 样 ，FC 交 换 机 上 运行 的 这 个 名 称 服务 程 
序 ， 就 相当 于 WINS 服 务 器 。 但 是 其 地 址 是 唯一 的 、 特 定 的 ， 不 像 
WINS 服 务 器 可 以 被 配置 为 任何 IP 地 址 。 也 就 是 说 在 FC 协议 中 ， 这 个 
地 址 是 大 家 都 公认 不 会 去 改变 的 ， 每 个 节点 都 知道 这 个 地 址 ， 所 以 都 
能 找到 名 称 服务 器 。 其 实 不 是 物理 的 服务 器 ， 只 是 运行 在 FC 交换 机 上 
的 程序 ， 也 可 以 认为 FC 交换 机 本 身 就 是 这 台 服 务 器 。 


节点 注册 到 名 称 服务 之 后 ， 服 务 便 会 将 网 络 上 存在 的 其 他 节点 信 
息 告 诉 这 个 接口 上 所 连接 的 设备 ， 就 像 浏览 网 上 邻居 一 样 ， 所 以 这 个 
接口 上 的 设备 便 知 道 了 网 络 上 的 所 有 节点 和 资源 。 


ZONE 为 了 安全 性 考虑 ， 可 以 进行 人 为 配置 ， 让 名 称 服务 器 只 告 
诉 某 个 设备 特定 的 节点 。 比 如 网 络 上 存在 a、b、c、d 四 个 节点 ， 可 以 
让 名 称 服务 只 向 a 通告 5b、c 两 个 节点 的 存在 ， 而 隐藏 节点， 这 样 8 看 不 
到 d。 但 是 这 样 做 有 时候 会 显得 很 不 保险 ， 因 为 a 虽然 没有 通过 名 称 服 
务 得 到 d 的 ID ， 但 是 如 果 将 节点 d 的 ID 直接 告诉 节点 a 的 话 ， 那 么 它 就 
可 以 和 d 主 动 发 起 通信 。 而 这 一 切 ， 交 换 机 不 做 干涉 ， 因 为 交换 机 傻 傻 
的 认为 只 要 名 称 服务 器 没有 向 a 通告 d 的 ID，a 就 不 会 和 d 发 起 通信 。 


发 生 这 种 结果 的 原因 是 在 物理 上 节点 a 和 节点 d 并 没有 被 分 开 ，a 和 
d 总 有 办 法 通信 。 就 像 有 时 网 上 邻居 里 看 不 到 一 台 机 器 ， 但 是 它 明 明 在 
线 ， 那 么 如 果 此 时 知道 那 台 机 器 的 地 址 ， 照 样 可 以 不 通过 网 上 邻居 ， 


直接 和 它 通信 。 如 果 两 个 节点 被 物理 隔 开 了 ， 那 么 就 真 的 无 能 为 力 
了 。 前 者 实现 隔离 的 方法 叫做 软 ZONE， 后 者 的 做 法 叫做 硬 ZONE。 


所 谓 ZONE， 即 分 区 的 意思 ， 同 一 个 分 区 内 的 节点 之 间 可 以 相互 
通信 ， 不 同 分 区 之 间 的 节点 无 法 通信 。 软 ZONE 假设 大 家 都 是 守法 公 
民 ， 名 称 服 务 器 没有 通告 的 ID 就 不 去 连接 ; 而 硬 ZONE 不 管 是 否 守法 
都 会 从 底层 硬件 上 强制 隔离 ， 即 使 某 个 节点 知道 了 另外 分 区 中 某 个 节 
点 的 ID， 也 无 法 和 对 方 建立 通信 ， 因 为 底层 已 经 被 阻 断 了 。 图 8-9 是 一 
个 Fabric ZONE 的 示意 图 。 


图 8-9 一 个 具有 三 个 ZONE 的 Fabric 


与 目标 通信 从 名 称 服务 器 得 知 网 络 上 的 节点 人 D 之 后 ， 如 果 想 发 起 
和 一 个 节点 的 通信 ， 那 么 这 个 设备 需要 直接 向 目的 端口 发 起 一 个 
N_PORT Login 过 程 来 交换 一 系列 的 参数 ， 然 后 再 进行 Process Login 过 
程 《类 似 于 TCP 向 特定 应 用 端口 发 送 握手 包 一 样 ) ， 即 进行 应 用 程序 
间 的 通信 。 比 如 ，FC 可 以 承载 SCSI 协 议和 了 PP 协议 ， 那 么 Initiator 端 就 需 
要 向 Target 端 对 应 的 功能 发 起 请 求 ， 比 如 请 求 FCP 类 型 的 Process 
Login， 那 么 Target 端 就 知道 这 个 连接 是 用 于 FCP 流 量 的 。 这 些 Login 过 
程 其 实 就 是 上 三 层 的 内 容 ， 属 于 会 话 层 ， 和 网 络 传输 已 经 没什么 关联 
了 。 这 些 Login 的 帧 也 必须 经 过 FC 下 四 层 来 封装 并 传输 到 目的 地 ， 就 
像 TCP 握 手 过 程 一 样 。 


名 称 服务 器 只 是 FC 提供 的 所 有 服务 中 的 一 个 ， 其 他 还 有 时 间 服 
务 、 别 名 服务 等 ， 这 些 地 址 都 是 事先 定 死 的 。 


Fabric 网 络 中 还 有 一 种 FC Control Service， 如 果 节 点 向 这 个 服务 注 
册 ， 也 就 是 向 地 址 FFFFFD 发 送 一 个 State Change Registration (SCR) 


帧 ， 那 么 一 旦 整个 Fabric 有 什么 变动 ， 比 如 一 个 节点 离线 了 ， 或 者 一 
个 节点 上 线 了 、 或 者 一 个 ZONE 被 创建 了 等 ，Fabric 便 会 将 这 些 事件 封 
装 到 Registered State Change Notification (RSCN) 帧 里 发 送 给 注册 了 
这 项 服务 的 所 有 节点 。 这 个 动作 就 像 预 订 新 闻 一 样 ， 通 常 一 旦 节点 被 
通知 有 这 些 事件 发 生 之 后 ， 节 点 需要 重新 进行 名 称 注 册 ， 以 便 从 名 称 
服务 器 得 到 网 络 上 的 最 新 资源 情况 ， 也 就 是 刷新 一 下 。 


这 些 众 所 周知 的 服务 都 是 运行 在 交换 机 内 部 的 ， 而 不 是 物理 上 的 
一 台 服 务 器 。 当 然 如 果 愿 意 的 话 ， 也 完全 可 以 用 物理 服务 器 来 实现 ， 
不 过 这 样 做 的 话 ， 在 增加 了 扩展 性 的 同时 也 增加 了 Fabric 的 操作 难 
度 。 


以 上 描述 的 都 是 基于 FC 交换 架构 的 网 络 ， 即 Fabric (FC 交换 网 
络 ) 。 对 于 FC 仲裁 环 架构 的 网 络 没 有 名 称 注册 过 程 ， 环 上 的 每 个 节点 
都 对 环 上 其 他 节点 了 如 指 掌 ， 可 以 对 任何 节点 发 起 通信 。 


提示 : 有 些 机 制 可 以 把 环 路 和 交换 结构 融合 起 来 ， 比 如 形成 
Private loop、Public loop 等 ， 这 方面 会 在 下 文中 介绍 。 


FC 的 链 路 层 和 网 络 层 被 合并 成 一 层 ， 统 称 FC2。 
8.1.4 ”传输 层 


FC 的 传输 层 同 样 也 与 TCP 类 似 ， 也 对 上 层 的 数据 流 进 行 
Segment， 而 且 还 要 区 分 上 层 程 序 ，TCP 是 利用 端口 号 来 区 分 ，FC 则 
是 利用 Exchange ID 来 区 分 。 每 个 Exchange (上 层 程 序 ) 发 过 来 的 数据 
包 ， 被 FC 传输 层 分 割 成 Information Unit， 也 就 相当 于 TCP 分 割 成 的 
Segment。 然 后 FC 传输 层 将 这 些 Unit 提 交 给 FC 的 下 层 进行 传输 。 下 层 
将 每 个 segment 当 作 一 个 Sequence， 并 给 予 一 个 Sequence ID ， 然 后 将 这 


个 Sequence 再 次 分 割 成 FC 所 适应 的 帧 ， 给 每 个 帧 赋予 一 个 Sequence 
Count， 这 样 便 可 以 保证 帧 的 排列 顺序 。 接 收 方 接收 到 帧 之 后 ， 会 组 合 
成 Sequence， 然 后 根据 Sequence ID 来 顺序 提交 给 上 层 协 议 处 理 。 图 8- 
10 显 示 了 这 种 层次 结构 。 图 8-11 为 FC 网 络 上 的 数据 帧 传输 示意 图 。 


图 8-10 ”FC 协议 的 层次 结构 


图 8-11” Fabric 网络 上 的 帧 


传输 层 还 有 一 个 重要 角色 ， 就 是 适 配 上 层 协 议 ， 比 如 IP 可 以 通过 
FC 进 行 传输 ，SCSI 指 令 可 以 通过 FC 来 传输 等 。FC 会 提供 适 配 上 层 协 
议 的 接口 ， 就 是 IP over FC 及 SCSI over FC。 这 里 ，FC 只 是 给 IP 和 SCSI 
提供 了 一 种 通路 ， 一 种 传输 手段 ， 就 像 IP over Ethernet 和 IP over ATM 
一 性: 


FC 也 是 通过 发 送 ACK 帧 来 向 对 方 发 送 确认 信息 的 ， 这 个 和 TCP 的 
实现 思想 一 样 。 只 不 过 一 个 ACK 帧 是 24B 加 上 CRC、SOF、EOF, 一 共 
36B， 而 TCP 的 ACK 帧 为 14 十 20 十 20= 二 54B。 两 者 差别 已 经 很 明显 了 ， 
两 个 帧 看 不 出 来 ， 但 是 发 送 多 了 ， 差 别 就 看 出 来 了 。 要 看 累积 效应 。 
当然 这 么 算是 很 粗略 的 ， 还 需要 包括 进 链 路 控制 ， 帧 间隙 开销 等 。 


在 传输 层 上 ，FC 定 义 了 几 种 服务 类 型 ， 也 就 是 类 似 TCP/IP 协 议 中 
规定 的 TCP、UDP。FC 协 议 中 的 Class 1 服务 类 型 是 一 种 面向 连接 的 服 
务 ， 即 类 似 电路 交换 的 模式 ， 为 通信 的 双方 保留 一 条 虚 电 路 ， 以 进行 
可 靠 的 传输 。Class 2 类 型 提供 的 是 一 种 带 端 到 端 确认 的 保障 传输 的 服 
务 ， 也 就 是 类 似 TCP。 Class 3 类 型 不 提供 确认 ， 类 似 UDP。 Class 4 类 
型 是 在 一 条 连接 上 保留 一 定 的 带宽 资源 给 上 层 应 用 ， 而 不 是 像 Class 1 
类 型 那样 保留 整个 连接 ， 类 似 RSVP 服 务 。 使 用 什么 服务 类 型 ， 会 在 端 
口 之 间 进 行 PLogin 的 时 候 协 商 确 定 。 


FC 传输 层 被 定义 为 FC4。 
8.1.5 ”上 三 层 


FC 协议 的 上 三 层 表现 为 各 种 Login 过 程 、 包 括 名 称 服务 等 在 内 的 
各 种 服务 等 ， 这 些 都 是 与 网 络 传 输 无 关 的 ， 但 是 的 确 属于 FC 协议 体系 
之 内 的 ， 所 以 这 些 内 容 都 属于 FC 协议 的 上 三 层 。 


8.1.6 ”小结 


综 上 所 述 ，FC 是 一 个 高 速 高 效 、 配 置 简单 ， 不 需要 太 多 人 为 介入 
的 网 络 。 基 于 这 个 原则 ， 为 了 进一步 提高 FC 网 络 的 速度 和 效率 ， 在 FC 
终端 设备 上 ，FC 协 议 的 大 部 分 逻辑 被 直接 做 到 一 块 独立 的 硬件 卡片 当 
中 ， 而 不 是 运行 在 操作 系统 中 。 如 果 将 部 分 协议 逻辑 置 于 主机 上 运 
行 ， 会 占用 主机 CPU 内 存 资源 。 


TCP/IP 就 是 一 种 运行 于 主机 操作 系统 上 的 网 络 协议 ， 其 IP 和 TCP 
或 者 UDP 模 块 是 运行 在 操作 系统 上 的 ， 只 有 以 太 网 逻辑 是 运行 在 以 太 
网 卡 蕊 片 中 的 ，CPU 从 以 太 网 卡 接收 到 的 数据 是 携带 有 IP 头 部 及 
TCP/UDP 头 部 的 ， 需 要 运行 在 CPU 中 的 TCP/P 协 议 代 码 来 进一步 处 理 
这 些 头 部 ， 才 能 生成 最 终 的 应 用 程序 需要 的 数据 。 


而 FC 协 议 的 物理 层 到 传输 层 的 逻辑 ， 大 部 分 运行 在 FC 适 配 卡 的 心 
片 中 ， 只 有 小 部 分 关于 上 层 API 的 逻辑 运行 于 操作 系统 FC 卡 驱动 程序 
中 ， 这 样 就 使 FC 协议 的 速度 和 效率 都 较 TCP/IP 协 议 高 。 这 么 做 ， 成 本 
无 疑 会 增加 ， 但 是 网 络 本 来 就 不 是 为 大 众 设计 的 ， 增 加 成 本 来 提高 速 
度 和 效率 也 是 值得 的 。 


8.2 FC 协议 中 的 七 种 端口 类 型 


在 FC 网 络 中 ， 存 在 七 种 类 型 的 接口 ， 其 中 N、L 和 NEL 端 口 被 用 于 
终端 节点 ，F、FL、E 和 G 端 口 在 交换 机 中 实现 。 


8.2.1 _N 端 口 和 F 端 口 


N 端 口 和 F 端 口 专 用 于 Fabric 交 换 架 构 中 。 连 入 FC 交换 机 的 终端 节 
点 的 端口 为 N 端 口 ， 对 应 的 交换 机 上 的 端口 为 F 端 口 。N 代 表 Node，F 
代表 Fabric。 用 N 端 口 模式 连 入 F 端 口 之 后 ， 网 络 中 的 N 节 点 之 间 就 可 
以 互相 进行 点 对 点 通信 了 。 图 8-12 所 示 的 是 N 端 口 和 F 端 口 的 示意 图 。 


图 8-12 _N 端 口 和 FE 端口 
8.2.2 工 端口 


L 端 口 指 仲裁 环 上 各 个 节点 的 端口 类 型 (LOOP) 。 环 路 上 的 所 有 
设备 可 以 通过 一 个 FCAL 的 集线器 相连 ， 以 使 得 布线 方便 ， 故 障 排 除 
容易 。 当 然 ， 也 可 以 使 用 最 原始 的 方法 ， 就 是 首尾 相 接 。 图 8-13 所 示 
的 是 利用 集线器 连接 的 拓扑 。 


图 8-13 ”基于 FCAL 集 线 器 的 FCAL 环 路 连接 
1. 私有 环 


私有 环 ， 就 是 说 这 个 FC 仲裁 环 是 封闭 的 ， 只 能 在 这 个 环 中 所 包含 
的 节 扣 之 间 相 互通 信 ， 而 不 能 和 环 外 的 任何 节点 通信 。 


2。 开放 环 


这 个 环 是 开放 的 ， 环 内 节点 不 但 可 以 和 环 内 的 节点 通信 ， 而 且 也 
可 以 和 环 外 的 节点 通信 。 也 就 是 说 可 以 把 这 个 环 作为 一 个 单元 连接 到 
FC 交换 机 上 ， 从 而 使 得 环 内 的 节点 可 以 和 位 于 FC 交换 机 上 的 其 他 N 节 
点 通信 。 如 果 将 多 个 开放 环 连 接 到 交换 机 ， 那 么 这 几 个 开放 环 之 间 也 
可 以 相互 通信 。 


要 实现 开放 环 架构 ， 需 要 特殊 的 端口 ， 即 下 面 描述 的 NL 和 FL 端 
口 。 


8.2.3 ”NL 端口 和 FL 端口 


NL 端口 是 开放 环 中 的 一 类 端口 ， 它 具有 N 端 口 和 LL 端口 的 双重 能 
力 。 换 而 言 之 ，NL 端 口 支 持 交 换 式 光纤 网 登录 和 环 仲裁 。 而 FL 端口 是 
FC 交换 机 上 用 于 连接 开放 仲裁 环 结构 的 中 介 端 口 。 


开放 环 内 可 以 同时 存在 NL 节点 和 LL 节点 ， 而 只 有 NL 节点 才能 和 环 
外 的 、 位 于 FC 交换 结构 中 的 多 个 N 节 点 或 者 其 他 类 型 节点 通信 。NNL 节 
点 也 可 以 同时 和 革 节 点 通信 。 图 8-14 为 NL 和 FL 端口 示意 图 。 


图 8-14 _ NL 和 FL 端口 示意 图 
开放 环 的 融合 机 制 


FC-SW 设 备 的 工作 方式 是 它 会 登录 到 网 络 (FLOGI) ， 并 在 Name 
Server 中 注册 (PLOGI) 。 设 备 要 传输 数据 时 会 先 到 Name Server 查 询 
Target 设 备 ， 然 后 到 目标 设备 进行 注册 (PRLI) ， 最 后 传输 数据 。 


FC-AL 的 设备 工作 方式 与 此 完全 不 同 ， 在 环 路 的 初始 化 (LIP) 过 
程 中 ， 生 成 一 个 环 路 上 所 有 设备 地 址 的 列表 ， 被 称 作 AL_PA， 并 存储 


在 Loop 中 的 每 个 设备 上 。 当 设备 要 与 目标 主机 通信 时 ， 会 到 AL_PA 中 
查询 目标 主机 ， 然 后 根据 地 址 进行 通信 。 


要 让 一 个 私有 环 中 的 设备 和 Fabric 中 的 设备 达到 相互 通信 ， 必 须 
采用 协议 转换 措施 ， 因 为 FC AL 和 FC Fabric 是 两 套 不 同 的 逻辑 体系 。 


提示 : 在 本 书 第 13 章 论述 了 关于 “协议 之 间 相 互 作用 ” 即 “ 协 
议 杂 交 ” 方 面 的 内 容 。 如 果 阅 读 到 那 一 章 ， 再 回头 来 研究 ， 我 
们 可 以 发 现 ，NL 端 口 和 FL 端口 之 间 ， 完 全 就 是 一 种 Tunnel 模 
式 ， 它 们 利用 FC AL 的 逻辑 ， 承 载 FC Fabric 的 逻辑 ， 也 就 是 
踩 着 AL 走 Fabric。 比 如 Flogin、PLogin 等 这 些 帧 ， 都 通过 AL 
链 路 来 发 向 FL 端口 ， 而 整个 环 中 其 他 节点 ， 对 这 个 动作 丝毫 
不 知道 ， 也 不 必 知 道 。 


如 果 采 用 MAP 方 式 达到 两 种 协议 形式 的 最 大 程度 的 融合 ， 也 是 完 
全 可 以 的 。 下 面 描述 的 这 种 模式 ， 就 是 采用 了 MAP 的 思想 。 


这 种 MAP 的 模式 使 环 内 的 任何 L 节 点 可 以 和 环 外 的 任何 N 节 点 之 间 
就 像 对 方 和 自己 是 同类 一 样 通信 。 也 就 是 说 环 内 的 L 节 点 看 待 环 外 的 N 


节 点 就 像 是 一 个 不 折 不 扣 的 L 节 点 。 反 过 来 ， 环 外 的 N 节 点 看 待 环 内 的 
L 节 点 就 像 是 一 个 N 节 点 一 样 。 这 个 功能 是 通过 在 交换 机 上 的 FL 端口 实 


现 的 ， 这 个 端口 承接 私有 环 和 Fabric。 在 私有 环 一 侧 ， 它 表现 为 工 端口 
的 所 有 逻辑 行为 ， 而 对 Fabric 一 侧 ， 它 则 表现 为 N 端 口 的 行为 ， 也 就 相 
当 于 一 个 N-L 端 口 协 议 转换 。 这 个 接口 可 以 把 环 外 的 N 节 点 “之 ”到 私有 
环 内 ， 同 时 把 环 内 的 节点 “ 带 ” 到 环 外 。 环 内 的 L 节 点 根本 不 会 知道 它们 
所 看 到 的 其 实 是 环 外 的 N 节 点 通过 这 个 特殊 的 L 端 口 仿真 而 来 的 。 


当然 也 要 涉及 到 寻 址 的 MAP， 因 为 Fabric 和 AL 的 编 址 方式 不 同 ， 
所 以 需要 维护 一 个 地 址 映射 ， 将 环 内 的 节点 统统 取 一 个 环 外 的 名 字 ， 
也 就 是 将 工 端口 地 址 对 应 一 个 N 端 口 地 址 ， 而 这 些 地 址 都 是 虚拟 的 ， 不 
能 和 环 外 已 经 存在 的 N 端 口 地 址 重合 ， 这 样 才能 让 环 外 节点 知道 存在 
这 么 一 些 新 加 入 Fabric 的 节点 《其实 是 环 内 的 工 节点 ) 。 而 要 让 环 外 节 
点 知道 这 些 新 节点 的 存在 ， 就 要 将 这 些 新 的 节点 注册 到 名 称 服务 器 
上 。 因 为 Fabric 架 构 中 ， 每 个 节点 都 是 通过 查询 名 称 服务 器 来 获取 当 
前 Fabric 中 所 存在 的 节点 的 。 同 样 ， 要 让 环 内 的 节点 知道 环 外 的 N 节 点 
的 存在 ， 也 必须 给 每 个 N 节 点 取 一 个 AL 地 址 ， 让 这 些 地 址 参与 环 的 初 
始 化 ， 从 而 将 这 些 地 址 加 入 到 AL 地 址 列表 中 。 这 样 ， 环 内 的 节点 就 能 
根据 这 个 列表 知道 环 内 都 有 哪些 节点 了 。 


让 各 自 都 能 看 到 对 方 ， 知 道 对 方 的 存在 ， 这 只 是 完成 了 MAP 的 第 
一 步 。 接 下 来 ， 还 要 进行 更 加 复杂 的 MAP， 即 协议 交互 逻辑 的 MAP。 
假如 一 个 环 内 节点 要 和 一 个 环 外 节点 通信 ， 这 个 环 内 节点 会 认为 它 所 
要 通信 的 就 是 一 个 和 它 同类 的 L 节 点 ， 所 以 它 赢得 环 仲裁 之 后 ， 会 直 
接 向 这 个 虚拟 AL 地 址 发 起 通信 。 


这 个 虚拟 AL 地 址 对 应 的 物理 接口 实际 上 是 交换 机 上 的 仿真 L 端 
口 ， 仿 真 工 端口 收 到 由 环 内 节点 发 起 的 通信 请 求 之 后 ， 便 开始 MAP 动 
作 。 首 先 仿真 工 端口 根据 这 个 请 求 的 目的 地 址 ， 也 就 是 那个 虚拟 地 
址 ， 查 找 地 址 映射 表 ， 找 到 对 应 的 N 端 口 的 Fabric 地 址 。 然 后 主动 向 这 
个 N 端 口 发 起 PLogin 过 程 ， 也 就 是 将 AL 的 交互 逻辑 最 终 映射 到 了 
Fabric 的 交互 逻辑 。 即 AL 向 虚拟 地 址 发 起 的 通信 请 求 ， 被 仿真 工 端口 
MAP 成 了 向 真正 的 N 端 口 发 起 PLogin 请 求 ， 这 就 是 协议 交互 逻辑 的 
MAP。 请求 成 功 之 后 ， 仿 真 L 端 口 便 一 边 收 集 环 内 L 节 点 发 来 的 数据 ， 
一 边 将 数据 按照 Fabric 的 逻辑 转发 给 真正 的 N 端 口 。 反 之 亦 然 ，N 端 口 


的 逻辑 ， 仿 真 志 端口 同样 也 会 MAP 成 AL 环 的 逻辑 。 这 样 ， 不 管 是 环 外 
的 N 端 口 还 是 环 内 的 L 端 口 ， 它 们 都 认为 它们 正在 和 自己 的 同类 通信 。 


图 8-15 所 示 为 开放 环 与 Fabric 融 合 的 示意 图 。 
图 8-15 “开放 环 融合 机 制 示意 图 


同样 是 将 环 接 入 Fabric， 开 放 环 的 扩展 性 就 比 私 有 环 接 入 强 。 
为 一 个 NL 端 口 可 以 和 环 外 的 多 个 N 端 口 通信 。 也 就 是 说 ，NL 端 口 和 
FL 端口 可 以 看 成 是 隐藏 在 环 中 的 N 端 口 和 F 端 口 。 它 们 如 果 要 通信 ， 不 
能 像 直 连 的 N 和 F 端 口 那样 直接 进行 Fabric 登 录 ， 而 必须 先 突破 环 的 限 
制 ， 即 先 要 赢得 环 仲裁 ， 再 按照 交换 架构 的 逻辑 进行 Fabric 登 录 ， 接 
着 N 端 口 登录 ， 然 后 进程 登录 。 而 这 一 切 ， 环 内 其 他 节点 不 会 感知 


到 。 


具有 NL 端口 的 设备 既 能 和 环 内 的 L 端 口 设备 通信 ， 又 能 和 环 外 的 
N 端 口 设备 通信 ， 同 时 具有 N 和 LL 端 口 的 逻辑 ， 这 一 切 都 不 需要 仿真 
MAP， 只 需要 一 个 Tunnel 过 程 即 可 。 而 环 内 的 L 节 点 如 果 想 与 环 外 的 N 
端口 通信 ， 由 于 工 节点 自身 没有 N 端 口 的 逻辑 ， 必 须 经 过 FL 端口 的 
MAP 过 程 。 所 以 ， 称 具有 NL 端 口 的 设备 为 Public 设 备 ， 即 开放 设备 。 
而 称 具 有 LI 端口 的 设备 为 Private 设 备 ， 即 不 开放 的 私有 设备 。 


8.2.4 EE 端口 


E 端 口 是 专 门 用 于 连接 交换 机 和 交换 机 的 端口 。 因 为 交换 机 之 间 
级 联 ， 需 要 在 级 联 线路 上 承载 一 些 控制 信息 ， 比 如 选举 协议 、 路 由 协 
议 等 。 


8.2.5”G 端 口 


G 端 口 比较 特殊 ， 它 是 “万 能 ”端口 ， 它 可 以 转变 为 上 面 讲 到 过 的 
任何 一 种 端口 类 型 ， 按 照 所 连接 对 方 的 端口 类 型 进行 自动 协商 变 成 任 
何 一 种 端口 。 


终端 节 点 端口 编 址 规则 


各 种 终端 节点 端口 (N、NL、L) 的 FC ID 地 址 都 是 24b (3B) 
长 。 但 是 N 端 口 只 使 用 3B 中 的 高 2B， 即 高 16b; 工 端口 只 使 用 3B 中 的 低 
1B， 即 低 8b; NL 端口 使 用 全 部 3B。 没 有 被 使 用 的 字 节 值 为 0。 


产生 这 种 编 址 机 制 不 同 的 原因 ， 是 3 种 端口 的 作用 方式 不 同 。 工 端 
口 只 在 私有 环 内 通信 ， 而 一 个 环 的 节点 容量 是 128 个 ， 所 以 只 用 8b 就 可 
以 表示 了 。N 端 口 由 于 处 于 Fabric 交 换 架 构 中 ， 节 点 容量 很 大 ， 所 以 用 
了 16b 表 示 ， 最 大 到 65536 个 节点 。 而 NL 端口 ， 因 为 既 处 于 环 中 ， 又 要 
和 Fabric 交 换 架 构 中 的 节点 通信 ， 所 以 它 既 使 用 N 端 口 的 编 址 ， 又 使 用 
L 端 口 的 编 址 ， 所 以 用 了 全 部 3B。 图 8-16 为 端口 编 址 示意 图 。 


图 8-16 三 种 FC 节 点 类 型 的 编 址 异同 


任何 设备 都 可 以 接 入 FC 网 络 从 而 与 网 络 上 的 其 他 FC 设备 通信 ， 网 
络 中 的 设备 可 以 是 服务 器 、PC、 磁 盘 阵列 、 磁 带 库 等 。 然 而 ， 就 像 以 
太 网 要 求 设 备 上 必须 有 以 太 网 接口 才能 连 入 以 太 网 络 一 样 ， 设 备 上 必 
须 有 FC 接口 才 可 以 连 入 FC 网 络 。 


8.3” FC 适配器 


想 进 入 FC 网 络 ， 没 有 眼睛 和 耳 打 怎么 行 呢 ? FC 网 络 的 眼睛 就 是 
FC 适配器 ， 或 者 叫做 FC 主机 总 线 适 配器 ， 即 FC HBA (Host Bus 
Adapter) 。 值 得 说 明 的 是 ，HBA 是 一 个 通用 词 ， 它 不 仅仅 指 代 FC 适 


配器 ， 而 可 以 指 代 任何 一 种 设备 ， 只 要 这 个 设备 的 作用 是 将 一 个 外 部 
功能 接 入 主机 总 线 。 所 以 ，PC 上 用 的 PCIPCIE 网 卡 、 显 卡 、 声卡 和 
AGP 显 卡 等 都 可 以 叫做 HBA。 


图 8-17 所 示 的 就 是 PCI 接 口 的 FC 适配器 。 


图 8-17 FC 适 配 卡 


图 8-18 所 示 的 是 可 以 用 来 接 入 FC 网 络 的 各 种 线 绕 ， 可 以 看 到 SC 光 
纤 、DB9 铜 线 和 RJ-45/47 线 绕 ， 它 们 都 可 以 用 于 接 入 FC 网 络 ， 只 要 对 
端 设 备 也 具有 同样 的 接口 。 所 以 ， 千 万 不 要 认为 FC 就 是 光纤 ， 这 是 非 
常 滑稽 的 。 


图 8-18 ”各 种 接口 的 FC HBA 


同样 ， 也 不 要 认为 FC 交换 机 就 是 插 光 纤 的 以 太 网 交换 机 ， 这 是 个 
低级 错误 。 称 呼 FC 为 光纤 的 习惯 误导 了 不 少 人 。FC 协 议 是 一 套 完全 独 
立 的 网 络 协 议 ， 比 以 太 网 要 复杂 得 多 。FC 其 实 是 Fibre Channel 的 意 
思 ， 由 于 Fibre 和 和 Fiber 相似 ， 再 加 上 FC 协议 普遍 都 用 光纤 作为 传输 线 绕 
而 不 用 铜 线 ， 所 以 人 们 下 意识 的 称 FC 为 光纤 通道 协议 而 不 是 网 状 通道 
协议 。 但 是 要 理解 ，FC 其 实 是 一 套 网 络 协议 的 称呼 ，FC 协 议和 光纤 或 
者 铜 线 实际 上 没有 必然 联系 。 如 果 可 能 的 话 ， 也 可 以 用 无 线 、 微 波 、 
红外 绪 或 紫外 线 等 来 实现 FC 协 议 的 物理 层 。 同 样 以 太 网 协议 与 是 否 
光纤 或 者 铜 线 、 双 绞 线 来 传输 也 没有 必然 联系 。 


所 以 “FC 交换 机 就 是 插 光 纤 的 以 太 网 交换 机 ”的 说 法 是 错误 的 。 同 
样 “以 太 网 就 是 双 绞 线 " 和 “以 太 网 就 是 水 晶 头 ” 这 些 说 法 都 是 滑 重 的 。 


FC 适配器 本 身 也 是 一 个 小 计算 机 系统 ， 有 自己 的 CPU 和 RAM 以 及 
ROM。ROM 中 存放 Firmware， 加 电 之 后 由 其 上 的 CPU 载 入 运行 。 可 以 
说 它 就 是 一 个 褒 入 式 设备 ， 与 RAID 卡 类 似 ， 只 不 过 不 像 RAID 卡 一 样 
需要 那么 多 的 RAM 来 作为 数据 缓存 。 


8.4 ”改造 盘 阵 前 端 通路 SCSI 迁移 到 FC 


现在 是 考虑 把 原来 基于 并 行 SCSI 总 线 的 存储 网 络 架构 全 面 迁 移 到 
FC 提供 的 这 个 新 的 网 络 架 构 的 时 候 了 ! 


但 是 FC 协议 只 是 定义 了 一 套 完整 的 网 络 传输 体系 ， 并 没有 定义 诸 
如 SCSI 指 令 集 这 样 可 用 于 向 磁盘 存 取 数 据 的 通用 语言 。 而 目前 已 经 有 
了 两 种 语言 ， 一 种 是 ATA 语 言 (ATA 指 令 集 ) ， 另 一 种 就 是 SCSI 语 言 
(SCSI 指 令 集 ) 。 那 么 FC 是 否 有 必要 再 开发 第 三 种 语言 ? 完全 没有 必 
要 了 。SCSI 指 令 集 无 疑 是 一 个 高 效 的 语言 ，FC 只 需要 将 SCSI 语 言 拿 来 
用 就 可 以 ， 但 必须 将 这 种 语言 承载 于 新 的 FC 传输 载体 进行 传送 。 


SCSI 协 议 集 是 一 套 完整 而 不 可 分 的 协议 体系 ， 同 样 有 OSI 中 的 各 
个 层次 。 物 理 层 使 用 并 行 传输 。SCSI 协 议 集 的 应 用 层 其 实 就 是 SCSI 协 
议 指令 ， 这 些 指令 带 有 强烈 应 用 层 语义 。 而 我 们 要 解决 的 就 是 如 何 将 
这 些 指令 帧 传送 到 对 方 。 早 期 并 行 SCSI 时 代 ， 就 是 用 SCSI 并 行 总 线 技 
术 来 传送 指令 ， 这 个 无 疑 是 一 个 致命 的 限制 。 随 着 技术 的 发 展 ， 并 行 
SCSI 总 线 在 速度 和 效率 上 已 经 远 远 无 法 满足 要 求 。 好 在 SCSI-3 协 议 规 
范 中 ， 将 SCSI 指 令 语 义 部 分 (OSI 上 三 层 ) 和 SCSI 底 层 传输 部 分 (OSI 
下 四 层 ) 分 割 开 了 ， 使 得 SCSI 指 令 集 可 以 使 用 其 他 网 络 传输 方式 进行 
传输 ， 而 不 仅仅 限于 并 行 SCSI 总 线 了 。 


FC 的 出 现 就 是 为 了 取代 SCSI 协 议 集 的 底层 传输 模块 ， 由 FC 协 议 
的 底层 模块 担当 传输 通道 和 手段 ， 将 SCSI 协 议 集 的 上 层 内 容 传送 到 对 
方 。 可 以 说 是 SCSI 协 议 集 租用 了 FC 协议 ， 将 自己 的 底层 传输 流程 外 包 
给 了 FC 协议 来 做 。 


FC 协议 定义 了 在 FC4 层 上 的 针对 SCSI 指 令 集 的 特定 接口 ， 称 为 
FCP， 也 就 是 SCSI over FC。 由 于 是 一 个 全 新 的 尝试 ， 所 以 FC 协议 决 
定 先 将 连接 主机 和 磁盘 阵列 的 通路 ， 从 并 行 SCSI 总 线 替 换 为 串 行 传输 
的 FC 通 路 。 而 盘 阵 后 端 连接 磁盘 的 接口 ， 还 是 并 行 SCSI 接 口 不 变 。 


从 图 8-19 中 可 以 看 到 ， 连 接 主机 的 前 端 接口 已 经 替换 成 了 FC 接 
口 ， 原 来 连接 在 主机 上 的 SCSI 适 配器 也 被 替换 成 了 FC 适 配器 。 


图 8-19 前端 FC、 后 端 SCSI 架 构 的 盘 阵 示意 图 


经 过 这 样 改造 后 的 盘 阵 ， 单 台 盘 阵 所 能 接 入 磁盘 的 容量 并 
升 ， 也 就 是 说 后 端 性 能 和 容量 并 没有 提升 ， 所 提升 的 只 是 前 端 
因为 FC 的 高 效 、 高 速 和 传输 距离 ， 远 非 并 行 SCSI 可 比 。 


没有 提 
性 


4 已 
Bto 


理解 : 虽然 链 路 被 替换 成 了 FC， 但 是 链 路 上 所 承载 的 应 用 层 
数据 并 没有 变化 ， 依 然 是 SCSI 指 令 集 ， 和 并 行 SCSI 链 路 上 承 
载 的 指令 集 一 样 ， 只 不 过 换 成 FC 协 议 及 其 底层 链 路 和 接口 来 
传输 这 些 指令 以 及 数据 而 已 。 


从 图 8-19 中 可 以 看 到 ， 不 管 是 主机 上 的 FC 适配器 还 是 盘 阵 上 的 控 
制 器 ， 都 没有 抛 奔 SCSI 指 令 集 处 理 模 块 ， 被 抛弃 的 只 是 SCSI 并 行 总 线 
传输 模块 。 也 就 是 抛弃 了 原来 并 行 SCSI 协 议 集 位 于 OSI 的 下 四 层 (用 
FC 的 下 四 层 代 替 ) ， 保 留 了 整个 SCSI 协 议 的 上 三 层 ， 也 就 是 SCSI 指 令 
部 分 。 


将 磁盘 阵列 前 端 接口 用 FC 替代 之 后 ， 极 大 地 提高 了 传输 性 能 以 及 
传输 距离 ， 原 来 低 效 率 、 低 速度 和 短 距离 的 缺点 被 彻底 克服 了 。 


8.5 引入 FC 之 后 
引入 FC 之 后 有 如 下 优势 。 


1. 提高 了 扩展 性 


FC 使 存储 网 络 的 可 扩展 性 大 大 提高 。 如 图 8-20 所 示 ， 一 台 盘 阵 如 
果 只 提供 一 个 FC 前 端 接口 ， 同 样 可 以 连接 多 台 主 机 ， 办 法 是 把 它们 都 
连接 到 一 台 FC 交 换 机 上 。 就 像 一 台 机 器 如 果 只 有 一 块 以 太 网 卡 ， 而 没 
有 以 太 交 换 机 或 HUB 的 话 ， 那 么 只 能 和 一 台 机 器 相连 。 如 果 有 了 以 太 
网 交换 机 或 HUB， 它 就 可 以 和 N 台 机 器 连接 。 使 用 FC 交换 机 的 道理 也 
一 样 ， 这 就 是 引入 包 交 换 网 络 化 所 带 来 的 飞 路 。 


图 8-20 ”多 主机 共享 盘 阵 


多 台 主 机 共享 一 台 盘 阵 同 时 读 写 数 据 ， 这 个 功能 在 并 行 SCSI 时 代 
是 想 都 不 敢 想 的 。 虽 然 并 行 SCSI 总 线 网 络 可 以 接 入 16 个 节点 ， 比 如 15 
台 主 机 和 一 台 盘 阵 连 入 一 条 SCSI 总 线 ， 这 15 台 主机 只 能 共享 这 条 总 线 
的 带宽 ， 假 设 带宽 为 320MB/s， 如 果 15 台 主机 同时 读 写 ， 则 理论 上 和 平 
均 每 台 主 机 最 多 只 能 得 到 20MB/s 的 带宽 。 而 这 只 是 理论 值 ， 实 际 加 上 
各 种 开销 和 随机 IO 的 影响 ， 估 计 每 台 主 机 能 获得 的 吞吐 量 会 不 足 
10MB/s。 再 加 上 SCSI 线 绕 最 长 不 能 超过 25 米 ， 用 一 条 宽 线 绕 去 连接 十 
几 台 主机 和 盘 阵 的 难度 可 想 而 知 。 


而 引入 FC 包 交换 网 络 之 后 ， 首 先是 速度 提升 了 一 大 截 ， 其 次 由 于 
其 包 交 换 的 架构 ， 可 以 很 容易 地 实现 多 个 节点 向 一 个 节点 收发 数据 的 
目的 。 


2. 增加 了 传输 距离 


FC 携带 有 现代 通信 的 特质 ， 比 如 可 以 使 用 光纤 。 而 这 就 可 以 使 主 
机 和 与 远 隔 几 百 米 甚 至 上 千 米 《使 用 单 模 光 缆 ) 之 外 的 盘 阵 相连 并 读 
与 数据 。 


3. 解决 了 安全 性 问题 


可 能 很 多 人 还 会 有 疑问 ， 在 图 8-20 所 示 的 拓扑 中 ， 多 个 主机 共用 
一 台 只 有 一 个 外 部 接口 的 盘 阵 不 会 冲突 么 ? 当然 不 会 。 第 一 ， 交 换 机 
允许 多 个 端口 访问 同一 个 端口 是 一 个 分 时 复 用 的 包 交 换 过 程 ， 这 个 是 
毋庸 置疑 的 。 第 二 ， 盘 阵 上 的 FC 前 端 接口 允许 多 个 其 他 端口 进行 Port 
Login 过 程 。 那 么 盘 阵 上 的 逻辑 磁盘 LUN 可 以 同时 被 多 个 主机 访问 么 ? 
完全 可 以 。SCSI 指 令 集中 有 一 个 选项 ， 即 独占 式 访问 或 者 共享 式 访 
问 。 


(1) 独占 式 访问 。 


即 只 允许 第 一 个 访问 某 个 目标 节点 的 节点 保持 对 这 个 目标 节点 的 
访问 ， 第 二 个 节点 要 向 这 个 目标 节点 发 起 访问 请 求 ， 则 不 被 允许 ， 除 
非 上 一 个 节点 发 出 了 释放 指令 。 独 占 模式 下 ， 每 台 主机 每 次 访问 目标 
前 都 需要 进行 SCSI Reserve， 使 用 完 后 再 进行 SCSI Release 释 放 SCSI 目 
标 ， 这 样 其 他 节点 才能 访问 那个 目标 。 


(2) 共享 式 访 问 ， 即 允许 任何 人 来 访问 ,没有 任何 限制 。 


所 以 ， 盘 阵 上 的 任何 LUN 都 可 以 被 多 台 主 机 通过 一 个 前 端 接口 或 
者 多 个 前 端 接口 访问 。 这 是 一 个 优点 ， 也 是 一 个 隐患 。 因 为 多 个 主机 
在 没有 相互 协商 和 同步 的 情况 下 ， 一 旦 对 同一 个 LUN 都 进行 写 操 作 的 
话 ， 就 会 造成 冲突 。 比 如 两 台 Windows 主 机 正 处 于 运行 状态 ， 它 们 都 
通过 FC 适 配 卡 识别 到 了 磁盘 阵列 上 的 同一 个 LUN。 此 时 主机 A 向 这 个 
LUN 上 写 了 一 个 文件 ， 假 设 主机 B 已 经 将 文件 系统 的 元 数据 读 入 了 内 
存 ， 人 磁盘 上 的 数据 被 主机 A 更 改 这 个 动作 主机 B 是 感受 不 到 的 。 隔 一 段 
时 间 之 后 ， 主 机 B 可 能 将 文件 系统 缓存 Flush 到 磁盘 ， 此 时 可 能 会 抹 掉 
这 个 文件 的 元 数据 信息 。 


所 以 ， 在 没有 协商 和 同步 机 制 的 两 台 主 机 之 间 共 享 一 个 LUN 是 一 
件 可 怕 的 事情 。 要 解决 这 个 问题 ， 可 以 每 次 只 开 一 台 机 器 ， 主 机 B 想 
访问 就 必须 把 主机 A 关机 或 卸载 该 卷 ， 然 后 主机 B 开 机 或 挂 载 该 卷 ， 这 
样 才能 保证 数据 的 一 致 性 。 但 这 样 有 点 过 于 复杂 。 第 二 种 办 法 就 是 使 

台 或 者 多 台 机 器 同时 开机 或 同时 挂 载 该 卷 ， 而 让 机 器 上 的 文件 系统 
之 间 相 互 协商 同步 ， 配 合 运作 。 我 写 入 的 东西 会 让 你 知道 。 如 果 我 正 
在 写 入 ， 那 么 你 不 能 读 取 ， 因 为 你 可 能 读 到 过 时 的 信息 。 


在 文件 系统 上 增加 这 种 功能 ， 需 要 对 文件 系统 进行 修改 ， 或 直接 
安装 新 的 文件 系统 模块 。 这 种 新 的 文件 系统 叫做 集群 文件 系统 ， 能 保 
证 多 个 机 器 共享 一 个 卷 ， 不 会 产生 破坏 。 


有 些 情况 确实 需要 让 两 台 机 器 同时 可 以 访问 同一 个 卷 (如 集群 环 
境 ) ， 但 是 大 多 数 情况 下 是 不 需要 共享 同一 个 卷 的 ， 每 台 机 器 拥有 各 
自 的 卷 ， 都 只 能 访问 属于 自己 的 卷 ， 这 样 不 就 太平 了 么 ? 


是 的 ， 要 做 到 这 一 点 有 两 种 方法 。 分 析 从 主机 到 盘 阵 上 的 LUN 的 
通路 ， 可 以 发 现 通路 上 有 两 个 部 件 ， 第 一 个 部 件 是 FC 网 络 交换 设备 ， 
第 二 个 部 件 就 是 磁盘 阵列 控制 器 。 可 以 在 这 两 个 部 件 上 做 某 种 “隐藏 * 
或 者 “欺骗 "， 让 主机 只 能 对 属于 它 自己 的 LUN 进 行 访问 。 


(3) 在 磁盘 阵列 控制 器 上 做 “手脚 ”。 


SCSI 指 令 集中 有 一 条 指令 叫做 Report LUN， 也 就 是 在 SCSI 发 起 端 
和 目标 端 通信 的 时 候 ， 由 发 起 端 发 出 这 条 指令 ， 目 标 端 在 接收 到 这 条 
虽 令 之 后 ， 就 要 向 发 起 端 报告 自己 的 LUN 人 信息。 可 以 在 这 上 面 做 些 手 
脚 ， 骗 发 起 端 一 把 。 当 发 起 端 要 求 Report LUN 的 时 候 ， 盘 阵 控制 器 可 
以 根据 发 起 端的 唯一 身份 (比如 WWPN 地 址 ) ， 提 供 相 应 的 LUN 报 告 


给 它 。 


比如 针对 主机 A， 控 制 器 就 报告 给 它 LUN1、LUN2、LUN3。 虽然 
盘 阵 上 还 配置 很 多 其 他 的 卷 ， 比 如 LUN4、LUN5、LUN6 等 ， 但 是 如 
果 告 诉 控制 器 ， 让 它 根 据 一 张 表 8-1 所 示 的 映射 表 来 判断 应 该 报告 给 
个 主机 哪个 或 哪些 LUN 的 话 ， 控 制 器 就 会 冬 乖 地 按照 指示 来 报告 相应 
的 LUN 给 相应 的 主机 。 


表 8-1 LUN 了 映射 表 


如 果 某 个 主机 强行 访问 不 属于 它 的 LUN， 盘 阵 控制 器 便 会 拒绝 这 
个 请 求 。 上 面 那 张 映射 表 完全 需要 人 为 配置 ， 因 为 盘 阵 控制 器 不 会 知 
道 我 们 的 具体 需求 。 所 以 对 于 一 个 盘 阵 来 说 ， 要 想 实 现 对 主机 的 LUN 
掩 数 ， 必 须 配 置 这 张 表 。 


盘 阵 上 的 这 个 功能 叫做 LUN Masking (LUN 掩 蔽 ) ， 也 就 是 对 特 
定 的 主机 报告 特定 的 LUN。 这 样 可 以 避免 “越界 ”行为 ， 也 是 让 多 台 主 


机 共享 一 个 盘 阵 的 方法 ， 从 而 让 多 人 台 主 机 和 平 共 享 一 台 盘 阵 资源 。 
竟 ， 对 于 容量 动 辑 几 TB 甚至 几 百 TB 的 大 型 盘 阵 来 说 ， 如 果 不 加 区 分 
的 让 所 有 连接 到 这 台 盘 阵 的 主机 都 可 以 访问 到 所 有 的 卷 是 没有 必要 
的 ， 也 是 不 安全 的 。 


不 仅 FC 接 口 盘 阵 有 这 个 功能 ， A 
个 功能 ， 因 为 这 是 SCSI 指 令 集 的 功能 ， 而 不 是 传输 总 线 的 功能 。 不 
用 什么 来 传输 SCSI 指 令 集 ， 只 要 上 面 能 承载 SCSI 指 令 集 ， 第 必 放 久生 
中 所 有 功能 都 可 用 。 


磁盘 阵列 除了 可 以 将 某 些 LUN 分 配给 某 个 主机 之 外 ， 还 可 以 配置 
选择 性 地 将 某 个 或 某 些 LUN 分 配 到 某 个 前 端 端口 上 。 也 就 是 说 ， 设 置 
前 端 主 机 只 有 从 某 个 盘 阵 端口 进入 才能 访问 到 对 应 的 LUN， 从 盘 阵 前 
端 其 他 端口 访问 不 到 这 些 LUN。 有 些 双 控制 器 的 盘 阵 可 以 定制 策略 将 
某 些 LUN 分 配 到 某 个 控制 器 的 某 些 端口 上 。LUN Masking 的 策略 非常 
灵活 ， 只 要 有 需求 就 没有 开发 不 出 来 的 功能 。 


总 之 5 es 有 很 多 食客 (主机 ) 想 吃 这 些 蛋 
糕 。 然 而 ， 食 客 要 吃 到 蛋糕 ， 需 要 首先 通过 迷宫 (FC 网 络 ) ， 然 后 到 
达 一 个 城堡 。 城 堡 有 好 几 个 门 〈《 盘 阵 的 前 端 接口 ) ， 如 
果 城 堡 的 主人 很 宽松 ， ns 从 任何 一 个 门 
进入 都 可 以 吃 到 所 有 蛋糕 。 如 果 主 人 决定 严格 一 些 ， 那 么 他 也 许 会 将 
一 部 分 蛋糕 分 配 到 1 号 门 ， 另 一 部 分 蛋糕 分 配 到 2 号 门 如 果 主 人 非常 
严格 ， 那 他 会 调查 每 个 食客 的 身份 ， 然 后 制定 一 个 表格 ， 根 据 不 同 身 
份 来 给 食客 不 同 的 蛋糕 。 


(4) 在 FC 交换 设备 上 做 “手脚 ”。 


我 们 前 面 提 到 过 ZONE。ZONE 的 功能 就 是 在 FC 网 络 交换 设备 上 
阻 断 两 个 节点 间 的 通路 ， 这 样 某 些 节 点 就 根本 无 法 获取 并 访问 到 被 阻 
断 的 其 他 节点 ， 也 就 识别 不 到 其 上 的 LUN 了 。LUN masking 只 是 不 让 
看 见 某 个 节点 上 的 某 些 LUN 而 已 ， 而 ZONE 的 做 法 更 彻底 ， 力 度 更 
大 。 


ZONE 有 软 ZONE 和 硬 ZONE 之 分 。 软 ZONE 就 是 在 名 称 服务 器 上 
做 手脚 ， 欺 骗 进行 名 称 注 册 的 节点 ， 根 据 ZONE 配 置 的 信息 向 登录 节 
点 通告 网 络 上 的 其 他 节点 以 及 资源 的 信息 。 硬 ZONE 就 是 直接 把 交换 
机 上 某 些 端口 归 为 一 个 ZONE， 另 一 些 端口 归 为 另 一 个 ZONE， 在 两 个 
ZONE 之 间 完 全 底层 隔离 ， 端 口 之 间 都 不 能 通信 ， 如 图 8-21 所 示 。 


图 8-21 ZONE 示意 图 


图 中 有 两 个 ZONE ，FC 盘 阵 B 所 连接 的 交换 机 端口 既 在 左边 的 
ZONE 中 ， 又 在 右边 的 ZONE 中 ， 这 样 是 允许 的 。 这 个 例子 中 ， 主 机 C 
是 无 法 和 盘 阵 A 通 信 的 ， 它 只 能 识别 到 盘 阵 B 上 的 LUN。 


有 了 LUN Masking 和 ZONE ，FC 网 络 的 安全 就 得 到 了 极 大 的 保 
障 ， 各 个 节点 之 间 可 以 按照 事先 配置 好 的 规则 通信 。 


8.6 ”多 路 径 访 问 目标 


再 来 看 一 下 图 8-22。 这 是 一 个 具有 双 控 制 器 的 盘 阵 ， 两 个 控制 器 
都 连接 到 了 交换 机 上 ， 而 且 每 个 主机 上 都 有 两 块 FC 适 配 卡 ， 也 都 连接 
到 了 交换 机 上 。 前 文 说 过 ， 如 果 在 盘 阵 上 没有 做 LUN Masking 的 策 
略 ， 而 在 FC 交 换 机 上 也 没有 做 任何 ZONE 的 策略 ， 则 任何 节点 都 可 以 
获取 到 网 络 上 所 有 其 他 节点 的 信息 。 


图 8-22 ”多 路 径 访 问 示意 图 


假设 盘 阵 上 有 一 个 LUN1 被 分 配给 控制 器 A，LUN2 被 分 配给 控制 
器 B， 那 么 可 以 计算 出 来 ， 每 个 主机 将 识别 到 4 块 磁盘 。 因 为 每 个 主机 
有 两 块 FC 适 配 卡 ， 每 个 适 配 卡 又 可 以 识别 到 控制 器 A 上 的 LUN1 和 控制 
器 B 上 的 LUN2。 也 就 是 说 ， 每 台 主 机 会 识别 到 双 份 元 余 的 磁盘 ， 而 主 
机 操作 系统 对 这 一 切 一 无 所 知 ， 它 会 认为 识别 到 的 每 块 磁盘 都 是 物理 
上 独立 的 ， 这 样 很 容易 造成 混乱 。 


既然 会 造成 混乱 ， 那 么 为 何 要 在 一 台 主 机 上 安装 两 块 FC 适 配 卡 
呢 ? 这 样 做 就 是 为 了 元 余 ， 以 防止 单 点 故障 。 一 旦 某 块 FC 卡 出 现 了 故 
障 ， 另 一 块 卡 依然 可 以 维持 主机 到 盘 阵 的 通路 ， 数 据 流 可 以 立即 转向 
另外 一 块 卡 。 


如 何 解决 操作 系统 识别 出 多 份 磁盘 这 个 问题 呢 ? 办 法 就 是 在 操作 
系统 上 安装 软件 ， 这 个 软件 识别 并 分 析 FC 卡 提交 上 来 的 LUN。 如 果 是 
两 个 物理 上 相同 的 LUN ， 软 件 就 向 操作 系统 卷 管 理 程序 提交 单 份 
LUN。 如 果 某 块 FC 卡 故障 ， 只 要 主机 上 还 有 其 他 的 FC 卡 可 以 维持 到 
FC 网 络 的 通路 ， 那 么 这 个 软件 依然 会 向 操作 系统 提交 单 份 LUN。 一 旦 
所 有 FC 卡 全 都 故障 了 ， 主 机 就 彻底 从 FC 网 络 断 开 了 ， 这 个 软件 也 就 无 
法 提交 LUN 了 ， 操 作 系统 当然 也 识别 不 到 盘 阵 上 的 LUN 了 。 


此 外 ， 如 果盘 阵 的 某 个 控制 器 接口 发 生 故 障 ， 主 机 同样 可 以 通过 
这 个 软件 立即 重 定向 到 另 一 个 备份 控制 器 ， 使 用 备份 控制 器 继续 访问 
盘 阵 。 


这 种 软件 叫做 “多 路 径 ” 软 件 ， 中 高 端 产 品 的 开发 商都 会 提供 自己 
适合 不 同 操作 系统 的 多 路 径 软 件 。 多 路 径 软 件 除 了 可 以 做 到 见 余 高 可 


用 性 的 作用 之 外 ， 还 可 以 做 到 负载 均衡 。 因 为 主机 上 如 果 安 闭 了 多 块 
FC 适 配 卡 ， 数 据 就 可 以 通过 其 中 任何 一 块 卡 到 达 目 的 ， 这 样 就 分 担 了 


x 六 有时 
/ 儿 蛙 o 


提示 : 多 个 存储 适配器 可 以 以 active/standby 模 式 或 者 
active/active 模式 以 及 dual/multi active 模式 工作 。 
active/standby 模 式 是 指 同 一 时 刻 只 能 有 一 个 适配器 在 收发 数 
据 ，active/active 模 式 是 指 同一 时 刻 多 个 适配器 可 以 共同 收发 
针对 同一 个 LUN 的 数据 。 而 dual/multi active 则 是 两 个 或 指 多 
个 适配器 不 能 同时 针对 同一 LUN 收 发 数据 ， 但 是 每 个 适配器 
可 以 针对 不 同 的 LUN 收 发 数据 。 


多 路 径 软件 示例 


如 图 8-23 所 示 为 EMC 公 司 针 对 其 存储 产品 所 开发 的 多 路 径 软 件 
PowerPath 的 配置 监控 界面 。 可 以 看 到 这 台 Windows 主 机 上 安装 了 4 块 
FC 卡 。 存 储 系统 向 这 人 台 主 机 共 映 射 了 7 个 LUN ， 分 别 对 应 Disk 001 人 ~ 
007。 


图 8-23 ”PowerPath 界 面 
如 图 8-24 所 示 ， 其 中 一 个 LUN 存 在 16 条 不 同 的 路 径 。 
图 8-24 每 个 LUN 通 过 16 条 路 径 被 访问 
如 图 8-25 所 示 ， 我 们 可 以 判断 出 整个 系统 的 拓扑 。 


图 8-25 ”系统 拓扑 图 


如 图 8-26 所 示 ， 一 块 FC 卡 出 现 故 障 后 ， 系 统 界面 会 显示 出 来 。 如 
图 8-27 所 示 ， 虽 然 一 块 FC 卡 出 现 了 故障 ， 但 是 每 个 LUN 也 只 是 丢失 了 
16 条 路 径 中 的 4 条 ， 人 存储 访问 依然 正常 。 


图 8-26 一块 FC 卡 出 现 故 障 图 8-27 LUN 依 然 可 以 通过 剩余 的 12 条 路 
径 被 访问 


多 路 径 软 件 与 阵列 控制 器 配合 切换 过 程 简介 


如 图 8-28 所 示 为 四 种 典型 的 连接 拓扑 下 各 种 链 路 故障 情况 的 示意 
图 。RDAC (Redundant Disk Array Controllers) 是 Linux 下 的 一 个 多 路 
径 软件 驱动 程序 ， 我 们 就 用 它 的 作用 行为 来 给 大 家 做 介绍 。 多 路 径 软 
件 一 般 位 于 适配器 驱动 程序 之 上 ， 对 适配器 上 报 的 多 份 重 复 的 LUN 进 
行 虚 拟 ， 虚 拟 成 一 个 单一 的 逻辑 设备 然后 再 次 上 报 。 在 Windows 下 多 
路 径 软 件 属于 一 种 过 滤 驱 动 程序 层 (Filter Driver) 。 


图 8-28 ”四 种 典型 拓扑 下 的 多 路 径 切 换 示 意图 
下 面 我 们 就 来 看 看 这 些 情况 下 多 路 径 软 件 到 底 会 怎么 来 动作 。 


(1) 在 第 一 个 场景 中 ，LUN1 的 Owner (或 称 Prefer) 控制 器 为 
A， 而 LUN2 的 Owner 控 制 器 为 B。 主 机 从 两 条 路 径 分 别 认 到 了 这 两 个 
LUN ，1 个 LUN1 和 1 个 LUN2。 多 路 径 软 件 会 从 HBA1 链 路 来 访问 
LUN1， 从 HBA2 链 路 来 访问 LUN2。 某 时 刻 HBA2 连 接 交 换 机 的 链 路 发 
生 故 障 ， 那 么 此 时 对 LUN1 的 访问 路 径 不 受 影响 ， 但 是 对 LUN2 的 访问 
链 路 完全 中 断 ， 此 时 多 路 径 软 件 必须 切换 到 HBA1 的 链 路 来 同时 承载 
LUN1 与 LUN2 的 流量 。 由 于 LUN2 的 Owner 控 制 器 为 B， 所 以 此 时 有 两 
种 办 法 可 以 继续 保持 对 LUN2 的 访问 : 第 一 种 办 法 就 是 主机 将 IO 通过 


HBA1 一 交换 机 A 传送 给 控制 器 A， 然 后 控制 器 A 将 IO 请 求 通过 控制 器 
间 的 缓存 镜像 链 路 转发 到 控制 器 B， 控 制 器 B 执 行 完毕 后 将 结果 返回 给 
控制 器 A， 之 后 原 路 返回 给 主机 ;第 二 种 做 法 则 是 多 路 径 软 件 在 感知 
到 故障 之 后 ， 判 断 出 只 能 从 HBA1 的 链 路 走 到 控制 器 A 了 ， 那 么 此 时 多 
路 径 软 件 可 以 向 控制 器 A 发 送 命 令 ， 让 它 强 行 接管 对 LUN2 的 控制 权 ， 
接管 之 后 ， 针 对 LUN2 的 10 就 无 需 再 转发 给 控制 器 B 了 ， 直 接 由 控制 器 
A 全 权 处 理 。 由 于 第 一 种 方式 需要 耗费 镜像 通道 的 带宽 ， 所 以 出 于 性 
能 考虑 ， 一 般 都 会 使 用 第 二 种 方式 处 理 ， 即 切换 Owner 控 制 器 。 


(2) 在 第 二 个 场景 中 ， 阵 列 的 双 控 制 器 各 通过 一 条 链 路 连接 到 一 
个 交换 机 上 。 此 时 主机 端 可 以 看 到 共 4 个 LUN， 从 HBA1 链 路 看 到 一 个 
LUN1 和 一 个 LUN2， 从 HBA?2 链 路 看 到 一 个 LUN1 和 一 个 LUN2。 某 时 
刻 HBA1 链 路 故障 ， 那 么 此 时 毫 无 疑问 ， 多 路 径 软 件 一 定 要 切换 到 
HBA2 链 路 继续 收发 IO。 那 么 阵列 控制 器 之 间 是 否 需要 切换 LUN 的 控 
制 权 呢 ? 不 需要 ， 因 为 主机 此 时 可 以 从 HBA2 一 交换 机 B 来 看 到 分 别 被 
控制 器 A 与 控制 器 B 管 控 的 LUN1 与 LUN2。 


(3) 在 第 三 个 场景 中 ， 有 两 台 主 机 分 别 用 两 块 HBA 来 连接 交换 
机 了 。LUN1 只 映射 给 主机 1， 而 LUN2 只 映射 给 主机 2。 某 时 刻 ， 主 机 
1 的 HBA1 链 路 故障 或 者 卡 件 /接口 故障 ， 同 时 ， 阵 列 B 连 接 交 换 机 B 的 
链 路 也 发 生 故 障 。 此 时 ， 主 机 1 一 定 要 切换 到 HBA2 路 径 ， 通 过 交换 机 
B 到 控制 器 A 从 而 保持 对 LUN1 的 访问 。 而 主机 2 则 根据 之 前 的 优选 路 径 
来 判断 是 否 切 换 ， 如 果 之 前 的 优选 路 径 是 通过 HBA2 一 交换 机 B 一 控制 
器 B 的 话 ， 那 么 此 时 就 需要 切换 到 HBA1， 走 交换 机 A 再 到 控制 器 B 
村 


(4) 在 第 四 个 场景 中 ，LUN1 与 LUN2 的 Owner 控 制 器 均 属于 控制 
器 B，LUN1 只 映射 给 主机 1， 而 LUN2 只 映射 给 主机 2。 此 时 主机 2 的 


HBA2 链 路 发 生 故 障 ， 那 么 此 时 主机 1 不 受 影响 ， 依 然 走 HBA2 -~ 交换 
机 B 一 控制 器 B 的 路 径 来 访问 LUN1; 而 主机 2 此 时 必须 切换 到 HBA1 来 
收发 IO， 但 是 HBA1 到 控制 器 B 并 没有 直接 路 径 ， 必 须 通 过 双 控 制 器 之 
间 的 镜像 路 径 ， 而 这 个 之 前 也 说 过 ， 不 推荐 使 用 ， 虽 然 理 论 上 是 可 以 
做 到 的 。 那 么 此 时 主机 2 别 无 他 法 ， 只 能 通过 HBA1 向 阵列 的 控制 器 A 
发 送 命令 ， 将 自己 所 要 IO 的 LUN2 的 Owner 控 制 器 切换 到 控制 器 A 上 ， 

主机 2 并 不 会 要 求 将 LUN1 也 切换 ， 因 为 主机 2 只 能 感知 到 自己 所 访问 
的 LUN， 也 只 会 要 求 切换 目 己 要 访问 的 LUN。 


(5) 如 图 8-29 所 示 的 第 五 个 场景 中 为 另外 一 种 情况 ， 即 阵列 控制 
器 整 机 故障 的 情况 。 此 时 另外 一 个 控制 器 会 通过 之 间 的 镜像 通道 〈 同 
时 也 充当 心跳 线 感知 到 对 方 阵 列 已 死 ， 那 么 本 端 就 会 强行 将 对 端 控 
制 器 之 前 所 管控 的 所 有 LUN 无 条 件 接管 。 同 时 ， 主 机 端 多 路 径 软 件 也 
需要 根据 情况 改变 优选 路 径 到 控制 器 A 而 不 是 已 死 的 控制 器 B 了 。 


图 8-29 ”阵列 控制 器 整 机 故障 场景 


(6) 第 六 个 场景 中 ， 阵 列 控制 器 B 连 接 本 地 磁盘 扩展 柜 的 链 路 故 
障 ， 这 样 就 导致 控制 器 B 认 不 到 本 地 下 挂 的 所 有 磁盘 了 ， 但 是 依然 可 
以 认 到 控制 器 A 处 的 磁盘 (控制 器 B 有 和 链 路 连接 到 控制 器 A 下 面 的 磁盘 
柜 ) 。 此 时 控制 器 B 可 以 有 两 种 做 法 : 第 一 种 则 是 将 原本 处 于 其 下 挂 
磁盘 上 的 LUN2 的 Owner 管 控 权 交 给 控制 器 A， 并 且 在 其 前 端 强行 
unmap 掉 LUN2， 这 样 主机 端的 多 路 径 软 件 就 可 以 感知 到 LUN2 的 消 
失 ， 自 动 切换 到 另 一 条 路 径 走 控制 器 A; 第 二 种 做 法 就 是 不 让 主机 端 
多 路 径 软 件 感知 到 任何 变化 ， 主 机 针对 LUN2 的 IO 依然 下 发 到 控制 器 
B， 而 控制 器 B 接 收 到 IO 之 后 ， 将 其 通过 双 控 之 间 的 镜像 路 径 转发 到 控 
制 器 A 处 理 (控制 器 A 依然 可 以 访问 到 挂 在 控制 器 B 后 面 的 磁盘 ) ， 然 
后 控制 器 A 将 结果 返回 给 控制 器 B， 之 后 控制 器 B 再 返回 给 主机 。 一 般 


情况 下 可 以 针对 不 同 场景 做 出 选择 ， 多 路 径 切 换 过 程 会 影响 主机 侧 应 
用 程序 ， 但 是 不 切换 的 话 ， 数 据 都 走 镜像 通道 ， 性 能 会 有 所 下 降 。 


8.7 FC 交换 网 络 节 点 4 次 Login 过 程 简 析 


每 个 FC 节点 连 到 FC Fabric 网 络 里 需要 经 历 4 次 Login 过 程 。 


第 一 次 Login 相 当 于 TCPIP 网 络 里 的 DHCP 过 程 ，FC 交 换 机 需要 为 
每 个 FC 节点 分 配 一 个 Fabric ID， 相 当 于 IP 地 址 ， 有 了 这 个 ID， 数 据 包 
才能 被 FC 交换 机 正确 地 交换 ，FC 交 换 机 是 根据 Fabric ID 而 不 是 WWPN 

(相当 于 以 太 网 的 MAC 地 址 ) 作 交 换 的 。 


第 二 次 Login 过 程 ， 相 当 于 Windows 里 的 WINS 服 务 器 注册 和 资源 
发 现 过 程 ， 我 们 熟知 的 网 上 邻居 ， 有 两 种 访问 方式 ， 一 种 是 广播 方 
式 ， 另 一 种 是 所 有 Windows PC 都 向 WINS 服 务 器 (其 IP 地 址 预先 在 每 
台 PC 上 被 配置 好 ) 注册 ， 双 击 网 上 邻居 时 候 每 台 PC 都 会 从 WINS 服 务 
器 拉 取 目前 网 络 上 的 PC 信息 。FC 也 有 这 个 过 程 ，FC 节 点 在 FC Fabric 
里 的 第 二 次 Login 过 程 ， 就 是 向 Name Server 注 册 自 己 ， 并 拉 取 目前 FC 
网 络 里 的 所 有 Target 节 点 信息 (只 有 FC Initiator 节 点 才 会 主动 打 取 资 
源 ，Target 节 点 只 注册 不 拉 取 ) ， 在 第 二 次 Login 的 过 程 中 ， 其 实 包含 
了 两 次 “ 子 Login” 过 程 ， 每 个 FC 节点 要 注册 到 Name Server， 必 须 先 向 
Name Server 发 起 Port Login 过 程 ，Port Login 其 实 是 指 FC 网 络 底层 端口 
级 别 的 Login， 一 个 Fabric ID 所 在 的 端口 要 与 另 一 个 Fabric ID 所 在 的 端 
口 发 起 通信 ， 必 须 先 Port Login， 成 功 之 后 ， 再 发 起 Process Login， 所 
谓 “Process Login” 就 是 进程 级 别 的 Login， 就 是 发 起 端的 程序 要 向 对 方 
表明 我 将 与 你 处 运行 的 哪个 程序 通信 ， 这 就 相当 于 TCPIP 的 端口 号 ， 
到 底 要 连接 对 方 的 哪个 端口 ， 每 个 端口 都 有 一 个 上 层 应 用 程序 在 监 
听 ， 向 Name Server 注 册 ， 那 么 Name Server 上 一 定 要 运行 一 个 管理 注册 


过 程 和 资源 列表 的 程序 ， 发 起 端 就 是 在 声明 要 与 这 个 程序 连通 ， 从 而 
注册 自己 ， 所 以 要 向 对 方 的 FC 底层 协议 栈 声明 “请 将 数据 包 发 送 给 注 
册 和 资源 管理 这 个 Process”， 所 以 才 叫 做 “Process Login”， 与 TCPIP 向 
某 端口 的 三 次 握手 机 制 类 似 。 经 过 这 两 次 子 Login， 发 起 端 才 真正 地 与 
Name Server 上 的 程序 进行 数据 交互 ， 从 而 完成 注册 和 资源 拉 取 过 程 。 


第 三 次 Login 过 程 ， 就 是 FC Initiator 节 点 向 所 有 自己 看 到 的 Target 
节点 发 起 Port Login。 


成 功 之 后 ， 就 开始 第 四 次 Login， 也 就 是 向 Target 节 点 发 起 Process 
Login， 这 里 的 “Process” 一 定 就 是 对 方 的 FCP Target 程 序 了 ， 这 个 程序 
被 集成 在 了 FC 卡 的 Port Driver 的 下 层 。 


第 9 章 “天翻地覆 一 - FC 协 议 的 巨 
大 力量 


四 Fibre Channel 


话说 FC 协 议 横 空 出 世 ， 在 江湖 上 引起 了 轩然大波 ， 各 门派 纷纷 邀 
请 FC 协 议 来 参与 存储 磁盘 阵列 的 制造 ， 用 FC 协 议 实 现 盘 阵 与 主机 的 连 
接 。 

以 前 并 行 SCSI 的 时 代 已 经 结束 ， 终 于 可 以 将 那 又 宽 又 短 的 电线 彻 
底 抛 寞 ， 取 而 代 之 的 是 细 长 的 光纤 。 


然而 ，FC 的 出 现 并 没有 终结 这 场 革 命 ，SAS 的 二 次 革命 又 要 到 
来 ! 


9.1 FC 交换 网 络 蔡 代 并 行 SCSI 总 线 的 必然 性 


历史 是 不 断 前 进 的 ， 事 物 也 是 不 断 发 展 的 ， 新 技术 必定 取代 旧 技 
术 。FC 取 代 并 行 SCSI 总 线 有 两 个 根本 原因 。 


9.1.1 面向 连接 与 面向 无 连接 


在 并 行 SCSI 总 线 时 代 并 没有 复杂 的 链 路 层 协 议 ,“ 连 ”就 体现 在 线 
绕 上 ， 就 像 连接 CPU 和 北桥 之 间 的 铜 线 一 样 ， 只 不 过 SCSI 线 绕 被 做 成 
了 柔软 的 外 置 线 绕 而 已 。 基 本 在 这 种 短线 绕 上 可 以 不 必 考 虑 通信 层面 
的 内 容 ， 因 为 距离 很 短 ， 线 路 是 稳定 的 ， 不 需要 加 入 诸如 传输 保障 机 
制 之 类 的 东西 。 同 时 ， 这 种 情况 也 相当 于 面向 连接 的 电路 交换 ， 通 信 
的 双方 要 预先 建立 一 条 物理 上 的 通路 〈 虚 电路 ) ， 不 管 有 没有 数 掘 
流 ， 这 条 通路 总 是 存在 ， 且 带宽 固定 ， 别 人 也 抢 不 走 这 条 电路 的 使 用 
权 ， 这 就 给 通信 双方 提供 了 最 大 的 质量 和 稳定 性 保证 。 在 这 样 的 链 路 
上 ， 不 需要 过 多 的 底层 传输 协议 开销 。 


相反 ， 在 面向 无 连接 的 包 交 换 网 络 中 ， 数 据 流 被 封装 成 数据 包 ， 
传输 保障 和 流量 控制 等 因素 就 显得 十 分 重要 了 。 因 为 此 时 网 络 是 共享 
的 ， 网 络 按照 Best Effort 尽 力 而 为 地 转发 数据 包 。 以 太 网 和 FC 交换 网 
络 都 属于 这 种 面向 无 连接 的 技术 (FC 中 Class1 类 型 服务 除外 ) 。 


而 电话 交换 网 、 并 行 SCSI 总 线 网 就 属于 面向 连接 的 网 络 。 当 你 提 
机 拨号 的 时 候 ， 电 话 局 的 电话 交换 机 便 会 在 你 和 你 通信 的 对 方 之 间 建 
立 起 一 条 物理 电路 ， 从 而 使 双方 通信 。 


提示 : 大 家 可 以 观察 一 下 电话 交换 机 ， 每 当 有 外 绪 拨 入 的 时 
候 ， 就 可 以 听 到 交换 机 里 有 了 吧 噶 吧 噶 的 声音 ， 这 就 是 交换 机 
在 做 继电器 开 合 动作 。 


对 于 并 行 SCSI 总 线 ， 当 通信 发 起 者 需要 和 某 个 市 点 通信 的 时 候 ， 
它 会 申请 总 线 仲裁 ， 在 获得 总 线 资源 之 后 ， 便 直接 和 对 方 发 起 通信 ， 
此 时 并 没有 一 个 显 式 的 连接 建立 的 过 程 。 物 理 通 路 总 是 存在 的 ， 在 任 
意 两 点 之 间 都 存在 ， 只 不 过 此 通路 是 个 总 线 ， 是 大 家 共享 的 ， 需 要 通 
过 仲裁 来 获得 总 线 使 用 权 ， 也 就 等 价 于 建立 独 事 连接。SCSI 指 令 和 数 
据 可 以 直接 在 这 个 总 线 上 传递 ， 并 不 需要 过 多 的 额外 的 协议 开销 。 


1. 面向 连接 的 致命 弱点 
但 是 面向 连接 的 通信 有 三 个 致命 弱点 。 


面向 连接 网 络 的 第 一 个 弱点 ， 就 是 资源 瀛 费 。 特 别 是 在 交换 环境 
中 ， 由 于 不 管 路 径 上 有 没有 数据 传输 ， 这 条 预先 建立 的 连接 必须 保持 
并 且 只 给 特定 的 通信 双方 使 用 ， 其 他 节点 的 通信 不 管 数 据 多 么 拥塞 都 
不 能 使 用 这 条 路 径 。 面 向 连接 的 网 络 好 比 一 个 城市 的 公交 系统 ， 每 条 
公交 线路 都 是 固定 的 ， 不 管 这 条 线路 上 的 客流 量 多 少 ， 就 算 没 有 人 坐 
这 条 线路 了 ， 公 交 车 也 要 来 回 跑 。 而 面向 无 连接 的 网 络 就 好 比 出 租 
车 。 在 没有 人 的 时 候 ， 出 租车 可 以 等 待 客人 到 来 。 一 旦 有 客人 到 来 ， 
出 租车 便 会 上 路 ， 而 且 路 线 不 是 固定 的 ， 司 机 可 以 按照 目前 道路 流量 
情况 ， 选 择 空 闪 的 道路 前 往 目的 地 。 


面向 连接 网 络 的 第 二 个 弱点 是 维持 和 维护 这 条 连接 所 耗费 的 成 本 
高 。 通 信 双 方 距离 近 时 ， 没 什么 问题 ， 但 是 一 旦 距离 很 远 ， 要 维持 这 
条 物理 连接 ， 就 需要 很 高 的 成 本 。 要 解决 长 距离 传输 的 干扰 问题 、 需 
要 中 继 等 ， 这 也 是 长 途 电 话费 居 高 不 下 的 一 个 原因 。 


面向 连接 网 络 的 第 三 个 弱点 ， 就 是 缺乏 高 可 用 性 。 一 旦 建立 好 的 
虚 电 路 因为 某 种 原因 断 开 了 ， 残 需要 通信 发 起 者 重新 建立 电路 才能 继 


续 双 方 的 通信 。 这 种 现象 在 打 长 途 电话 的 时 候 经 常 遇 到 ， 此 时 不 得 不 
重新 拨打 。 而 对 于 包 交 换 网 络 ， 通 信 双 方 没有 一 条 固定 的 数据 流 路 
径 ， 交 换 或 路 由 设备 会 自行 判断 数据 流 应 当 通 过 哪 条 路 径 到 达 对 方 。 
一 旦 某 条 动态 的 路 径 不 再 可 用 ， 交 换 设 备 会 立即 选用 其 他 可 以 到 达 对 
方 的 路 径 ， 而 这 个 短 时 的 中 断 所 造成 的 影响 会 交 给 通信 双方 运行 的 传 
输 保障 协议 来 处 理 ， 丢 失 的 数据 包 会 被 重 传 。 而 用 户 对 此 不 必 关 心 ， 
最 多 会 感觉 有 短暂 延迟 ， 而 不 必 重 新 和 对 方 建立 连接 。 


2. 面向 无 连接 的 优势 


面向 无 连接 的 包 交 换 网 络 比 面向 连接 的 网 络 有 很 多 优势 。 面 向 无 
连接 的 包 交 换 网 络 是 网 络 通信 的 一 种 趋势 ， 目 前 的 VOIP、IPTV 等 应 
用 都 是 想 利 用 包 交 换 网 络 来 代替 普通 的 电话 交换 网 络 和 有 线 电 视 网 
络 。 


不 要 把 “面向 无 连接 "和 “TCP 是 有 连接 的 ” 竟 痛 在 一 起 。TCP 是 一 个 
端 到 端的 协议 ， 它 运行 于 通信 双方 ， 而 不 是 通信 所 经 过 的 网 络 设备 
上 。TCP 的 连接 不 是 物理 连接 而 是 逻辑 连接 。TCP 其 实 就 是 一 个 状 
态 ， 本 身 保持 一 个 状态 机 用 来 侦 测 双方 的 数据 流 是 否 成 功 发 送 或 者 接 
收 。 实 际 通信 两 点 间 的 连接 可 以 经 过 包 交 换 网 络 ， 同 样 也 可 以 经 过 面 
向 连接 的 网 络 。 也 就 是 说 , “面向 连接 ”和 ”面向 无 连接 ”是 指 链 路 层 的 
概念 ， 而 TCP 是 传输 层 的 概念 。 


9.1.2 ” 串 行 和 并 行 


串 行 传输 在 长 距离 高 速 传输 方面 ， 也 必 将 取代 并 行 传输 。 


并 行 SCSI 总 线 就 是 一 种 面向 连接 的 并 行 的 共享 总 线 技术 。 其 趋势 
就 是 必 将 被 高 速 串 行 的 、 面 向 无 连接 的 网 络 通 信 技 术 所 取代 。 取 代 之 
后 的 结果 ， 必 将 使 这 个 网 络 的 扩展 性 大 大 增强 ， 使 存储 系统 和 主机 系 
统 可 以 远 隔 千里 进行 通信 。 


得 益 于 FC 带 来 的 诸多 好 处 ， 现 在 人 们 终于 可 以 摆脱 存储 系统 和 主 
机 必须 放 在 一 起 的 限制 了 。 如 主机 在 北京 ， 而 盘 阵 可 以 在 青岛 ， 它 们 
之 间 通 过 租用 ISP 的 光线 线路 进行 连接 ， 在 这 条 线路 上 承载 FC 协议 ， 
从 而 达到 主机 和 盘 阵 之 间 的 通信 。 这 样 ， 在 北京 的 主机 上 就 可 以 直接 
认 到 远 在 青岛 的 盘 阵 上 的 LUN 人 逻辑 盘 。 


由 于 FC 接口 速度 可 以 是 1Gb/s、2Gb/s、4Gb/s 甚 至 8Gb/s， 并 且 盘 
阵 前 端 可 以 同时 提供 多 个 主机 接口 ， 所 以 它们 的 带宽 之 和 远 远 高 于 后 
端 连接 磁盘 的 并 行 SCSI 总 线 提供 的 速度 。 这 样 ， 就 可 以 在 盘 阵 的 后 端 
增加 更 多 的 SCSI 通 道 ， 以 便 接 入 更 多 的 磁盘 来 饱和 前 端 FC 接 口 的 速 


9.2 不 甘 示 弱 一 一 后 端 也 升级 换代 为 FC 


在 将 主机 与 盘 阵 之 间 的 接口 、 链 路 都 替换 成 FC 协议 之 后 ， 人 们 不 
断 增 加 磁盘 阵列 后 端 磁盘 的 数量 ， 以 达到 前 端 众 多 FC 接口 的 饱和 速 
率 。 但 是 此 时 瓶颈 出 现 了 ， 后 端 每 增加 一 个 SCSI 通 道 ， 最 多 能 接 入 15 
块 磁盘 ， 数 量 太 少 了 。 增 加 SCSI 通 道 也 不 是 一 个 最 终 解决 办 法 ， 能 否 
找到 一 种 彻底 的 解决 办 法 呢 ? 


抛弃 老爷 车 -让 SCSI 搭 乘 高 速 专列 


要 解决 这 个 问题 ， 就 要 彻底 抛弃 盘 阵 后 端的 SCSTI 并 行 传输 总 线 网 
络 ， 就 像 当 初 抛弃 前 端 SCSI 总 线 一 样 。 而 且 不 仅仅 要 使 接 入 硬盘 的 数 
量 增加 ， 还 要 高 速 、 稳 定 。 既 然 已 经 将 前 端 传输 网 络 替 换 成 了 FC 交 换 
网 络 ， 那 么 是 否 可 以 将 后 端 网 络 也 从 并 行 SCSI 替 换 成 FC 呢 ? 理论 上 是 
完全 可 行 的 。 


由 于 FC 协 议 系统 提供 了 两 种 网 络 拓扑 架构 ， 所 以 要 考察 后 端 存储 
网 络 到 底 使 用 哪 种 架构 比较 合适 。 首 先 交 换 式 架构 Fabric 是 一 种 包 区 
换 网 络 ， 寻 址 容量 大 ， 交 换 速度 快 ， 各 个 节点 间 可 以 同时 进行 线 速 区 
换 ， 无 阻塞 通信 ， 但 是 成 本 较 高 。 其 次 是 FC-AL 仲 裁 环 架构 ， 带 宽 共 
享 ， 每 个 环 寻 址 容量 128， 最 关键 的 一 点 是 ， 它 实现 起 来 比 交换 架构 简 
单 ， 而 且 成 本 也 低 很 多 。 


提示 : 第 7 章 讲 的 FC 的 一 些 登 录 、 注 册 等 过 程 ， 都 是 在 Fabric 
架构 中 才 发 生 的 ， 而 在 FC-AL 则 是 另外 一 套 环 初始 化 过 程 。 


如 果 把 每 个 磁盘 都 作为 一 个 节点 连接 到 Fabric 交 换 网 络 中 ， 性 能 
绝对 是 无 可 挑 吻 的 ， 由 共享 总 线 变 成 了 点 对 点 交换 式 通信 ， 性 能 也 会 
提升 很 大 。 但 是 这 样 做 ， 不 但 要 在 盘 阵 的 后 端 实现 一 个 FC 交 换 和 矩阵 ， 
而 且 要 在 每 块 磁盘 上 实现 FC 拓 扑 中 的 N 端 口 ， 这 两 部 分 成 本 是 非常 巨 
大 的 。 为 了 降低 成 本 ， 只 能 选择 性 能 稍 差 ， 但 是 成 本 低 的 FC-AL 仲 裁 
环 架 构 来 连接 磁盘 阵列 的 控制 器 和 磁盘 ， 而 且 在 每 块 磁盘 上 都 实现 FC 
拓扑 中 的 工 端口 。 


虽然 这 样 做 性 能 会 比 Fabric 架 构 差 ， 但 是 至 少 比 并 行 SCSI 总 线 强 
多 了 。 对 于 并 行 SCSI 总 线 来 说 ， 目 前 最 高 的 标准 是 Ultra 320， 裸 速率 
320MB/s， 实 际 最 大 传输 率 大 概 能 有 85% 的 效率 ， 也 就 是 280MB/s 左 
右 。 有 人 做 过 实验 ， 在 Ultra 160 〈 裸 速率 160MB/s) 的 总 线 上 ， 按 4KB 


数据 块 随机 访问 6 块 SCSI 硬 盘 时 ，SCSI 总 线 的 实际 访问 速度 为 
2.74MB/s，IOPS 大 约 700 次 /s。 这 种 情况 下 ，SCSI 总 线 的 工作 效率 仅 为 
总 线 带宽 的 1.7%。 在 完全 不 变 的 条 件 下 ， 按 256KB 的 数据 块 对 硬盘 进 
行 顺序 读 写 ，SCSI 总 线 的 实际 访问 速度 为 141.2MB/s，IOPS 大 约 564 
次 6，SCSI 总 线 的 工作 效率 高 达 总 线 带宽 的 88%。 


由 于 FC-AL 目 前 刚刚 普及 到 4Gb 的 带宽 ， 裸 速率 400MB/s， 这 样 就 
比 Ultra 320 的 带宽 要 高 。 不 仅 在 速率 上 ，FC 在 效率 上 也 比 Ultra 320 并 
行 总 线 要 高 。 但 是 2G 速 率 的 FC-AL， 其 裸 速率 仅 200MB/s， 比 Ultra 
320 低 很 多 。 而 在 4G 的 FC-AL 出 来 之 前 ， 很 多 磁盘 阵列 就 已 经 用 2G 的 
FC-AL 蔡 代 后 端的 Ultra 320 总 线 了 。 为 何 这 些 产品 宁愿 忍受 2G 速 率 FC 
相对 Ultra 320 一 半 的 速度 ， 也 要 将 其 后 端 蔡 换 为 FC 架构 呢 ? 


其 因素 主要 有 三 个 。 


(1) 可 扩展 性 。 受 并 行 SCSI 总 线 仲裁 机 制 本 身 的 限制 ， 决 定 了 
一 条 总 线 上 不 会 有 太 多 的 节点 ，16 个 节点 的 数量 已 经 达到 它 的 可 管理 
极限 了 。 而 FC-AL 仲 裁 环 则 不 然 ， 它 的 极限 是 128 节 点 ， 这 就 比 SCSI 总 
线 强 多 了 。 这 个 限制 的 突破 ， 使 后 端 可 以 连接 更 多 的 磁盘 ， 很 容易 就 
可 以 在 单 台 磁盘 阵列 上 实现 上 TB 或 者 几 十 TB 的 容量 (通过 连接 扩展 
柜 ) 。 


虽然 一 个 FC-AL 环 的 速度 比 一 条 Ultra 320 总 线 低 ， 但 是 多 条 总 线 
和 多 个 后 端 通道 可 以 集成 在 一 个 控制 器 上 。 而 并 行 SCSI 接 口 和 线 缆 都 
很 宽大 ， 想 集成 在 一 个 小 的 空间 上 很 难 。FC 由 于 是 串 行 传输 ， 两 条 线 
一 收 一 发 足够 了 。 接 口 也 很 小 ， 如 SFP 光 纤 接 口 ， 只 有 指头 肚 一 样 大 
小 ， 可 以 很 方便 地 在 后 端 上 实现 多 个 通道 。 


(2) IOPS 值 比 并 行 SCSI 总 线 的 架构 显著 增加 。 为 什么 这 么 说 
呢 ? 我 们 分 析 一 下 。 高 IOPS 通 常 意味 着 IO SIZE 值 比较 小 的 情况 下 ， 
如 果 使 用 并 行 SCSI 总 线 ， 由 于 可 接 入 节点 数量 较 少 ， 磁 盘 数 量 少 ， 每 
秒 可 接受 的 IO 请 求 就 少 ; 而 FC-AL 的 后 端 ， 一 个 通道 可 以 连接 120 多 个 
磁盘 ， 可 以 做 成 很 多 Raid Group ， 每 秒 可 接受 的 IO 请 求 就 比 并 行 SCSI 
多 得 多 。 所 以 ， 虽 然 2Gb 带 宽 的 FC 网 络 传输 在 持续 传输 速率 上 比 不 过 
Ultra 320 的 320MB/s 的 速度 ， 但 是 IOPS 却 比 Ultra 320 总 线 高 很 多 。 在 特 
定 条 件 下 ，2Gb 的 FCAL 链 路 在 IOPS 和 吞吐 带宽 指标 上 都 会 超越 Ultra 
320 的 SCSI 总 线 。 


现在 的 大 部 分 应 用 都 是 要 求 高 IOPS 的 ， 它 们 产生 的 一 个 IO SIZE 
一 般 都 比较 小 ， 而 且 随 机 IO 居多 。 但 是 对 于 视频 编辑 等 领域 ， 无 疑 是 
要 求 高 传输 带宽 的 。 面 对 这 种 应 用 ， 可 以 通过 在 盘 阵 后 端 加 入 多 个 
FC-AL 环 来 解决 ， 后 端 带 宽 总 和 等 于 环 数 乘 以 环 带宽 。 


(3) 双 逻 辑 端口 见 余 。 由 于 FC 的 串 行 方式 使 得 数据 针脚 数量 降 
低 ， 相 同 的 空间 内 很 容易 做 成 双 逻 辑 端口 见 余 。 双 逻辑 端口 磁盘 可 以 
有 效 保证 当 其 中 一 个 端口 发 生 故 障 之 后 ， 磁 盘 可 以 继续 使 用 另外 一 个 
备用 端口 接受 IO 请 求 。 


9.3 FC 革命 一 完整 的 盘 阵 解决 方案 


FC 在 盘 阵 的 前 端 接口 技术 的 革命 成 功 之 后 ， 又 在 后 端的 接口 技术 
上 取得 了 成 功 。FC 技 术 的 两 种 拓扑 ， 一 个 称霸 前 端 ， 一 个 称霸 后 端 ， 
在 磁盘 阵列 领域 发 挥 得 淋漓 尽 致 。 


与 此 同时 ， 磁 盘 生 产 厂 家 也 在 第 一 时 间 将 FC 协 议 中 的 世 端 口 和 FC 
硬件 心 片 做 到 了 磁盘 驱动 器 上 ， 取 代 了 传统 的 SCSI 端 口 。 同 时 ， 根 据 


FC 协 议 的 规定 编写 了 新 的 Firmware， 用 于 从 FC 数 据 帧 中 提取 SCSI 指 令 
和 数据 ， 完 成 FC 协 议 通 信 逻 辑 。 


提示 : 并 行 SCSI 磁 盘 以 及 其 他 设备 目前 仍 有 比较 广泛 的 应 
用 ， 尤 其 是 服务 器 本 地 磁盘 。 服 务 器 本 地 磁盘 一 般 只 安装 操 
作 系 统 ， 一 般 情况 下 应 用 数据 都 会 放 到 SAN 的 磁盘 阵列 上 ， 
所 以 对 本 地 磁盘 的 性 能 要 求 不 高 ， 使 用 Ultra 320 磁 盘 足 侨 。 
另外 ， 普 通 独立 磁带 机 一 般 也 用 Ultra SCSI 320 作 为 其 外 部 接 
口 。 只 有 在 大 型 磁带 库 设 备 上 ， 为 了 将 其 接 入 FC SAN 才 会 使 
用 FC 接 口 。 


因为 要 把 每 块 磁盘 都 连接 到 FC-AL 网 络 中 ， 所 以 磁盘 上 要 做 上 一 
个 FC 接口 。 由 于 磁盘 阵列 背 板 需 要 连接 众多 的 磁盘 ， 所 以 就 注定 不 可 
能 用 柔软 纤细 的 光纤 来 连接 磁盘 到 背 板 ， 必 须 使 用 硬 质 铜 线 ， 让 磁盘 
的 FC 接口 用 铜 线 来 接触 盘 阵 背 板 上 的 电路 ， 这 样 才能 做 到 方便 地 插 
拔 。 


9.3.1 FC 磁盘 接口 结构 
FC 磁盘 的 接口 为 SCA2 形 式 的 40 针 插口 ， 如 图 9-1 所 示 。 
图 9-1 SCA2 接 口 规格 


从 图 9-1 中 可 以 看 出 ，FC 磁 盘 的 接口 与 Ultra 320 SCSI 磁 盘 的 接口 
形状 完全 相同 。 但 是 在 接口 上 的 物理 信号 定义 和 承载 的 上 层 协 议 是 完 
全 不 同 的 : FC 磁 盘 接 口 是 承 载 的 FC-AL 协 议 ， 而 SCSI 磁 盘 接口 承载 的 
是 并 行 SCSI 总 线 协 议 。 图 9-? 是 FC SCA2 型 接口 的 信号 定义 表 。 


图 9-2 FC 接口 SCA2 针 脚 信 号 定义 表 


9.3.2 ”一 个 磁盘 同时 连 入 两 个 控制 器 的 Loop 中 


图 9-3 和 图 9-4 分 别 给 出 了 一 串 磁盘 以 单 Loop 和 汉 Loop 接 入 的 情 
形 。 


图 9-3” 单 Loop 连 接 示意 图 图 9-4” 双 Loop 连 接 示 意图 


从 图 中 可 以 看 出 来 ， 原 来 这 个 物理 接口 中 共 包 含 了 两 套 逻 辑 接 
口 ， 可 以 分 别 接 入 一 个 FC-AL 的 环 路 中 。 


9.3.3 ”共享 环 路 还 是 交换 一 SBOD 心 片 级 详解 


革命 之 后 ， 被 并 行 SCSI 总 线 技术 禁 铀 多 年 的 存储 系统 终于 解放 
了 ， 迎 来 了 全 FC 架构 的 春天 。 


各 个 厂家 分 别 推出 了 自己 的 产品 。 由 于 虽然 一 条 FC-AL 环 最 多 能 
接 120 多 块 磁盘 ， 但 是 有 人 测试 过 ， 环 上 节点 的 数量 在 最 大 值 的 二 分 之 
一 时 ， 性 能 达到 最 大 化 。 再 增加 节点 数量 ， 性 能 不 升 反 降 。 究 其 原 
因 ， 可 能 是 因为 60 个 左右 的 节点 ， 已 经 达到 FC-AL 环 的 仲裁 性 能 以 及 
带宽 共享 限制 的 极限 了 ， 如 图 9-5 所 示 。 如 果 再 增加 节点 ， 那 么 用 于 仲 
裁 所 耗费 的 资源 ， 就 会 影响 性 能 的 发 挥 了 。 这 也 是 仲裁 环 或 者 总 线 的 
通病 。 对 于 Fabric 架 构 ， 就 没有 这 种 限制 。 


图 9-5 ”FC-AL 环 的 性 能 曲线 
思考 : 节点 数量 和 仲裁 / 帧 转发 效率 是 一 对 矛盾 系统 ， 只 能 在 
二 者 之 间 进 行 折 中 选择 。 在 60 节 点 数量 左右 ， 能 达到 最 大 
IOPS。 如 果 还 想 增 加 节点 数量 ， 增 加 盘 阵 所 提供 的 总 容量 ， 
那 就 只 能 牺牲 IOPS 性 能 。 同 样 ， 每 个 环 上 的 磁盘 数量 也 不 能 


太 少 ， 太 少 的 话 将 达 不 到 最 高 IOPS， 虽 然 此 时 仲裁 和 帧 转发 
速度 快 。 


有 没有 可 能 将 后 端的 共享 FC-AL 环 路 架构 ， 改 变 为 交换 式 架 构 
呢 ? 改 为 交换 式 架 构 是 可 以 ， 但 是 不 能 改 为 Fabric， 因 为 其 成 本 相对 
偏 高 ， 而 且 Fabric 的 一 些 特性 对 于 后 端 来 说 是 用 不 到 的 。 


Emulex 公司 发 布 的 InSpeed SOC422 心 片 、PMC-Sierra 公司 的 
PM8378 心 片 等 就 是 运行 FC-AL 协 议 但 物理 架构 是 交换 架构 的 心 片 。 然 
而 这 个 交换 架构 绝 非 Fabric， 因 为 其 遵循 的 上 层 人 逻辑 依然 是 FC-AL 人 罗 
辑 ， 只 是 在 物理 连接 上 用 点 对 点 交换 架构 ， 替 代 了 “节点 大 串联 ”的 
Loop 结 构 ， 使 节点 与 节点 之 间 传 输 的 数据 可 以 通过 交换 矩阵 直达 ， 而 
不 是 在 环 路 上 一 跳 一 跳 的 中 继 。 然 而 ， 这 些 心 片 依然 可 以 用 在 Fabric 
交换 机 上 ， 只 要 经 过 一 定 改 造 并 且 在 上 层 运行 对 应 的 Firmware 即 可 。 


其 实 就 是 用 星 型 连接 取代 串联 ， 而 电路 运行 的 逻辑 依然 是 FC-AL 
仲裁 过 程 ， 因 为 位 于 控制 器 上 的 FC 适配器 依然 会 执行 FC-AL 仲 裁 等 逻 
辑 ， 只 不 过 这 个 仲裁 过 程 变 得 非常 简单 ， 不 下 需要 所 有 磁盘 参与 ， 而 
由 这 块 已 片 来 进行 仲裁 。 此 外 ， 某 节点 同一 时 刻 依然 只 能 与 一 个 节点 
通信 ， 节 点 感觉 不 到 底层 电路 架构 的 变化 。 由 于 同一 时 刻 还 是 只 能 存 
在 一 对 节点 进行 通信 ， 所 以 链 路 带宽 依然 是 共享 的 。 因 此 ， 这 种 交换 
架构 做 的 并 不 彻底 ， 它 没有 过 渡 到 包 交 换 或 者 所 有 端口 无 阻塞 全 交换 
架构 ， 虽 然 物 理 上 已 经 可 以 实现 点 对 点 的 通路 。 


图 9-6 所 示 的 为 传统 FC-AL 架 构 和 半 交 换 式 FC-AL 架 构 示 意图 。 我 
们 可 以 看 到 左边 的 拓扑 完全 就 是 磁盘 串 ， 而 右边 则 变 成 了 星 型 的 架 
构 ， 中 间 由 一 个 ESH 交 换 模 块 辐射 出 来 。 


图 9-6 ”传统 FC-AL 环 和 半 交 换 式 FC-AL 环 


目前 高 端 盘 阵 后 端 控制 心 片 几乎 全 部 采用 半 交 换 式 架构 了 。 半 交 
换 式 架构 有 以 下 好 处 。 


= 控制 节点 与 所 有 其 他 市 点 间 都 是 点 对 点 矩阵 直 连 架构 ， 相 对 于 
环 路 染 构 减 小 了 数据 传输 时 的 延迟 。 数 据 帧 不 需要 一 跳 一 跳 的 
转发 ， 可 以 直接 从 友 起 者 到 达 目 标 。 

”可 以 快速 侦 测 和 隔离 某 个 节点 的 故障 而 不 影响 其 他 节点 。 

= 由 于 降低 了 链 路 延迟 ， 增 加 了 效率 ， 所 以 在 性 能 可 接受 的 前 提 
下 ,一 条 链 路 可 接 入 的 市 点 数 大 大 增多 。 

" 相对 于 纯 环 路 染 构 ， 半 交换 架构 提高 了 传输 速度 和 IOPS。 


纯 环 路 架构 的 扩展 柜 中 ， 连 接 硬 盘 的 背 板 只 是 一 个 FC-AL 环 路 连 
接 装 置 ， 而 升级 到 半 交 换 架 构 的 硬盘 扩展 柜 的 ， 其 连接 硬盘 的 背 板 上 
就 有 了 Switch 心 片 (其 实 这 个 心 片 一 般 存 在 于 从 背 板 单独 接 出 的 扩展 
模块 上 ) ， 可 以 级 联 多 个 扩展 柜 。 在 逻辑 上 ， 这 些 级 联 扩展 柜 中 的 所 
有 磁盘 属于 一 个 逻辑 上 的 Loop ， 前 者 被 称 为 JBOD (Just Bunch Of 
Disks) ， 后 者 被 称 为 SBOD (Switched Bunch Of Disks) 。 


提示 : 关于 这 些 模块 的 实物 图 ， 请 参照 本 书 第 6 章 的 相关 章 
节 。 


1。PMC-Sierra 公 司 PM 系 列 芯 片 简介 


下 面 以 PMC-Sierra 公 司 的 PM8368 和 PM8378 两 款 芯 片 为 例 来 详细 
解释 一 下 这 种 心 片 的 作用 方式 。 


1) PBC 芯 片 


在 传统 模式 的 FC-AL 架 构 下 ， 所 有 环 路 上 的 节点 (adapter 和 磁 
盘 ) 都 通过 串联 架构 串 接 到 了 一 起 。 针 对 这 个 架构 的 PM8368 心 片 是 一 
款 具 有 18 个 2Gb/s 的 FC 接口 的 带 有 PBC (Port Bypass Control) 功能 的 
心 片 ， 相 当 于 一 个 Loop 串 联 嚣 ， 并 且 带 有 端口 Bypass 功 能 ， 可 防止 某 
个 端口 故障 引发 的 全 Loop 断 开 。 图 9-7 所 示 为 PM8368 心 片 的 方 框图 。 
其 18 个 端口 中 ， 通 常用 16 个 连接 磁盘 ， 其 他 两 个 连接 上 位 必 片 和 
(或 ) 下 位 必 片 。 这 种 不 带 有 交换 逻辑 的 普通 Loop 心 片 ， 业 界 一 般 称 
为 PBC 心 片 ， 即 旁 路 控制 心 片 。 


图 9-7 PM8368 忌 片 方 框图 


图 9-8 所 示 的 是 将 PM8368 芯 片 与 PM8372 攻 片 (一 款 只 有 4 个 FC 口 
的 PBC 环 路 集 线 心 片 ) 搭配 在 一 起 而 实现 的 扩展 柜 级 联 ， 每 扩展 柜 有 
16 块 盘 。 引 入 PM8372 心 片 的 原因 是 将 其 作为 一 个 二 级 级 联 桥 来 减缓 一 
级 心 片 (PM8368) 的 端口 耗 尽 问题 。 一 级 心 片 需要 连接 最 终 人 硬盘 等 设 
备 。 


图 9-8 利用 PM8368 世 片 与 PM8372 芯 片 级 联 扩展 柜 
2) CTS 芯 片 


图 9-9 所 示 为 PM8378 心 片 的 方 框 图 。 此 心 片 为 新 一 代 的 CTS 心 
片 ，CTS 为 Cut Through Switch 的 简称 。 这 款 心 片 具有 交换 逻辑 ，IO 性 
能 相对 于 PBC 必 片 大 大 增加 ， 而 延迟 大 大 降低 。 这 块 心 片 可 以 接 入 18 
个 4Gb/s 的 FC 接 口 设备 。 在 上 部 的 模块 中 ， 可 以 看 到 三 个 模块 : Am 
Mgmt (仲裁 管理 模块 ) 、AL_PA Table (AL-PA 地 址 端口 映射 表 模 
块 ) 、Cut Thru Mgmt (捷径 交换 模块 ) 。 


图 9-9 ”PM8378 忌 片 方 框图 


" Arb Mgmt (仲裁 管理 模块 ) : 前 面 曾经 说 过 ， 一 个 交换 芯片 必 
须 感知 FCAL 的 仲裁 逻辑 ， 才 能 作为 一 个 中 心 仲裁 器 总 揽 仲 裁 
权 ， 而 不 用 Loop 上 所 有 的 节点 都 参与 进来 。 这 个 仲裁 管理 模块 
实现 的 就 是 这 个 功能 。FC 适 配器 只 要 发 出 仲裁 请 求 ， 忌 片 就 会 
马上 通过 ， 适 配器 立即 就 获得 了 使 用 权 ， 加 快 了 仲裁 的 速度 。 
如 果 某 时 刻 多 个 设备 都 发 起 仲裁 ， 则 芯片 会 根据 自己 的 逻辑 来 
处 理 这 些 请 求 ， 比 如 根据 优先 级 等 。 

AL_PA Table (AL-PA 地 址 端口 映射 表 模 块 ) : 传统 的 FCAL 环 
路 上 ， 数 据 从 通信 源 被 发 送 到 对 应 AL-PA 地 址 的 目的 设备 ， 数 
据 帧 需要 一 站 一 站 地 向 下 接力 传送 。 交 换 芯 片 的 另 一 个 作用 就 
是 抛弃 这 种 低 效 的 传输 方式 ， 使 数据 可 以 一 站 直达 目的 。 忆 片 
使 用 一 张 映 射 表 来 维护 交换 逻辑 ， 这 就 和 以 太 网 交换 机 维护 一 
张 MAC- 端 口 表 一 样 。FCAL 交 换 芯 片 每 收 到 一 帧 数据 ， 就 会 根 
据 这 个 AL_PA Table 来 查找 帧 中 的 AL-PA 地 址 所 对 应 的 芯片 针脚 
是 哪 一 个 ， 然 后 直接 将 此 帧 转发 到 对 应 的 针脚 上 ， 也 就 传送 到 
了 针脚 所 连接 的 磁盘 FC 接 口上 。 

Cut Thru Mgmt (捷径 交换 模块 ) : 这 个 模块 其 实 就 是 执行 交换 
过 程 的 。 每 当 有 帧 需要 交换 ， 这 个 模块 就 会 发 送 一 个 信号 到 图 
9-9 中 部 的 那个 矩阵 上 ， 改 变 矩 阵 当 前 的 通路 布局 ， 从 而 将 数据 
从 源 传 向 目的 设备 。 


图 9-10 是 利用 PM8378 记 片 实 现 的 磁盘 扩展 柜 级 联 示意 图 。18 个 端 
口中 有 16 个 连接 了 和 磁盘， 另外 两 个 分 别 连接 了 上 位 和 下 位 芯片 。 


图 9-10 ”扩展 柜 级 联 示意 图 


还 可 以 将 PBC 心 片 和 CTS 心 片 组合 在 一 起 来 级 联 扩展 柜 。 如 图 9-11 
所 示 ， 为 了 降低 成 本 ， 使 用 了 18 口 的 PBC 芯 片 来 连接 磁盘 ， 然 后 用 一 


个 4 端口 的 CTS 心 片 来 作为 二 级 级 联 桥 。 在 这 种 情况 下 ， 每 个 扩展 柜 中 
的 磁盘 之 间 为 普通 Loop 串 联 ， 但 是 扩展 柜 与 扩展 柜 之 间 却 是 交换 拓 
扑 ， 这 样 就 相当 于 把 整个 Loop 上 的 节点 划分 成 域 ， 每 个 扩展 柜 就 是 一 
个 共享 域 (冲突 域 ) 。 现 在 流行 的 做 法 是 : 磁盘 连接 到 CTS 心 片 中 ， 
而 柜子 与 柜子 之 间 是 PBC 必 片 ， 所 以 图 9-11 所 示 的 恰好 相反 ， 这 一 点 
请 读者 注意 。 


图 9-11 PBC 与 CTS 的 组 合 


如 图 9-12 所 示 ， 这 种 方式 使 用 了 高 成 本 的 CTS 心 片 组 成 了 全 交换 
架构 的 Loop。 整 个 Loop 上 的 节点 之 间 都 形成 了 交换 架构 ， 但 这 个 交换 
架构 并 不 是 无 阻塞 多 路 同时 交换 的 架构 ， 依 然 是 同时 只 允许 两 点 间 通 
信和 的 上 层 FC-AL 人 逻辑 的 架构 。 


图 9-12 全 CTS 架 构 


SBOD 控 制 模块 上 的 心 片 不 只 有 PBC 或 CTS， 还 包括 其 他 各 种 功能 
的 心 片 ， 在 图 中 并 没有 给 出 ， 下 面 会 一 一 介绍 。 


2。SCSI Enclosure Service 简 介 


SCSI Enclosure Service 简 称 为 SES， 从 字面 上 理解 就 是 SCSI 协 议 中 
用 于 查询 磁盘 扩展 柜 (Enclosure) 各 种 状态 的 一 种 服务 (协议 ) 。 扩 
展柜 上 有 很 多 组 件 需要 被 监控 ， 比 如 电源 模块 、 风 扇 散 热 模块 、 各 种 
指示 灯 、 温 度 传感器 等 。 这 些 组 件 都 通过 某 种 总 线 (比如 I2C、 
GPIO) 方式 连接 到 某 个 必 片 ， 然 后 这 块 必 片 再 通过 I2C 等 连接 到 单 片 
机 或 CPU。 或 者 通过 外 部 传感器 直接 连接 到 高 集成 度 的 单一 芯片 上 。 


SCSI 客 户 端 程序 (也 就 是 SCSI Initiator 端 程序 ) 通过 发 送 SES 协 议 规 定 
的 各 种 指令 来 查询 Enclosure 上 各 个 组 件 的 状态 信息 。 


SES 服 务 模块 就 是 指 扩 展柜 上 的 CPU， 其 中 运行 着 处 理 SES 的 代 
码 。 这 个 CPU 可 以 是 主 控 CPU， 也 可 以 是 独立 的 心 片 。 存 储 设备 机 头 
主 控制 器 有 两 种 方式 将 SES 指 令 传输 给 这 个 CPU， 如 下 所 述 。 


1) 独立 SES 服 务 模块 


如 图 9-13 所 示 ， 独 立 的 SES 服 务 模块 独占 一 个 LUN ID 〈 十 六 进 制 
的 0D) ， 可 以 直接 寻 址 。 也 就 是 说 ，SES 服 务 模块 就 相当 于 一 个 FCAL 
Loop 上 的 ID ， 机 头 直接 将 SES 指 令 传 输 给 这 个 ID。 对 应 电路 层面 ， 主 
交换 心 片 收 到 目标 为 此 ZD 的 帧 ， 便 会 直接 转发 给 这 个 ID 所 连接 的 设 
备 ， 这 里 就 是 SES 处 理 心 片 。 


图 9-13 ”独立 SES 服 务 模块 示意 图 
2) 附属 的 SES 服 务 模块 


如 图 9-14 所 示 ， 附 属 的 SES 服 务 模块 往往 会 利用 一 个 已 经 存在 的 
设备 的 地 址 来 与 自己 共用 。 而 物理 接口 上 ， 这 个 设备 一 般 会 有 一 条 劳 
路 来 连接 到 SES 服 务 模块 ， 比 如 目前 FC 磁盘 普遍 使 用 的 SCA2 接 口中 就 
有 对 应 的 ESI (Enclosure Service Interface) 接口 来 连接 到 SES 服 务 模块 
上 (CPU) 。 存 储 设备 的 主 控 机 头 首先 将 一 条 SES 可 用 性 探 询 指令 发 
送 到 这 个 已 经 被 磁盘 占用 的 ID ， 如 果 这 个 ID 对 应 的 槽 位 上 有 连接 设 
备 ， 且 该 设备 支持 转发 SES 帧 ， 则 该 设备 会 返回 一 个 确认 帧 ， 帧 中 携 
之 有 特定 Page 的 值 ， 主 探 机 头 收 到 之 后 便 会 分 析出 这 个 设备 是 否 支持 
SES 转 发 。 机 头 随 后 发 出 纯 SES 指 令 ， 磁 盘 收 到 之 后 ， 会 通过 ESI 接 口 
将 SES 帧 发 送 给 ESI 接 口 的 对 端 ， 当 然 就 是 SES 处 理 已 片 了 ， 已 片 收 到 


SES 指 令 之 后 ， 便 通过 I2C (或 者 其 他 类 型 总 线 ) 总 线 去 查询 外 部 传 感 
器 的 信息 ， 然 后 封装 成 SES 返 回 帧 ， 通 过 ESI 接 口 发 送 至 磁盘 ， 磁 盘 再 
转发 给 主 控 机 头 。 磁 盘 的 Firmware 必 须 支 持 转 发 SES 帧 。 


图 9-14 ”附属 的 SES 服 务 模块 示意 图 
3。SBOD 上 的 CPU 


1) PMC-Sierra 公 司 的 PM8393 芯 片 


这 是 一 款 基于 MIPS32 架 构 的 单片机 ， 内 建 有 128KB 的 RAM， 外 部 
时 钟 为 106.25 MHz， 可 以 将 其 连接 到 上 文 所 属 的 PM8378 Switch 心 片 
中 。 这 款 心 片 又 名 Sotrage Management Controller， 简 称 SMC。 图 9-15 
为 其 方 框图 。 


图 9-15 ”PM8393 忌 片 方 框图 


图 9-16 是 PM8393 心 片 充当 扩展 柜 总 控 CPU， ee 
当 交 换 忆 片 来 连接 磁盘 ， 再 加 上 其 他 一 些 心 片 共 同 组 成 的 一 个 完整 的 
扩展 柜 控制 模块 架构 。 


图 9-16 ”用 PM8393 做 为 扩展 柜 总 控 CPU 
2) Qlogic 公 司 的 GEM359 芯 片 
图 9-17 一 图 9-19 所 示 为 这 款 心 片 的 方 框图 。 


图 9-17 ”GEM359 芯 片 方 框图 (1) 


图 9-18 ”GEM359 攻 片 方 框图 (2) 图 9-19 GEM359 芯 片 方 框图 (3) 


4. SBOD 上 的 ROM 和 RAM 


SBOD 扩 展柜 上 的 CPU 需 要 执行 Firmware 中 的 代码 来 完成 一 系列 的 
动作 ， 如 SES 服 务 等 。 所 以 ，Firmware 编 写 的 质量 直接 决定 了 扩展 柜 
是 否 能 向 机 头 上 的 控制 器 稳定 和 迅速 地 报告 扩展 柜上 所 发 生 的 一 切 事 
件 。 


Firmware 一 般 存 在 于 扩展 柜 控制 模块 上 的 ROM 忆 片 (如 Flash 心 
片 ) 中 ， 并 且 可 以 随时 将 升级 之 后 的 Firmware 通 过 FC 接口 直接 写 入 心 
片 。 这 种 直接 通过 实际 数据 链 路 来 升级 系统 控制 数据 的 方式 叫做 in- 
band 升 级 ， 即 “ 寓 内 升级 ”。 如 果 用 一 种 单独 的 通道 来 访问 Flash 心 片 并 
做 升级 动作 就 叫做 out-band 升 级 ， 也 就 是 带 外 升级 。 


SBOD 控 制 模 块 上 一 般 都 有 外 置 的 RAM 心 片 ， 有 些 内 置 了 RAM 的 
单片机 除外 。 


5。PATA、SATA 和 SAS 磁 盘 怎 么 办 


PATA (IDE) 盘 和 SATA 盘 相对 于 FC 盘 和 SAS 盘 来 说 ， 成 本 降低 了 
很 多 ， 且 可 以 实现 高 容量 ， 现 在 已 经 有 了 1TB 的 SATA 磁 盘 。 对 于 一 些 
对 IO 性 能 要 求 不 高 的 环境 来 说 ， 使 用 SATA 盘 无 疑 是 很 合适 的 。 但 是 面 
对 不 同 的 接口 ， 不 同 的 指令 ， 单 独 对 这 些 磁 盘 实 现 一 套 盘 柜 和 控制 器 
体系 实在 是 不 方便 。 且 现在 企业 都 要 求 高 度 整 合 ， 统 一 分 配 ， 方 便 管 
理 。 根 据 这 个 需求 ， 各 种 适配器 和 转换 逻辑 出 现 了 。 图 9-20 所 示 为 一 
个 SATA-SCA2 接 口 转换 器 。SATA 了 磁盘 只 要 接 上 这 块 PCB， 就 可 以 从 物 
理 上 融入 FC 盘 柜 中 ， 也 就 变 成 了 所 谓 的 FATA 盘 。 除 此 之 外 ， 还 有 很 
多 其 他 类 型 的 转 接 电路 ， 比 如 PATA-SCA2、SAS-SCA2 等 。 


图 9-20 SATA-SCA2 转 接 电路 板 


物理 上 融入 了 ， 在 逻辑 上 也 需要 进行 转换 。SATA 磁 盘 使 用 ATA 指 
令 系 统 ，FC 和 和 SAS 磁盘 使 用 SCSI 指 令 系 统 ， 二 者 不 兼容 。 所 以 需要 有 
一 个 中 央 心 片 负责 在 两 种 远 辑 之 间 互 相 转 换 。 


Sierra Logic 的 SR1216 心 片 是 一 款 高 集成 度 的 心 片 。 这 款 心 片 将 
ATA-SCSI 转 换 人 逻辑 以 及 两 个 MicroProcessor 做 到 了 一 块 单一 的 蕊 片 
中 。 MicroProcessor 就 是 微型 CPU， 用 来 运行 外 部 Flash 心 片 中 的 
Firmware， 从 而 实现 SES 等 扩展 柜 管理 程序 。 


图 9-21 所 示 为 SR1216 心 片 实物 图 。 
图 9-21 SR1216 忆 片 实物 图 


图 9-22 和 图 9-23 所 示 为 用 SR1216 来 充当 SATA 桥 和 总 控 CPU 所 形成 
的 扩展 柜 控 制 模块 架构 图 ，PBC 表 示 FC Loop 旁 路 控制 芯片 ，SES 
Processor 表 示 用 来 收集 外 部 传感器 的 专用 心 片 。 


图 9-22 ”SR1216 架 构 的 扩展 柜 控制 模块 ”图 9-23 SR1216 架 构 的 扩展 柜 控制 模块 
(1) (2) 


男 外 ，PMC-Sierra 公 司 也 有 多 款 多 端口 SATA 复 用 心 片 ， 不 过 有 一 
些 需 要 搭配 额外 的 ATA-SCSI 转 换 桥 心 片 。 图 9-24 为 其 示意 图 。 


图 9-24 PMC-Sierra 的 SATA 盘 柜 控 制 模块 架构 图 


9.4 SAS 大 革命 


SAS 技 术 是 近 一 两 年 来 才 被 普遍 使 用 的 拷 术 ， 其 相对 FC 技术 有 多 
种 优点 ， 也 有 其 缺点 。 本 节 向 大 家 介绍 一 下 SAS 技 术 的 底层 架构 。 


9.4.1 ”SAS 物理 层 


适用 于 存储 系统 的 网 络 不 止 FC 一 个 ， 同 档次 的 网 络 传输 系统 还 有 
一 个 叫做 SAS 的 ， 全 称 为 Serial Attached SCSI， 即 串 行 SCSI。FCP 也 属 
于 串 行 SCSI，SAS 只 是 一 个 名 称 ， 不 要 太 较 真 。SAS 是 于 2001 年 被 
Compaq、IBM、LSI Logic、Maxtor 和 Seagate 联 合 提 上 日 程 的 。 大 家 都 
知道 ， 现 在 普遍 用 于 PC 的 SATA 硬 盘 ， 也 是 从 2001 年 之 后 才 逐 渐 新 露 
头角 的 。 的 确 ， 当 时 几 大 三家 在 开发 串 行 AITA 时 就 考虑 到 : 为 何不 将 
SCSI 一 同 纳 入 开发 范围 呢 ? 于 是 SAS 便 悄悄 的 被 开发 了 。 正 是 由 于 这 
种 因缘 关系 ， 今 天 普遍 用 于 PC 服务 器 和 小 型 机 的 本 地 硬盘 的 SAS 磁 盘 
的 接口 形状 与 SATA 盘 是 相同 的 ， 只 是 比 SATA 盘 多 了 一 个 数据 接口 ， 
像 FC 磁盘 一 样 用 来 连接 两 路 控制 器 。 第 二 数据 接口 位 于 第 一 数据 接口 
靠背 的 位 置 ， 需 要 翻 过 来 才能 看 到 ， 如 图 9-25 所 示 。 


图 9-25 SAS 和 SATA 接 口 的 区 别 


SAS 网 络 与 FC 有 一 个 本 质 区 别 ， 即 SAS 为 全 交换 式 架构 ， 不 像 FC 
一 样 有 Fabric 和 FCAL 两 种 架构 。 如 果 让 一 个 控制 器 (Initiator) 和 多 块 
磁盘 作为 网 络 节点 直接 连接 到 SAS 网 络 中 的 话 ， 那 么 控制 器 和 所 有 磁 
盘 之 间 都 是 全 双 工 线 速 无 阻塞 交换 的 ， 控 制 器 可 以 直接 向 任何 一 块 磁 
盘 收发 数据 ; 同样 ， 磁 盘 也 可 以 在 任何 时 刻 直接 向 控制 器 发 送 数据 。 
这 一 切 过 程 都 是 没有 冲突 的 ， 也 不 需要 像 FCAL 那 样 的 仲裁 机 制 ， 而 
且 每 个 节点 都 独 享 传输 带宽 ， 系 统 整体 带宽 一 节 点 数量 x 每 个 节点 享 
有 的 带宽 。 


在 SAS 网 络 中 ， 每 一 个 物理 接口 都 需要 有 一 套 底 层 编 解码 器 负责 
对 数据 进行 8/10b 编 解码 。 每 个 物理 接口 又 称 为 PHY， 即 Physical 的 简 
写 。SAS 1.0 时 代 ， 每 个 物理 接口 的 编 解 码 速度 为 3Gbls，SAS 2.0 时 代 

(2010 年 初 才 有 产品 正式 宣布 ) ， 这 个 速率 被 提升 至 6Gb/s。 换 算 一 下 
就 可 得 知 ，SAS 1.0 的 每 个 接口 数据 带宽 为 300MB/s，SAS 2.0 则 翻 倍 。 
相 比 之 下 ， 同 时 代 的 FC 接口 物理 速率 已 经 普遍 为 4Gb/s， 而 且 8Gb/s 的 
产品 已 经 上 市 ，SAS 慢 了 一 小 步 ， 而 且 还 相差 2Gb/s。 但 是 SAS 的 一 项 
设计 却 比 FC 走 到 了 前 面 ， 即 可 以 将 多 个 PHY 捆 绑 成 一 个 逻辑 接口 ， 数 
据 并 行 地 在 多 个 PHY 中 传输 ， 就 像 PCI-E 一 样 ， 每 个 PHY 速 率 
2.5Gb/s，4XPCIE 便 是 4 个 PHY 捆 绪 。4X 的 SAS 接 口 ， 其 速率 就 变 成 了 
12Gb/s (SAS 1.0) 或 者 24Gb/s (SAS 2.0) 。 而 目前 FC 是 做 不 到 这 一 
点 的 。 多 个 PHY 经 过 捆绑 之 后 形成 的 逻辑 端口 称 为 * 宽 端口 "， 不 捆绑 
的 独立 单一 PHY 称 为 * 罕 端口 ?”。 宽 端口 一 般 用 于 主机 SAS 适 配器 连接 
SAS 接 口外 置 磁 盘 阵列 时 使 用 ， 因 为 宽 端 口 可 以 提供 更 高 的 带宽 ， 消 
除 瓶 颈 ， 同 时 ， 连 接 使 用 的 线 绕 也 借用 了 Infiniband 网 络 的 设计 。 如 图 
9-26 所 示 为 一 个 4X 宽 端口 所 用 的 线 绕 接头 实物 图 。 


图 9-26 ”SAS 的 4xX 宽 端口 


图 9-27 所 示 的 是 一 块 主机 SAS 适 配 卡 的 连接 示意 图 。 此 适 配 卡 有 
两 个 SAS 通 道 ， 每 个 通道 又 有 4 个 PHY ， 其 中 一 个 通道 用 于 连接 主机 箱 
内 部 的 SAS 或 者 SATA 磁 盘 ， 通 过 线 缆 连 接 到 转 接 背 板 上 ， 然 后 4 块 磁 
盘 可 以 以 热 插 拔 方式 插 到 背 板 上 对 应 的 接口 。 另 一 个 通道 使 用 上 文 所 
述 的 4X SAS 线 缆 连 接 外 置 SAS 接 口 的 磁盘 阵列 。 如 果 在 这 块 SAS 卡 上 
设计 有 独立 的 Raid 心 片 或 者 直接 集成 到 SAS IO Processor 中 ， 那 么 这 块 
卡 就 变 为 了 一 块 可 接 SAS 或 者 SATA 人 硬盘 的 Raid 卡 了 。 


图 9-27 ”SAS 适配器 内 部 连 线 示意 图 


由 于 SAS 和 SATA 硬 盘 的 接口 是 相同 的 ， 所 以 自然 想到 是 否 SATA 
硬盘 也 可 以 接 入 SAS 网 络 呢 ? 管 案 是 肯定 的 。SAS 协 议 利 用 STP 
(SATA Tunneling Protocol) 来 兼容 SATA 协 议 ， 对 SATA 节 点 的 数据 收 
发 ，SAS 是 将 数据 封装 在 SAS 协 议 帧 中 传递 的 ， 数 据 到 达 SATA 节 点 
后 ， 解 封装 ， 然 后 再 由 SAIA 节 点 处 理 。 这 一 点 FC 自 身 是 无 法 做 到 
的 ， 而 需要 一 个 SCSI-AIA 协 议 转 换 器 〈 前 文 所 述 的 SR1216 心 片 ) 以 及 
一 个 SATA-FC 接 口 转换 器 (前 文 所 述 的 SATA-SCA2 转 换 板 ) 来 实现 。 


提示 : 对 于 物理 接口 转换 器 ， 有 一 点 需要 了 解 ， 即 SATA 盘 
只 有 一 个 数据 接口 ， 而 FC 磁盘 有 两 个 逻辑 数据 接口 (包含 在 
一 个 物理 SCA2 接 口中 ) ， 所 以 接口 转换 器 又 被 称 为 Port 
Multiplexer， 即 前 端 实现 两 个 逻辑 接口 (对 于 FC 来 讲 ) 或 者 
两 个 物理 PHY (对 于 SAS 来 讲 ) ， 而 后 端 连接 同一 个 SATA 物 
理 接 口 ， 转 换 器 将 前 端的 所 有 接口 都 映射 到 后 端的 一 个 接 
口 ， 并 且 在 前 端 虚 拟 出 两 个 物理 接口 地 址 以 用 于 前 端 网 络 的 
寻 址 操作 。 这 种 接口 转换 板 又 被 某 些 厂家 称 为 “Dongle”。 


SAS 作 为 一 个 交换 网 络 ， 那 么 理所当然 的 就 应 该 有 对 应 的 交换 媒 
介 ， 即 交换 机 ， 或 者 交换 心 片 。 让 我 们 来 看 一 张 PMC-Sierra 公 司 所 设 
计 的 一 款 36 端 口 SAS 交 换 世 片 (PM8387) 的 架构 ， 如 图 9-28 所 示 。 


图 9-28 SAS 交 换 芯 片 架 构 


图 中 XBAR 代 表 Crossbar， 即 这 款 心 片 内 包含 一 个 基于 Crossbar 架 
构 的 交换 矩阵 用 来 在 各 个 PHY 之 间 进 行 高 速 交 换 。XBAR 左 侧 和 连接 了 
36 个 PHY， 每 个 PHY 前 端 是 8/10b Serdes 〈 串 化 解 串 化 器 ) ， 由 于 数据 
在 心 片 内 部 都 是 并 行 传递 的 ， 到 心 片 外 部 之 前 都 需要 经 过 串 化 过 程 和 
8/10b 编 码 过 程 ， 而 从 心 片 外 部 到 内 部 的 数据 则 执行 相反 过 程 。SXL 表 


示 SAS Expander Link， 其 中 Expander 就 表示 SAS 交 换 必 片 ， 因 为 交换 
心 片 可 以 让 人 砍 多 节点 所 连接 并 且 通 信 ， 所 以 又 叫做 Expander， 即 扩展 
器 。 心 片 中 包含 的 另 一 个 部 件 为 一 个 32b 的 MIPS 核 心 处 理 器 ， 这 个 处 
理 器 执行 Firmware 以 实现 SES、SMP (下 文 描 述 ) 和 其 他 一 些 外 部 信 
号 (比如 指示 灯 、Debug 接 口 、 监 控 ) 处 理工 作 。XBAR 右 侧 为 各 种 信 
号 总 线 和 接口 。XBAR 中 的 Arbiter， 即 仲裁 器 ， 负 责 协调 各 个 PHY 之 
间 发 起 的 通信 并 控制 Crossbar 将 数据 交换 到 正确 的 目的 。 这 里 不 要 被 
其 名 称 所 误导 ，SAS 不 使 用 仲裁 共享 方式 ， 具 体 数 据 收发 方式 后 文 描 


9.4.2 ”SAS 链 路 层 


对 于 SAS 的 链 路 层 协议 内 容 ， 比 如 帧 的 组 成 结构 、 帧 同步 、 链 路 
错误 恢复 等 由 于 太 过 底层 ， 请 想 了 解 的 读者 自行 参考 SAS 协 议 文 本 
(大 部 分 帧 结构 都 与 FC 类 似 ) 。 这 里 只 简要 介绍 一 下 SAS 链 路 层 与 FC 
的 一 个 最 大 的 不 同 之 处 以 及 速率 适 配 方面 。 


SAS 在 链 路 层 使 用 面向 连接 的 交换 技术 。Initiator 向 Target 发 起 通 
信之 前 必须 建立 好 连接 ， 但 是 要 与 传输 层 的 端 到 端 连 接 相 区 别 开 
(SAS 的 传输 层 也 有 连接 ， 下 文 描述 ) 。SAS 链 路 层 的 连接 指 的 是 在 
一 个 SAS 网 络 内 的 两 个 PHY 的 通信 路 径 中 的 所 有 Expander 内 部 ， 都 将 
为 这 条 通信 保持 相应 的 资源 ， 比 如 Crossbar 和 矩阵 内 的 交换 路 径 。 某 个 
Initiator 和 Target 对 初次 收发 数据 时 ，Crossbar 上 的 Arbiter ， 或 者 叫 
Connection Manager 会 检测 并 且 在 Crossbar 内 新 建 一 条 路 径 ， 以 便 将 它 
们 之 间 的 数据 通过 恒定 的 路 径 发 送 到 下 一 条 Expander 的 端口 ， 下 一 条 
Expander 再 做 相同 的 动作 直到 数据 达到 最 终 Target。 连 接 是 在 每 个 PHY 
之 间 建 立 的 ， 如 果 使 用 宽 端 口 ， 则 每 个 PHY 之 间 都 会 为 对 应 的 OPEN 


请 求 建立 连接 ， 因 为 每 个 PHY 之 间 都 有 链 路 ， 所 以 需要 保留 对 应 的 资 
产 和 路 径 。 


具体 连接 发 起 和 结束 的 过 程 如 下 。 


(1) Initiator 端 的 链 路 层 首先 通过 PHY 接 口 向 其 连接 的 Expander 
发 起 一 个 OPEN 帧 ， 帧 中 携带 的 是 Target 端 PHY 的 SAS 地 址 。 


(2) 本 地 Expander 收 到 之 后 ， 首 先 返 回 AIP 帧 (Arbitration Im 
Progress) ， 这 期 间 ，Expander 会 为 这 个 请 求 分 配 资产。 由 于 Expander 
需要 维持 很 多 mitiator 和 Target 的 连接 ， 有 时 资产 不 够 的 话 ， 分 配 的 资 
源 会 相 冲 突 ， 需 要 根据 SAS 地 址 来 判断 连接 的 优先 级 以 便 有 限 分 配 高 
优先 级 连接 的 资源 ， 这 个 过 程 就 是 仲裁 ， 但 是 它 与 FCAL 的 仲裁 有 着 
本 质 的 不 同 。 


(3) Arbitration 成 功 之 后 ， 在 Expander 内 为 其 保留 恒定 资源 和 
Crossbar 路 径 ， 然 后 将 这 个 帧 路 由 到 Target 所 在 的 Expander， 途 中 经 过 
的 所 有 Expander 都 会 为 这 个 初始 连接 分 配 恒定 资源 和 路 径 。 


(4) Target 端 的 链 路 层 接 收 到 OPEN 请 求 之 后 ， 向 Initiator 端 返回 
一 个 OPEN_ACCEPT 帧 。 连 接 建立 。 


需要 关闭 连接 的 时 候 ，Initiator 端 发 送 CLOSE 帧 。 
图 9-29 所 示 为 连接 发 起 和 接收 期 间 的 步骤 。 
图 9-29 SAS 连接 发 起 和 接收 过 程 


对 于 适 配 不 同 速率 的 设备 ，SAS 的 链 路 层 通过 在 快速 链 路 上 插入 
对 应 长 度 的 ALIGN 兄 余数 据 来 保持 速率 适 配 ， 如 图 9-30 所 示 。 


图 9-30 SAS 的 速率 适 配 
9.4.3” SAS 网 络 层 


作为 一 个 网 络 ，SAS 当 然 也 需要 编 址 和 寻 址 。SAS 网 络 中 的 每 个 
节点 使 用 的 地 址 与 FC 网 络 类 似 ， 也 是 一 个 64b 长 度 的 定 长 地 址 ， 也 叫 
做 WWN; 但 是 与 FC Fabric 不 同 的 是 ，SAS 直 接 使 用 这 个 64b 地 址 来 路 
由 数据 包 ， 而 FC Fabric 则 使 用 另外 分 配 的 24b 的 Fabric ID 来 路 由 数据 
包 。 编 址 是 为 了 寻 址 ， 寻 址 就 需要 有 地 址 表 ， 或 者 叫做 路 由 表 。 每 个 
Expander 上 运行 着 一 种 协议 ， 用 来 执行 整个 系统 中 的 Expander 发 现 以 
及 路 由 条 目 学 习 ， 这 种 协议 叫做 SMP ， 全 称 为 Serial Management 


Protocol。 


我 们 首先 来 看 只 有 一 个 SAS 交 换 机 或 者 交换 心 片 (或 者 SAS 
Expander) 的 情况 下 ，SAS Expander 是 如 何 寻 址 的 。 熟 悉 IP 路 由 的 人 
很 容易 地 就 可 以 理解 ， 对 于 直接 连接 在 Expander 上 的 终端 节点 ， 就 属 
于 直 连 模式 ，Expander 在 获取 到 它们 的 地 址 之 后 ， 会 将 这 些 地 址 加 入 
路 由 表 ， 并 标明 路 由 条 目的 模式 属于 “D” 类 型 ， 即 Direct。 如 图 9-31 所 
示 ， 一 个 12 端 口 的 SAS Expander 上 接 入 了 4 块 SAS 磁 盘 ，SAS 磁 盘 为 终 
端 设备 ，Expander 会 将 这 4 条 记录 收录 到 路 由 表 中 ， 并 标明 为 D 类 型 。 
中 的 SMP 表 示 Serial Management Protocol，SMP 在 这 里 是 一 个 抽象 的 
对 象 ， 它 作为 一 个 实体 路 由 协议 和 管理 程序 运行 在 每 个 Expander 上 ， 
所 以 这 里 用 它 来 代表 每 个 Expander。 由 于 目前 的 Expander 是 系统 中 唯 
一 的 一 个 ， 所 以 编号 为 SMP0， 并 且 对 应 了 一 个 虚拟 的 PHY12 (第 13 个 
PHY 并 不 存在 ) 。 


图 9-31 SAS 的 寻 址 


此 时 ， 我 们 再 增加 一 个 Expander， 将 这 两 个 Expander 级 联 起 来 ， 
并 且 在 第 二 个 Expander 上 也 连接 4 块 SAS 人 磁盘。 此 时 的 路 由 表 如 图 9-32 
所 示 。 


图 9-32” SAS 级 联 时 的 路 由 表 


上 图 中 出 现 了 一 种 新 的 路 由 类 型 ，T 类 型 ， 意 思 是 Table Routes， 
暗 指 这 种 类 型 的 路 由 条 目 是 通过 路 由 协议 学 习 而 得 来 的 ， 并 非 自 己 本 
地 直 连 的 路 由 条 目 。SMP1 表 示 新 加 入 的 Expander 本 身 。 然 而 ， 是 否 觉 
得 缺 了 点 什么 呢 ? 是 的 ， 磁 盘 和 磁盘 之 间 是 不 会 通信 的 ， 磁 盘 只 是 作 
为 Target 端 来 等 待 mitiator 端 来 发 起 指令 。 很 显然 Expander 不 是 这 个 
Initiator。 我 们 需要 向 这 个 由 两 交换 机 《〈 心 片 ) 组 成 的 网 络 中 添加 一 个 
SAS Initiator， 如 图 9-33 所 示 。 


图 9-33 SAS Initiator 的 引入 


上 图 中 ，Expander0 的 路 由 表 中 增加 了 一 个 条 目 ， 即 它 所 连接 的 有 
一 个 直 连 终端 ，HOST0 上 的 SAS 适 配 卡 ， 路 由 类 型 为 "D，S”，D 为 直 
连 类 型 。S 即 Subtractive， 意 义 为 默认 路 由 ， 即 ， 如 果 某 个 数据 帧 无 法 
从 D 或 者 T 类 型 的 路 由 条 目 中 找到 目的 地 址 ， 那 么 统统 向 S 类 型 路 由 条 
目 对 应 的 PHY 接 口 转发 出 去 。SAS 卡 和 Expander0 之 间 同 样 运行 着 SMP 
协议 ，Expander0 会 学 习 到 SAS 卡 为 mnitiator 端 ， 所 以 ，Expander1 也 会 
学 习 到 这 条 路 由 ， 但 是 Expander1 的 路 由 表 中 的 默认 路 由 显然 应 该 设置 
为 SMP0， 即 将 具体 路 由 未 知 的 数据 帧 从 连接 SMP0 的 PHY 转 发 出 去 。 
另外 ，Expanderl 也 会 同时 学 习 到 HOST0 路 由 条 目 ， 但 是 不 将 其 作为 S 
类 型 ， 因 为 S 类 型 路 由 存在 的 意义 是 可 以 在 路 由 表 中 不 保存 HOST 端的 
条 目 ， 在 主机 数量 很 大 的 时 候 ， 有 利于 保证 路 由 效率 。 


SAS 协 议 规 定 ， 可 以 由 多 个 Expander 任 意 连 接 而 组 成 一 个 SAS 网 
络 ， 但 是 这 个 网 络 可 以 接 入 的 最 大 的 终端 节点 不 能 超过 128 个 ， 这 个 一 
级 SAS 网 络 中 所 有 的 Expander 组 成 一 个 Expander set。 如 果 要 达到 更 大 
的 接 入 容量 ， 需 要 一 个 核心 Expander， 这 个 Expander 可 以 最 多 具有 128 
个 PHY， 可 以 接 入 最 多 128 个 上 述 的 Expander Set。 此 核心 Expander 称 
为 “Fanout Expander”， Expander Set 中 的 Expander 称 为 “Edge 
Expander”。 这 样 ， 最 大 的 SAS 网 络 中 可 接 入 的 总 容量 为 128x128 再 减 
掉 Expander 互 联 所 耗费 的 端口 数 。 图 9-34 所 示 为 Fanout Expander 与 
Edge Expander 的 互联 示意 图 。Fanout Expander 作 为 整个 SAS 网 络 的 核 
心 ， 其 上 不 允许 再 有 S 类 型 的 路 由 ， 只 能 有 DD 和 TT 类 型 的 路 由 。Edge 
Expander 连 接 Fanout Expander 的 PHY， 对 应 这 个 PHY 的 路 由 皆 为 S$ 类 型 
路 由 ， 因 为 Edge Expander 只 能 将 未 知 条 目 转 发 给 核心 。 


图 9-34 ”Fanout 与 Edge 的 互联 
每 个 独立 的 SAS 网 络 被 称 为 一 个 Domain。 
9.4.4 ”SAS 传 输 层 和 应 用 层 


SAS 网 络 目前 有 3 种 应 用 协议 : 一 是 SSP (Serial SCSI Protocol) ， 
二 是 STP (SATA Tunneling Protocol) ， 三 是 SMP (Serial Management 
Protocol) 。 说 它们 为 应 用 层 协 议 既 恰当 又 不 恰当 ， 因 为 相对 于 SAS 本 
身 来 讲 ， 它 们 确实 是 处 于 应 用 层 ， 但 是 相对 于 整体 系统 来 讲 ， 它 们 又 
都 处 于 传输 层 (SSP 和 STP) 或 网 络 层 (SMP) 。 这 三 种 协议 在 传输 数 
据 之 前 都 需要 首先 由 Initiator 向 Target 端 发 起 连接 请 求 ， 这 种 上 层 的 连 
接 请 求 也 同时 被 映射 到 了 链 路 层 ， 链 路 层 也 会 建立 相应 的 连接 ， 如 前 
文 所 述 。 


1. SSP 


SSP 是 一 套用 于 在 Initiator 和 Target 之 间 传 输 SCSI 指 令 的 传输 保障 协 
议 ， 与 FC 中 的 FCP 层 充当 相同 的 角色 。 我 们 知道 SCS13 规 范 已 经 将 
SCSI 上 层 指 令 与 底层 传输 系统 相 分 离 ，SSP 在 此 就 作为 SCSI 指 令 的 传 
输 系统 ，SSP 会 保障 SCSI 指 令 和 数据 以 及 对 指令 的 响应 成 功 地 被 传送 
和 接收 。 图 9-35 所 示 为 SSP 的 帧 结构 。 图 9-36 所 示 为 SSP 的 帧 类 型 ， 包 
含 COMMAND、TASK、XFER_RDY、DATA、RESPONSE 五 种 类 
型 。 


图 9-35 ”SSP 的 帧 结构 图 9-36 ”SSP 的 帧 类 型 


图 9-37 所 示 为 SSP 执 行 TSAK 管 理 任务 时 所 发 送 的 指令 和 返回 流程 
步骤 。 图 9-38 所 示 为 SSP 发 起 SCSI 指 令 时 的 步骤 。 


图 9-37 SSP 设备 控制 指令 步骤 图 9-38 SSP 发 起 SCSI 指 令 时 的 步骤 


图 9-39 所 示 为 SSP 执 行 SCSI Read 指 令 时 的 步骤 。 图 9-40 所 示 为 SSP 
执行 SCSI Write 指令 时 的 步骤 。 


图 9-39 SSP 执 行 SCSI Read 指 令 时 的 步骤 图 9-40 ”SSP 执 行 SCSI Write 指令 时 的 步骤 
2. STP 
STP 是 一 套用 于 在 Initiator 和 Target 之 间 传 送 SATA 指 令 的 传输 保障 


协议 。 由 于 SATA 协 议 与 SCSI 协 议 完 全 是 两 套 上 层 协 议 ， 不 仅 指令 描述 
方式 和 结构 不 同 ， 而 且 在 底层 传输 的 控制 上 也 不 同 ， 所 以 STP 就 是 将 


SATA 协 议 的 底层 传输 逻辑 拿 了 过 来 ， 并 将 其 承载 于 SAS 底 层 (物理 层 
十 链 路 层 十 网 络 层 ) 进行 传输 。 其 实 这 里 说 SATA Tunneling 也 具有 一 
定 的 误导 性 ， 可 能 会 误 认 为 SCSI 就 不 需要 Tunneling。 其 实 不 管 是 SCSI 
还 是 SATA， 它 们 都 是 以 不 同 程度 的 Tunnel 十 Map 的 方式 被 承载 于 SAS 
网 络 上 传递 。 可 以 参考 本 书后 面 章节 来 了 解 协 议 之 间 的 相互 作用 问 
题 。 图 9-41 所 示 为 STP 执 行 SATA 指 令 时 的 步骤 。 


图 9-41 STP 执行 SATA 指 令 时 的 步 桑 
3. SMP 


SMP 是 一 种 对 SAS 网 络 内 所 有 Expander 进 行 管理 的 协议 ， 包 括 
Expander 拓 扑 发 现 和 路 由 协议 。 由 Initiator 端 建立 连接 后 向 Target 端 发 
起 查询 请 求 ，Target 只 能 响应 Initiator 的 查询 而 不 能 主动 向 Initiator 发 送 
消息 。 这 里 大 家 可 能 有 个 疑问 ， 即 不 管 是 SSP 中 的 Target 还 是 STP 中 的 
Target， 它 们 都 是 有 实在 的 物理 存在 的 东西 来 对 应 的 ， 比 如 SSP 的 
Target 就 是 某 PHY 后 面 的 SAS 人 磁盘 ，STP 的 Target 就 是 某 PHY 后 面 的 
SATAC 盘 。 那 么 SMP 中 的 Target 到 底 是 什么 呢 ? 上 文 讲 SAS 路 由 表 时 曾 
经 提 到 过 一 个 Expander 上 的 虚拟 PHY， 对 应 了 一 个 SMP 设 备 ， 其 实 
SMP 的 Target 就 是 整个 Expander 本 身 ，Expander 接 收 到 针对 这 个 Target 
的 消息 ， 就 会 自己 做 处 理 而 不 是 转发 到 其 他 某 个 PHY。 图 9-42 所 示 为 
SMP 的 请 求 和 查询 步骤 。 


图 9-42” ”SMP 的 请 求 和 查询 步 又 


9.4.5 SAS 的 应 用 设计 和 实际 应 用 示例 


SAS Expander 心 片 有 多 种 Phy 接 口 数 量 可 供 选 择 ， 比 如 16/24/32/36 
等 。 提 供 不 同 的 Phy 数 量 是 为 了 满足 磁盘 阵列 厂商 所 设计 的 不 同 盘 位 
的 扩展 柜 。 每 个 SAS 磁 盘 扩展 柜 里 面 基本 上 有 两 个 SAS Expander， 这 
两 个 Expander 各 自 连 接 到 这 个 柜子 中 的 所 有 SAS 磁 盘 ， 每 个 SAS 盘 两 个 
SAS Phy。 这 两 个 Expander 还 分 别 要 连接 到 上 行 和 下 行 的 其 他 扩展 柜 或 
者 机 头 ， 最 顶 上 是 机 头 ， 机 头 里 也 要 有 Expander (做 Table Routing) ， 
用 来 连接 SAS 控 制 器 心 片 以 及 扩展 柜 里 的 Expander。 机 头 中 的 Expander 
相当 于 一 个 总 桥 ， 总 桥 再 分 别 出 4 个 Phy 连 接 到 上 行 外 部 主机 和 下 行 扩 
展柜 中 的 Expander，12 盘 位 的 可 以 估算 它 的 扩展 柜 单 片 SAS Expander 
心 片 接口 规格 : 12 十 4x2 三 20 口 心 片 ，24 盘 位 的 则 使 用 36Phy 的 SAS 
Expander 心 片 扩 展柜 与 扩展 柜 之 间 用 SAS 线 统 连 起 来 ， 一 般 都 是 4 个 
Phy 并 联 的 宽 端口 。 


如 图 9-43 所 示 ， 在 磁盘 扩展 柜 中 使 用 SAS Expander 而 不 是 FC Loop 
Switch 心 片 ， 其 他 设计 保持 相同 ， 那 么 一 款 SAS 扩 展柜 就 被 打造 出 来 
了 。 多 个 扩展 柜 通 过 Expander 间 的 级 联 就 可 以 扩大 到 比较 可 观 的 容 
量 。 主 机 接口 以 及 Expander 间 接口 都 使 用 4X 宽 端口 以 保持 级 联 带 宽 ， 
这 样 ， 系 统 否 吐 量 上 也 可 以 保持 高 水 准 。 总 体 来 讲 ，SAS 上 FC 实惠 、 
量 足 。 


图 9-43” SAS 控制 器 


如 图 9-44 所 示 为 HDS 公 司 AMS2000 系 列 磁 盘 阵 列 的 后 端 架构 图 ， 
很 明显 它 使 用 了 PMC 公 司 的 Expander 心 片 。 


图 9-44 AMS2000 的 控制 器 后 端 


9.4.6 ”SAS 目 前 的 优势 和 面临 的 挑战 


1. SAS 目 前 相对 于 FC 的 优势 


SAS 能 够 使 用 宽 端 口 来 提供 较 高 的 带宽 ， 这 一 点 已 经 可 以 与 8Gb 
FC 接口 媲美 并 且 超 出 了 后 者 50% 的 速率 。 另 外 ，SAS 使 用 STP 协 议 来 
承载 SATA 协 议 ， 使 得 SAS 和 SATA 人 磁盘 可 以 同时 存在 于 同一 个 存储 系 
统 中 ， 甚 至 可 以 混 插 在 同一 个 磁盘 柜 中 ， 这 一 切 都 不 需要 上 层 做 过 多 
的 更 改 ， 只 要 在 Initiator 端 的 上 层 协 议 处 理 模块 中 加 入 ATA 支 持 即 可 ， 
或 者 统一 使 用 SCSI， 然 后 在 其 下 层 增 加 一 个 SCSI-ATA 翻 译 层 。FC 在 
理论 上 当然 也 可 以 被 开发 承载 SATA 协 议 ， 但 是 目前 FC 尚未 提供 类 似 
FCP 的 映射 层 来 适 配 SAITA 协 议 。 


SAS 相 对 于 FC 来 说 ， 其 成 本 较 低 ， 体 现在 SAS Expander 和 SAS 磁 
盘 上 。 目 前 一 片 12 端 口 3Gb/s 的 Expander 芯 片 的 价格 大 概 在 35 美 元 左 
右 。 而 SAS 硬 盘 在 盘 片 、 转 速 、 机 械 臂 、 磁 头等 的 设计 参数 和 用 料 上 
与 高 端 FC 硬 盘 相同 ， 唯 一 的 区 别 就 在 于 外 部 接口 使 用 的 协议 不 同 ， 所 
以 设计 也 不 相同 ， 但 是 SAS 磁 盘 却 比 FC 磁 盘 廉价 。 由 于 磁盘 主要 的 瓶 
颈 在 于 平均 寻 道 时 间 和 平均 旋转 延迟 以 及 转速 ， 加 上 存储 控制 器 对 后 
端 所 有 磁盘 的 Raid 化 和 虚拟 化 之 后 ， 实 际 使 用 的 时 候 ， 在 外 部 接口 速 
率 相差 不 大 的 情况 下 ， 磁 盘 接 口 速率 对 系统 整体 性 能 影响 不 大 。 


2. SAS 目 前 面临 的 挑战 


SAS 的 一 个 最 大 挑战 是 其 连接 线 统 。 目 前 的 产品 都 是 使 用 铜 统 ， 
这 就 导致 其 传输 距离 非常 受 限 ， 通 常 最 大 距离 被 限制 在 10 米 。 而 且 线 
缆 较 粗 较 硬 ， 不 利于 布线 。 这 种 限制 直接 限制 了 SAS 的 发 展 。 比 如 实 
现 前 端 网 络 化 的 时 候 ， 多 人 台 主 机 与 多 台 磁 盘 阵 列 都 需要 连接 到 SAS 交 
换 机 (Expander) 上 ， 而 由 于 较 粗 较 短 较 硬 的 线 缆 的 限制 ，SAS 交 换 


机 就 显得 很 塌 熔 ， 所 以 SAS 交 换 机 也 一 直 没 有 实际 产品 。 这 些 因素 导 
至 了 SAS 目前 被 应 用 的 范围 非常 窄 ， 比 如 ， 普 遍 应 用 于 主机 本 地 内 置 
磁盘 。 在 用 于 磁盘 阵列 设计 的 时 候 ， 主 要 使 用 在 后 端 ， 而 前 端 依然 为 
FC， 比 如 HDS 公 司 AMS2000 产 品 。 但 是 也 有 一 些 前 端 后 端 都 使 用 SAS 
的 产品 ， 但 是 这 些 产 品 均 被 定位 于 低 端 ， 比 如 IBM DS3200， 由 于 前 端 
只 能 连接 一 台 或 者 两 台 主 机 (一 个 或 两 个 SAS 宽 端口 ) ， 其 扩展 性 被 
限制 ， 所 以 只 能 被 定位 到 低 端 。 


SAS 的 另外 一 个 挑战 是 其 单 PHY 的 速率 ， 当 前 普遍 使 用 的 SAS 接 
口 磁盘 速率 为 单口 3Gb/s， 相 对 于 FC 的 4Gb/s 来 讲 还 是 相差 了 25%。 但 
是 ， 目 前 6Gb/s 的 单 PHY 速 率 刚 刚 露头 并 有 了 实际 产品 ， 令 人 欣慰 的 
是 ， 在 尚未 有 8Gb/s FC 接口 的 磁盘 产品 出 现 之 前 ， 已 经 出 现 了 SAS 
6Gb/s 接 口 的 磁盘 ， 这 充分 说 明 SAS 的 发 展 是 飞快 的 ， 而 FC 又 处 于 了 一 
种 是 走 是 留 还 需要 观望 的 状态 之 中 。 而 SAS 下 一 个 目标 是 单 PHY 速 率 
12Gb/s。 照 SAS 目 前 的 发 展 速 度 ，FC 的 卫冕 之 路 将 会 更 加 艰难 。 


不 过 ， 在 2010 年 新 发 布 的 存储 系统 比如 HDS VSPRIBM Storwize 
V7000， 以 及 包括 EMC 的 新 一 代 CX 存 储 系统 中 ，FC 磁 盘 已 经 悄悄 地 从 
这 些 存储 系统 的 支持 列表 中 消失 了 。 但 是 存储 前 端 供 主机 访问 的 网 络 
类 型 ，FC 依 然 处 于 主导 地 位 。 相 信和 在 光 连 接 的 SAS 出 现 之 后 ， 前 端 也 
很 有 可 能 彻底 被 SAS 革 掉 。FC 革 掉 了 SCSI，SAS 又 把 FC 从 后 端 革 掉 
了 


9.5 ”中 高 端 磁盘 阵列 整体 架构 简 析 


图 9-45 所 示 为 NetApp 的 FAS6000 系 列 实物 图 ， 其 中 间 部 分 为 两 个 
机 头 ， 其 余 均 为 扩展 柜 。 


图 9-45 ”NetApp 公 司 FAS6070 磁 盘 阵 列 


中 高 端 盘 阵 一 般 都 会 配 有 两 个 控制 器 ， 不 但 可 以 作为 见 余 ， 而 且 
可 以 分 担 后 端 不 同 的 环 路 。 图 9-46 是 一 个 典型 的 双 控 制 器 ， 且 前 后 端 
均 为 FC 架构 的 磁盘 阵列 拓扑 示意 图 。 


图 9-46 所 示 的 机 头 《控制 器 所 在 的 机 柜 ) 中 不 包含 磁盘 。 实 际 产 
品 中 ， 有 些 由 于 控制 器 主板 比较 小 ， 机 头 本 身 也 可 以 放 入 若干 磁盘 。 
但 是 有 些 高 端 产 品 的 控制 器 主板 做 得 比较 大 ，IO 适 配器 比较 多 ， 再 加 
上 电源 模块 和 风扇 模 块 ， 造 成 机 头 内 部 空间 不 足以 放下 多 余 的 磁盘 。 


图 9-46 ”全 FC 架构 磁盘 阵列 


如 图 9-46 所 示 ， 每 个 控制 器 上 有 4 个 前 端 FC 接口 和 4 个 后 端 FC 接 
口 。 每 个 后 端 FC 接 口 可 以 连接 到 一 个 FC-AL 环 路 。 为 了 宛 余 ， 两 个 控 
制 器 的 后 端 FC 端 口 必须 连接 到 相同 的 扩展 柜上 ， 所 以 这 台 盘 阵 可 以 连 
接 的 FC-AL 的 Loop 总 容量 为 4 个 。 


其 实 ， 磁 盘 阵 列 控制 器 本 身 就 是 一 个 现代 计算 机 系统 ， 它 由 IO 设 


备 、 运 算 器 、 和 存储 器 、 软 件 组 成 。 


La 


"IO 设备 : 包括 后 端 FC 适 配器 、 前 端 FC 适 配器 、 管 理 用 COM 
口 、 以 太 网 口 、LCD 液 晶 显示 板 、 指 示 灯 以 及 各 种 适 配 卡 。 控 
制 器 从 后 端的 磁盘 上 提取 数据 ， 经 过 虚拟 化 之 后 ， 发 送 给 前 端 
的 主机 。 控 制 器 从 前 端的 FC 端口 处 接收 主机 发 送 的 指令 和 数 
据 ， 经 过 去 虚拟 化 运算 之 后 ， 通 过 后 端 FC 端 口 写 入 扩展 柜 中 的 
磁盘 。 这 就 是 控制 器 工作 的 基本 原理 。 

= 运算 器 : 完成 上 述 虚 拟 化 和 去 虚拟 化 过 程 所 需要 的 运算 单元 。 
控制 器 可 以 选用 通用 CPU 来 作为 运算 器 ， 也 可 以 选用 或 辅 以 专 


用 ASIC 必 片 来 完成 运算 。 随 着 现代 盘 阵 系统 虚拟 化 功能 的 日 益 
强大 ， 软 件 逻 辑 越 发 复杂 起 来 ， 通 用 CPU 加 软件 就 成 了 普遍 使 
用 的 组 合 。 至 于 ASIC 等 硬件 只 是 作为 一 种 IO 设备 而 存在 ， 辅 助 
CPU 进行 专用 逻辑 的 运算 ， 并 把 结果 返回 给 CPU， 目 的 是 将 
CPU 从 这 种 专用 运算 中 解脱 出 来 。 

存储 器 : 包括 高 速 缓存 存储 器 和 外 部 低速 永久 存储 器 。 现 代 中 
高 端 盘 阵 几乎 都 是 使 用 带 ECC 错 误 纠 正 的 DDR SDRAM 作 为 高 
速 缓 存 。 这 个 高 速 缓存 既 充当 虚拟 化 软件 运行 时 的 空间 ， 又 充 
当 两 端 数 据 流 的 缓存 空间 。 

软件 : 由 于 虚拟 化 引擎 越 来 越 强 大 ， 新 的 功能 和 概念 层 出 不 
穷 ， 单 纯 使 用 精简 的 内 核 和 精简 的 代码 已 经 远 远 不 能 满足 功能 
需求 和 开发 难 易 度 需求 。 所 以 目前 很 多 磁盘 阵列 控制 器 都 是 基 
于 某 种 操作 系统 内 核 的 ， 比 如 Linux、VxWorks、Windows、 
UNIX 等 。 操 作 系 统 不 但 提供 了 硬件 管理 层 ， 还 提供 了 方便 的 
API。 这 些 层次 的 划分 使 开发 人 员 只 需要 专心 设计 上 层 虚 拟 化 
程序 而 不 是 全 盘 兼 顾 。 盘 阵 的 操作 系统 和 应 用 程序 可 以 被 存放 
在 后 端的 磁盘 上 ， 也 可 以 用 专门 的 外 部 存储 设备 存放 。NetApp 
的 FAS 系 列 产品 就 是 用 一 块 Flash 卡 来 存放 其 操作 系统 和 应 用 程 
序 的 。 


图 9-46 的 下 方 是 一 个 扩展 柜 ， 其 中 插 了 16 块 FC 接口 的 磁盘 。 左 边 
控制 器 的 第 一 个 FC 接口 通过 光纤 连接 到 了 扩展 柜 左 边 的 接口 (一 般 为 
SFP 接 口 ) ， 线 路 将 扩展 柜 内 所 有 16 块 磁盘 串 接 起 来 形成 了 一 个 


Loopo 
盘 呢 ? 


然而 ，16 块 磁盘 是 远 远 不 够 的 ， 怎 么 在 这 个 Loop 中 接 入 更 多 磁 
肯定 是 要 增加 扩展 柜 的 数量 ， 还 必须 将 多 个 扩展 柜 中 的 磁盘 都 


串 接 到 一 个 Loop 上 。 所 以 在 每 个 扩展 框 的 左边 接口 板 上 都 有 两 个 SFP 


光纤 接口 ， 一 个 进 ， 一 个 出 。 这 样 就 可 以 把 多 个 扩展 柜 中 的 磁盘 都 串 
在 一 起 形成 一 个 Loop， 接 入 控制 器 的 一 个 后 端 FC 接 口 。 


扩展 柜 右边 的 接口 板 与 左边 构造 和 连接 方法 相同 ， 只 不 过 右边 的 
接口 需要 连接 到 机 头 右 边 的 控制 器 上 ， 形 成 元 余 。 这 样 一 旦 左边 的 控 
制 器 故障 ， 右 边 的 控制 器 可 以 立即 接管 所 有 工作 。 


提示 : 扩展 柜 虽然 说 通常 是 一 个 JBOD， 但 是 随 着 SBOD 技 术 
的 普及 ， 扩 展柜 也 变 得 复杂 起 来 。SBOD 技 术 需 要 一 系列 智 
能 心 片 。 柜 子 中 的 磁盘 首先 要 插 到 一 个 背 板 上 ， 背 板 上 提供 
了 一 系列 的 SCA2 型 母 槽 。 在 背 板 上 一 定 有 某 种 接口 来 连接 这 
一 系列 的 必 片 。 通 常 都 是 将 这 些 功能 心 片 单独 做 到 一 个 模块 
上 ， 然 后 将 这 个 模块 与 背 板 对 接 ， 进 而 与 磁盘 接口 对 接 通 
言 。 这 样 ， 如 果 为 了 实现 更 多 的 功能 ， 可 以 只 通过 更 换 模 块 
来 升级 ， 而 不 用 大 动 干 戈 更 换 整 个 背 板 。 所 以 目前 几乎 所 有 
厂家 的 盘 阵 扩展 柜 都 采用 这 种 设计 ， a 
个 互 为 元 余 的 模块 ， 它 们 都 连接 到 了 同一 个 磁盘 背 板 上 。 


9.5.1 IBM DS4800 和 DS5000 控 制 器 架构 简 析 
1.DS4800 控 制 器 架构 简介 


在 图 9-47 中 可 以 看 到 两 个 供电 模块 、 两 个 控制 器 模块 和 一 个 背 板 
模块 ， 两 个 控制 器 都 连接 到 了 背 板 上 。 


图 9-47 DS4800 机 头 三 维 示 意图 


图 9-48 是 IBM DS4800 磁 盘 阵 列 的 双 控 制 器 机 头 的 背面 接口 图 。 
中 的 Drive-side connections 代 表 这 些 FC 端 口 是 用 来 连接 磁盘 扩展 柜 的 ， 


Host-side connections 代 表 这 些 FC 端 口 是 用 作 前 端 主机 的 。 可 以 看 到 上 
下 两 个 控制 器 是 互 为 元 余 的 ， 它 们 同时 插 在 机 头 的 背 板 上 ， 之 间 有 专 
门 的 链 路 进行 通信 以 交互 各 自 的 信息 。 


图 9-48 DS4800 机 头 后 视图 


图 9-49 是 用 这 人 台 机 头 挂 接 16 个 扩展 柜 ， 并 且 全 拖 余 的 架构 图 。 我 
们 可 以 看 到 ， 每 个 控制 器 的 后 端 接口 都 连接 了 4 个 扩展 柜 ， 这 4 个 扩展 
柜 中 的 磁盘 同时 位 于 主 控制 器 的 一 个 Loop 和 备用 控制 的 一 个 Loop 上 。 


图 9-49 ”DS4500 连 接 16 个 扩展 柜 


一 旦 机 关上 的 主 控制 器 发 生 故 障 ， 备 份 控 制 器 可 以 立即 接管 所 有 
工作 ， 继 续 执行 IO 请求 。 因 为 备份 控制 器 与 主 控制 器 一 样 与 所 有 扩展 
柜 都 有 和 连接 。 


同样 ,一 旦 某 个 扩展 柜 发 生 故 障 ， 比 如 电源 故障 ， 整 个 环 路 从 一 
方 来 看 ， 是 被 断 开 的 。 但 是 ， 其 他 扩展 柜 依然 可 以 被 访问 到 ， 办 法 就 
是 通过 机 头 上 的 备用 控制 器 从 尾部 访问 被 故障 扩展 柜 隔断 的 底下 的 扩 
展柜 ， 同 时 主 控 制 器 从 头 部 访问 上 面 的 控制 器 。 


图 9-50 所 示 为 每 个 扩展 柜 组 中 都 有 一 个 扩展 柜 故 障 ， 但 是 剩余 的 
扩展 柜 依然 可 以 继续 使 用 ， 方 法 就 是 让 主 控制 器 和 备用 控制 器 同时 工 
作 。 


图 9-50 ”扩展 柜 整 柜 故障 时 的 拓扑 


可 以 发 现 ， 如 果 某 个 Raid Group 的 磁盘 全 部 在 一 个 扩展 柜 中 ， 那 
么 一 旦 这 个 扩展 柜 故 障 ， 这 个 Raid Group 将 不 可 用 。 所 以 控制 器 为 了 
获得 高 度 可 靠 性 ， 一 般 会 尽量 跨 扩 展柜 做 Raid Group， 即 一 个 Raid 


Group 中 的 所 有 磁盘 各 属于 不 同 的 扩展 柜 。 这 样 ， 即 使 一 个 扩展 柜 失 
效 ， 那 么 对 于 一 个 Raid Group 来 说 ， 只 是 失去 一 块 磁盘 而 不 是 全 部 失 
效 ，Raid Group 还 可 以 继续 工作 。 目 前 几乎 所 有 中 高 端 盘 阵 都 提供 这 
种 支持 。 


图 9-51 是 DS4800 盘 阵 控制 器 内 部 简单 架构 图 。 
图 9-51 DS4800 机 头 控制 器 简单 架构 图 


从 图 中 可 以 看 到 如 下 部 件 : FC Chip、Loop Switch、 Channel 及 
Interconnect Module。 其 中 ，FC Chip 是 处 理 FC 协 议 逻 辑 的 主要 心 片 ， 
全 部 的 FC 逻 辑 都 在 此 必 片 内 实现 。Loop Switch 在 这 里 可 以 使 用 上 文 所 
述 的 PBC 一 类 的 心 片 ， 当 然 也 可 以 使 用 交换 架构 的 心 片 。 其 后 端 连 接 
两 个 FC 接口 ， 前 端 分 别 连 接 位 于 两 个 控制 器 上 的 两 块 FC Chip， 这 样 
做 的 目的 是 为 了 充分 匈 余 。Channel 的 意思 就 是 指 连 接 到 一 个 Loop 
Switch 上 的 两 个 FC 端口 ， 两 个 端口 组 成 一 个 Channel， 没 有 实际 物理 意 
义 。Interconnect Module 其 实 是 一 个 背 板 ， 用 于 控制 器 之 间 的 通信 。 


ASIC 心 片 负责 数据 在 前 端 和 后 端的 流动 ， 还 负责 用 于 Raid 5/6 的 
XOR 运 算 ， 由 于 其 XOR 运 算 引 擎 被 固化 于 ASIC 电 路 中 ， 所 以 运算 速度 
远 快 于 使 用 普通 X86 CPU。 控 制 器 中 还 有 一 个 Intel Xeon CPU (Control 
Processor) ， 这 个 CPU 主要 用 来 运行 VxWork 操 作 系统 ， 一 些 上 层 功能 
软件 比如 Remote Mirror、Snapshot (FlashCopy) 以 及 其 他 总 控 程 序 比 
如 监控 、 用 户 接口 等 ， 上 皆 运 行 于 VxwWork 操 作 系 统 内 ， 由 Control 
Prosessor 负 责 执 行 。 控 制 器 为 ASIC 与 Control Prosessor 各 单独 配备 了 
RAM。 


推论 : 假设 某 一 时 刻 ， 左 边 控制 器 下 方 那个 FC Chip 失 效 ， 
则 控制 器 A 的 4 号 FC 接口 与 这 个 Chip 的 通路 便 会 断 掉 。 此 时 只 
能 通过 控制 器 B 的 1 号 FC 接口 访问 最 左边 的 4 个 扩展 柜 。 查 看 
一 下 连 线 ， 可 以 发 现 控制 器 B 的 1 号 FC 接口 其 实 是 通过 
Interconnect Module 连 接 到 了 控制 器 A 的 上 面 的 FC Chip。 

提示 : 所 以 ， 最 终 数据 通过 控制 器 B 右 边 的 Loop Switch 流 向 
Interconnec Module， 然 后 流 到 控制 器 A 上 面 的 FC Chip。 也 就 
是 说 ， 最 终 达 到 了 同一 个 控制 器 内 部 两 个 FC Chip 之 间 的 元 余 
备份 。 而 此 时 对 前 端 主机 来 说 并 没有 影响 ， 主 机 还 是 连接 控 
制 器 A 来 读 写 数据 。 同 样 ， 如 果 控 制 器 A 上 的 某 个 Loop 
Switch 失效 ， 则 数据 全 部 通过 控制 器 B 对 应 的 Loop Switch 流 
向 Interconnect Module， 最 后 还 是 流 回 到 控制 器 A， 对 主机 并 
没有 影响 。 

但 是 ， 如 果 同 一 个 控制 器 上 的 两 个 FC Chip 或 两 个 Loop 
Switch 都 失效 了 ， 甚 至 整个 控制 器 故障 了 ， 那 么 所 有 IO 访 问 
就 都 要 转移 到 另外 的 一 个 控制 器 上 。 此 时 ， 对 主机 端 就 会 
生 影 响 ， 需 要 多 路 径 软件 和 盘 阵 端 配合 参与 故障 切换 的 动 
作 。 


实际 上 ，DS4800 的 控制 器 不 一 定 是 上 述 的 切换 模式 。 但 是 在 理论 
上 ， 所 有 产品 的 设计 都 应 该 尽量 不 切换 控制 器 ， 因 为 切换 控制 器 会 对 
主机 端 造 成 影响 。 


图 9-52 为 DS4800 扩 展柜 连接 示意 图 。 
图 9-52 ”DS4800 扩 展柜 连接 通路 示意 图 


图 9-53 是 DS4800 控 制 器 的 内 部 详细 架构 图 。 


图 9-53 ”DS4800 控 制 器 详细 架构 图 
说 明 如 下 : 


" 2.4 GHz Xeon processor 运 行 Vxworks 实 时 操作 系统 。 

= 每 个 控制 器 2、4、8GB 数 据 缓存 RAM 一 一 数据 专用 。 

" 每 个 控制 器 512MB RAM 系 统 缓存 一 一 操作 系统 运行 内 存 。 
" XOR ASIC Engine 专 用 心 片 ， 硬 件 RAID 运 算 引 掌 。 

sa 64b/133MHz 一 一 1GB/s 带 宽 的 PCIX 总 线 。 


2。DS5000 控 制 器 架构 简介 


2008 年 IBM 发 布 了 新 一 代 的 中 端 传统 磁盘 阵列 系统 DS5000 系 列 。 
其 基本 架构 设计 与 DS4000 系 列 大致 相 同 ， 但 是 在 总 线 速 度 和 数量 方面 
成 倍 提升 ， 直 接 就 导致 了 整体 吞吐 量 飙 升 。DS4000 时 代 使 用 PCI-X 作 
为 数据 IO 总 线 ， 而 且 前 后 端 各 4 个 4Gb (1.6GB/s) 速率 的 FC 端口 各 共 
享 一 条 PCI-X (1GB/s) 总 线 ， 直 接 导致 汝 贷 ， 系 统 处 理 能 力 受到 很 大 
限制 。DS5000 时 代 彻底 解脱 了 FC Chip 的 窘境 ， 每 个 FC Chip 独 享 一 条 
PCIE 8X (2GB/s) 总 线 直 连 到 核心 ASIC， 每 个 FC Chip 管 控 4 个 4Gb 的 
FC 接口 ， 加 之 每 控制 器 的 4 个 4 口 无 阻塞 交换 的 Loop Switch， 这 样 ， 系 
统 各 处 都 不 存在 瓶颈 。 系 统 吞吐 量 的 提升 ， 需 要 更 大 容量 的 缓存 助 
阵 ， 所 以 DS5000 系 列 的 缓存 容量 也 比 DS4000 系 列 上 了 一 个 台阶 。 


如 图 9-54 所 示 为 DS5000 单 控制 器 架构 简 图 。 可 以 与 DS4000 系 列 架 
构 简 图 作 一 个 对 比 。 


图 9-54 DS5000 控 制 器 示意 图 


图 9-55 所 示 的 是 DS5000 双 控制 器 组 成 的 整体 控制 架构 图 和 各 模块 


介绍 。 
图 9-55 ”各 模块 介绍 
图 9-56 一 图 9-58 所 示 为 单 控制 器 内 部 各 个 模块 简介 。 
图 9-56 ”内 部 各 模块 介绍 (一 ) 


图 9-57 ”内 部 各 模块 介绍 (二 ) 


图 9-58 SAS 的 4X 宽 端口 


图 9-59 所 示 为 DS5000 双 控制 器 连接 扩展 柜 拓 扑 图 。 图 9-60 所 示 为 
后 端 接 口 卡 与 前 端 接口 卡 之 间 的 数据 流程 。 


图 9-59 ”连接 扩展 柜 示意 图 图 9-60 “前 后 端 IO 流程 


图 9-61 所 示 为 单个 控制 器 在 接收 到 一 个 1MB 大 小 的 写 IO 时 的 处 理 
动作 。 假 设 写 IO 对 应 的 Raid Group 中 的 磁盘 都 在 同一 个 扩展 柜 中 ， 而 
且 Raid Group 的 条 带宽 度 恰好 为 1MB (不 包含 Parity Segment) ， 则 控 
制 器 上 的 ASIC 逻 辑 电路 会 自动 将 这 1MB 的 数据 切 分 成 4 部 分 ， 并 且 计 
算 好 Parity 数 据 。 然 后 将 这 4 块 十 Parity 数 据 按照 奇偶 分 类 分 别传 送 给 后 
端 两 个 FC Chip， 其 中 一 个 Chip 将 数据 从 本 地 的 Loop Switch 发 出 并 传送 
给 对 应 扩展 柜 写 入 磁盘 ， 另 一 个 Chip 则 通过 背 板 上 的 导线 将 数据 传送 
给 另 一 个 控制 器 上 的 Loop Switch， 然 后 发 送 到 同一 个 扩展 柜 中 对 应 的 
磁盘 。 这 样 就 可 以 做 到 充分 的 负载 均衡 ， 这 里 的 负载 均衡 只 是 底层 硬 
件 心 片 处 理 能 力 的 负载 均衡 而 不 是 控制 器 自身 整体 处 理 能 力 的 负载 均 


衡 ， 试 想 ， 如 果 将 所 有 Loop Switch 放 到 同一 个 控制 器 上 ， 对 整个 系统 
性 能 没有 影响 。 当 然 ， 你 也 可 以 认为 是 供电 负载 均衡 了 。 


图 9-61 ”处 理 1MB 的 写 IO 


如 图 9-62 所 示 ， 如 果 Raid Group 中 的 磁盘 不 在 同一 个 扩展 柜 中 ， 那 
么 FC Chip 传 输 数据 的 路 径 就 会 有 所 变化 ， 会 使 用 多 个 后 端 Loop 
Switch 来 传输 到 对 应 的 扩展 柜 。 


图 9-62 ”处 理 写 IO 的 另 一 种 流程 


图 9-63 所 示 的 是 DS5000 单 个 控制 器 的 俯视 图 。 最 左 侧 为 专 供 
Control Processor 的 一 条 内 存 。 右 侧 为 USB 内 存 ， 用 于 在 系统 以 外 挥 电 
时 将 Data Cache 中 的 内 容 写 入 Flash 中 保存 ， 以 待 下 次 启动 之 后 完成 未 
完成 的 工作 。 下 部 的 左右 两 个 卡 为 前 端 主机 接口 卡 ， 其 上 各 有 一 个 FC 
Chip， 每 个 卡 上 各 有 4 个 4Gb/s 的 FC 接 口 。 上 部 右 侧 分 布 在 黑色 散热 片 
两 边 的 为 数据 Cache。 每 条 按照 2GB 算 ， 最 大 可 以 支持 16GB 的 Data 
Cache。 所 有 内 存 都 插 在 一 块 单独 的 插 板 上 ， 黑 色散 热 片 下 面 履 盖 的 是 
内 存 插 板 控制 心 片 。 


图 9-63 ”控制 器 内 部 俯视 图 


图 9-64 所 示 为 将 主机 接口 卡 和 内 存 插 板 拿 掉 之 后 露出 来 的 主 底板 
上 的 部 件 ， 两 个 白色 散热 片 覆盖 的 为 后 端 磁盘 FC Chip 心 片 。 下 部 为 4 
个 整齐 排列 的 Loop Switch 心 片 。 左 侧 大 的 白色 散热 片 覆 盖 的 是 Control 
Processor ， 即 Intel Xeon CPU。 小 一 些 的 白色 散热 片 覆 盖 的 是 核心 
ASIC 心 片 。 没 有 散热 片 的 大 黑色 已 片 为 系统 桥 心 片 。 


图 9-64 ”控制 器 底部 俯视 图 


如 图 9-65 所 示 为 DS5000 探 制 器 机 柜 十 扩展 柜 组 成 的 存储 系统 整体 
o 


前 视 


图 9-65 ”整体 前 视图 


9.5.2 NetApp FAS 系 列 磁盘 阵列 控制 器 简 析 
1。FAS2050 磁 盘 阵 列 
图 9-66 为 FAS2050 磁 盘 阵 列 控制 器 的 后 视图 。 


从 图 9-66 中 可 以 看 到 上 下 两 个 控制 器 ， 每 个 控制 器 各 有 两 个 FC 接 


图 9-66 ”FAS2050 控 制 器 实物 后 视图 
2 .FAS3050 磁 盘 阵 列 


图 9-67 为 FAS3050 磁 盘 阵 列 控制 器 后 视图 。 
图 9-67 FAS3050 单 个 控制 器 实物 后 视图 


图 9-67 为 单个 FAS3050 的 控制 器 机 头 后 视图 。 图 中 只 是 一 个 控制 
器 ， 如 果 要 达到 完全 见 余 ， 可 以 用 两 台 控 制 器 形成 Cluster 结 构 。 
FAS3050 有 4 个 板 载 FC 接 口 ， 可 以 通过 插 PCIX 接 口 的 扩展 卡 来 扩充 FC 
接口 的 数目 。 每 个 控制 器 提供 4 个 扩展 卡 槽 位 ， 可 以 插 接 FC 卡 、 以 太 
网 卡 、TOE 卡 和 ISCSI 卡 等 扩展 卡 。 


NetApp 的 FAS 产 品 ， 从 FAS3000 系 列 开 始 ， 由 于 处 理 功 能 增强 ， 
扩展 槽 位 增多 ， 所 以 一 个 控制 器 就 占 满 一 个 机 头 的 空间 。 两 台 控 制 器 


之 间 需 要 通过 NVRAM 卡 上 的 Infiniband 网 络 来 形成 Cluster。 
3. FAS6070 磁 盘 阵 列 
图 9-68 为 FAS6070 磁 盘 阵列 控制 器 后 视图 。 
图 9-68 FAS6070 单 个 控制 器 实物 后 视图 


FAS6070 是 NetApp 公 司 比 较 高 端的 设备 ， 其 内 部 后 端 总 线 的 总 理 
论 带 宽 可 达 32GB/s。 有 9 个 扩展 槽 位 ， 可 以 插 接 扩展 FC 适 配器 以 便 连 
接 更 多 的 扩展 想 ， 或 TOE 卡 、 以 太 网 卡 等 其 他 适配器 。 


4. DS14MK2FC 磁 盘 扩 展柜 


图 9-69 所 示 为 DS14MK2FC 磁 盘 扩 展柜 的 前 视图 。 
图 9-70 所 示 为 DS14MK2FC 磁 盘 扩 展柜 的 后 视图 。 


图 9-69 和 图 9-70 所 示 的 是 用 于 连接 FAS 系 列 控制 器 的 磁盘 扩展 柜 ， 
每 个 柜子 可 以 插 14 块 FC 接口 的 磁盘 。 从 后 视图 中 可 以 看 出 其 与 
FAS2050 控 制 器 的 拓扑 比较 像 ， 不 要 搞 瘟 。 前 文 说 过 ， 现 代 磁 盘 扩 展 
柜 都 是 用 双 模 块 设计 ， 模 块 中 有 半 交 换 SBOD 必 片 。 盘 柜 中 所 有 的 磁 
盘 利用 其 SCA2 接 口 连接 到 背 板 上 ， 这 个 物理 接口 中 所 包含 的 两 个 逻辑 
接口 各 通过 电路 连接 到 一 个 扩展 柜 控制 模块 上 ， 形 成 双 Loop 宛 余 。 


图 9-69 ”DS14MK2FC 人 磁盘 扩展 柜 前 视图 图 9-70 ”DS14MK2FC 磁 盘 扩 展柜 后 视图 


9.5.3” IBM DS8000 简 介 


DS8000 系 列 利用 两 台 P 系 列 主 机 充当 控制 器 。 上 文中 说 过 ， 盘 阵 
控制 器 架构 本 质 上 与 主机 架构 无 异 ，DS8000 就 是 这 样 一 个 例证 。 图 9- 
71 和 图 9-72 为 DS8000 实 物 图 。 


图 9-71 DS8000 主 机 架 图 9-72 DS8000 盘 阵 主 机 架 和 扩展 机 架 


IBM DS8000 磁 盘 阵 列 是 IBM 磁 盘 阵 列 产品 线 中 的 最 高 端 产品 。 它 
利用 两 人 台 IBM 的 P 系 列 服务 器 作为 控制 器 运行 AIX 操 作 系 统 ， 操 作 系 统 
之 上 运行 了 DS8000 的 存储 虚拟 化 引擎 和 管理 软件 。 


9.5.4 ”富士 通 ETERNUS DX8000 磁 盘 阵 列 控制 器 结构 简 析 
图 9-73 为 富士 通 ETERNUS DX8000 机 柜 布 局 示意 图 。 


图 9-73 ETERNUS DX8000 机 柜 示意 图 


与 NetApp FAS6070 和 IBM DS8000 系 列 一 样 ， 高 端 磁盘 阵列 系统 
由 于 需要 提供 极 高 的 存储 容量 ， 只 连接 几 个 磁盘 扩展 柜 已 经 无 法 满足 
要 求 。 所 以 需要 将 更 多 的 磁盘 扩展 柜 装 入 扩展 机 架 中 ， 然 后 统一 联 入 
控制 器 或 者 串联 到 其 他 机 架 。 


图 9-74 为 ETERNUS DX8000 控 制 器 架构 示意 图 。 
图 9-74 ”ETERNUS DX8000 控 制 器 架构 示意 图 


CM (Control Module) 为 控制 器 模块 。CM 是 整个 磁盘 阵列 的 计算 
中 心 ， 每 个 CM 包含 两 个 2.8GHz 的 四 核 CPU 和 最 大 64GB 的 RAM。 
RAM 既 作为 盘 阵 本 身 软 件 的 运行 内 存 ， 又 作为 盘 阵 数据 缓存 (图 中 所 
示 的 Cache) 。 整 个 盘 阵 系统 最 多 可 以 安装 8 个 CM， 由 于 每 个 控制 器 


机 柜 只 包含 一 个 CM， 所 以 整个 系统 最 多 可 以 连接 8 个 Controller 


Enclosureo 


RT (Router) 为 路 由 器 。RI 模 块 相当 于 普通 服务 器 架构 中 的 南 桥 
控制 器 〈IO 控 制 器 ) 以 及 FC 架构 中 常用 的 FC Loop Switch 交换 忆 片 。 
不 同 的 是 这 里 的 RT 是 一 个 全 局 桥 ， 它 可 以 桥接 整个 系统 中 的 所 有 
CPU、RAM 和 外 设 (FC 接口 卡 ) ， 使 所 有 部 件 之 间 实 现 高 速 通信 。 每 
个 系统 最 大 可 以 接 入 12 个 RT。 关 于 RT 的 细节 将 在 下 文 描 述 。 


DA (Driver Adapter) 为 后 端 磁盘 通道 适 配 板 。 每 个 适 配 板 上 接 有 
4 个 FC-AL 接 口 ， 用 于 接 入 FC-AL 的 Loop。DA 实 际 上 就 是 盘 阵 的 后 端 
接 入 点 。 每 个 后 端 RT 可 以 接 入 16 个 DA 上 的 各 一 个 口 ， 每 个 系统 最 多 
接 入 16 个 DA， 从 而 可 以 挂 接 64 条 Loop。 但 为 了 宛 余 ， 每 个 Loop 需 要 
同时 连接 两 个 DA， 所 以 实际 可 用 Loop 减 半 ， 为 32 Loops。 


MS i 


CA (Channel Adapter) 为 前 端 通道 适 配 板 。CA 实 际 上 就 是 前 端 
FC 接 口 适 配 板 ， 每 个 板子 上 包含 4 个 FC N 类 型 端口 ， 用 于 接 入 FC 交换 
设备 或 者 直接 连接 主机 服务 器 的 FC 适 配 卡 。 每 个 RT 最 多 接 入 4 个 CA， 
所 以 整个 系统 最 多 可 以 接 入 32 个 CA， 最 多 提供 128 个 FC 协 议 N 类 型 前 
端 接口 。 


1. SBOD 


扩展 柜 同样 采用 了 双 模 块 板 设 计 ， 可 以 保证 两 条 路 径 到 达 同 一 块 
磁盘 。 图 9-75 中 的 “骨干 交换 机 ”其 实 就 是 措 SBOD 所 采用 的 半 交 换 式 心 
片 。 


图 9-75” ETERNUS DX8000 扩 展柜 架构 


2. 循环 镜像 的 写 缓存 


图 9-76 ”为 ETERNUS DX8000 控 制 器 间 循 环 缓 存 镜像 写 示 意图 。 
图 9-76 ETERNUS DX8000 循 环 缓存 镜像 写 示 意图 


数据 在 被 写 入 任何 一 个 控制 器 的 Cache 时 ， 系 统 会 将 写 入 的 数据 复 
制 到 其 他 控制 器 的 缓存 中 做 见 余 。 一 旦 在 数据 还 没有 写 入 硬盘 之 前 ， 
某 个 控制 器 发 生 了 故障 ， 写 缓存 镜像 技术 可 以 保证 数据 不 会 丢失 ， 可 
以 将 数据 从 镜像 缓存 中 写 入 硬盘 。 读 缓存 不 需要 这 种 技术 ， 因 为 读 操 
作 只 是 将 数据 从 硬盘 上 读 入 RAM， 如 果 此 时 控制 器 故障 ， 磁 盘 中 的 数 
据 依 然 存在 。 最 重要 的 是 缓存 镜像 搁 术 会 浪费 宝贵 的 缓存 容量 ， 读 操 
作 没 有 必要 实现 缓存 镜像 。 


3。 跨 扩展 柜 做 Raid Group 


9-77 ”所 示 为 ETERNUS DX8000 跨 扩展 柜 的 Raid Group 示意 


图 9-77 跨 扩展 柜 的 Raid Group 


前 面 也 介绍 过 ， 为 了 获得 足够 的 见 余 性 ， 很 多 三 家 的 盘 阵 产品 一 
般 都 选择 将 不 同 扩展 柜 中 的 硬盘 容纳 到 一 个 Raid Group 中 ， 而 不 是 让 
一 个 Raid Group 包含 同一 个 扩展 柜 中 所 有 的 磁盘 。 


DX8000 系 统 整体 架构 图 及 分 项 解析 如 下 。 


如 图 9-78 所 示 为 DX8000 存 储 系统 配备 4 个 CM 时 系统 的 整体 架构 
名 |。 


图 9-78 ”DX8000 配 备 4 个 CM 时 系统 的 架构 


图 9-78 为 一 个 4 CM 配置 的 DX8000 存 储 系统 。 每 个 CM 包含 两 个 4 
核心 CPU、64GB 的 RAM、4 个 前 端 FC 接 口 卡 和 两 个 后 端 磁盘 FC 通道 
接口 卡 。 每 个 接口 卡 都 含 4 个 FC 接口 。 在 IO 总 线 方 面 ， 由 于 所 有 CM 上 
的 DA 和 CA 都 需要 被 系统 内 所 有 CPU 所 访问 到 ， 所 以 通过 两 个 16 口 8X 
PCI-E Bridge Switch 心 片 来 互 连 所 有 4 个 CM， 这 两 个 PCI-E Switch 作为 
整个 系统 的 全 局 IO 桥 。 此 外 ，CM 之 间 的 其 他 数据 通信 和 控制 器 通信 
也 都 经 过 这 两 片 Switch。 由 于 每 个 8X PCI-E 接 口 可 以 提供 双向 共 
400MB/s 的 吞吐 量 ， 所 以 每 个 Switch 忌 片 可 以 提供 64GB/s 的 吞吐 量 。 


在 后 端 ，DA 与 磁盘 扩展 柜 之 间 存 在 4 个 16 口 的 FCAL Loop 
Switch， 这 个 Switch 就 是 前 文中 所 述 的 Cut Through Switch ， 物 理 全 交 
换 ， 但 是 上 层 协 议 依然 为 FCAL。 每 个 DA 上 的 一 个 接口 各 连接 4 个 
Switch 中 的 一 个 Switch 上 的 一 个 接口 ， 这 样 ， 恰 好 有 32 个 端口 被 DA 所 
连接 。 磁 盘 扩 展柜 由 于 也 是 双 路 连接 ， 所 以 每 个 Loop 的 头 一 个 磁盘 扩 
展柜 也 连接 到 两 个 Loop Switch 上 的 各 一 个 接口 ， 这 样 共 连接 了 16 条 
Loop。 这 种 连接 方式 可 以 使 得 每 个 CM 都 有 若干 条 宛 余 的 路 径 来 访问 
到 每 块 磁盘 ， 做 到 了 所 有 有 逻辑 部 件 的 全 部 元 余 和 负载 均衡 。 


如 图 9-79 所 示 为 DX8000 存 储 系统 实物 图 ， 可 以 看 到 CA 插 板 插 在 
CM 模 块 的 下 方 插 槽 中 ，CM 模 块 又 插 到 机 柜 背 板 中 。 


图 9-79 ”DX8000 实 物 图 
9.5.5 EMC 公司 Clariion CX/CX3 及 DMX 系 列 盘 阵 介绍 


1。Clariion CX 系列 产品 


CX 系列 产品 性 能 如 下 。 


" 充分 风 余 体系 结构 。 

双 存 储 处 理 器 。 

=。 电源、 冷却 系统 、 数 据 路 径 、 独 立 电 源 。 
= 无 间断 操作 。 

在 线 软件 升级 。 

在 线 硬件 更 改 。 

高 级 数据 完整 性 。 

”镜像 写 缓存 。 

。 发生 电源 故障 时 将 写 缓存 转 储 到 磁盘 。 
" SNiiFFER: 局 区 检查 实用 程序 。 

a 点 对 点 DAE 设 计 。 

" 具有 无 中 断 故 障 切 换 的 双 L/O 通 道 。 
" 分 层 容量 。 

" 15K: 36 GB、 73 GB、146 GB; 

" 10K: 73 GB、 146 GB、300 GB。 
" 500 GB SATA ll。 

" 5~480 个 人 磁盘。 

" 灵活 性 。 

a 混合 驱动 器 类 

m ee 

a RAID 级 别 0、1、1 十 0、3 和 5。 

" 高 达 16 GB 的 可 调式 缓存 。 


图 9-80 为 CX 系列 产品 的 实物 图 和 透视 图 。 


图 9-80 ”CX 系列 产品 实物 图 和 透视 图 


图 9-81 为 CX700 的 控制 器 架构 示意 图 。 
图 9-81 ”CX700 的 控制 器 架构 示意 图 
图 9-82 为 CX700 控 制 器 实物 图 。 
图 9-82 ”CX700 控 制 器 实物 图 
CX3-80 探 制 器 和 扩展 柜 染 构 简 介 如 下 。 


CX3 系 列 为 EMC 公 司 的 中 低 端 存储 系统 (目前 已 被 CX4 系 列 取 
代 ) 。 其 内 部 总 体 架构 与 前 文 介绍 的 CX700 类 似 ， 但 是 在 扩展 性 和 总 
线 速 度 等 处 有 提升 。 控 制 器 内 没有 专用 XOR 心 片 ， 所 有 数据 IO 控制 全 
部 由 主 CPU 承 担 ， 所 以 整个 系统 有 多 个 CPU 以 便 提 供 足 够 的 处 理 能 
力 。 


如 图 9-83 所 示 为 CX3-80 单 个 控制 器 拆 掉 挡 板 后 的 前 视图 。 
图 9-83 ”CX3-80 单 控制 器 前 视图 


图 9-84 所 示 为 单 控制 器 后 视图 ， 左 右 两 边 为 两 个 电源 模块 。 中 部 
上 下 各 一 个 控制 器 ， 每 个 控制 器 各 包含 4 个 前 端 FC 接 口 和 4 个 后 端 FC 接 
口 。 


图 9-84 ”CX3-80 单 控制 器 后 视图 


图 9-85 所 示 为 单个 控制 器 的 平视 图 和 俯视 图 。 可 以 看 到 控制 器 前 
面 是 两 个 插 卡 位 置 ， 可 以 根据 需要 插入 对 应 端口 数量 的 扩展 卡 。 


图 9-85 ”控制 器 平视 图 和 俯视 图 


图 9-86 所 示 为 单个 IO 扩展 卡 的 平视 图 和 俯视 图 。 可 以 看 到 ， 后 端 
FC 接口 并 没有 使 用 光纤 接口 ， 而 是 使 用 一 种 特制 的 铜 绕 接口 。 其 上 承 
载 的 依然 是 FCAL 协 议 。 


图 9-86 ”扩展 卡 平视 图 和 俯视 图 
图 9-87 所 示 为 适用 于 CX3 系 列 的 磁盘 扩展 柜 的 前 视图 。 
图 9-87 扩展 柜 前 视图 


图 9-88 所 示 为 扩展 柜 后 视图 。 可 以 看 到 中 部 上 下 两 个 可 插 拔 的 
LCC， 即 链 路 控制 器 ，LCC 其 实 就 是 扩展 柜 中 的 控制 模块 ， 与 BM DS 
系列 使 用 的 扩展 柜 中 的 ESM 模 块 作用 完全 一 样 。 


图 9-88 ”扩展 柜 后 视图 
图 9-89 所 示 为 单个 LCC 平 视图 。 用 于 串联 扩展 柜 的 端口 有 两 个 ， 
一 进 一 出 。 
图 9-89 ”LCC 平 视图 
图 9-90 所 示 为 一 套 双 控制 器 加 5 个 扩展 柜 的 CX3-80 存 储 系统 物理 
连接 好 之 后 的 后 视图 。 可 以 看 到 ， 每 个 控制 器 有 一 个 后 端 FC 接 口 使 用 
了 一 条 铀 缆 ， 连 接 到 了 第 一 个 扩展 柜 的 一 个 LCC 控 制 模块 的 入 方向 级 
联 口上 ， 然 后 每 个 LCC 的 出 方向 级 联 口 再 使 用 同样 的 线 缆 连 接 到 下 一 


个 扩展 柜 相 同 LCC 上 的 入 方向 接口 ， 一 直 级 联 下 去 直到 最 后 一 个 扩展 
柜 为 止 。 


图 9-90 ”控制 器 + 扩展 柜 后 视图 


2。Symmetrix DMX-3 系 统 概述 


直 连 窍 阵 体系 结构 。 


CPU 以 及 通道 扩展 卡 与 内 存 之 间 采 用 点 对 点 直 连 访问 。 每 一 个 控 
制 器 都 有 其 自己 到 达 每 一 目的 地 的 专用 通道 。 直 连 和 矩阵 底板 最 多 有 128 
个 全 部 是 直 连 、 专 用 而 且 不 共享 的 独立 通道 ， 如 图 9-91 所 示 。 


图 9-91 ” Symmetrix 矩阵 示意 


每 个 控制 器 8 个 1.3 GHz PPC 处 理 器 。 

最 多 12 个 通道 控制 器 。 

8 端口 2 GB 光纤 通道 。 

8 端口 ESCON。 

4 端口 多 协议 一 一 2 GB FICON、iSCSI 和 用 于 RDF 的 千 焰 以 太 
网 。 

最 多 8 个 磁盘 控制 器 。 

每 个 磁盘 控制 器 最 多 480 个 驱动 器 。 
支持 无 中 断 添加 控制 器 。 

高 达 512 GB 全 局 内 存 (256 GB 可 用 ) 。 
带 有 内 存 保险 存储 保护 的 镜像 DDR 技 术 。 


9-92 所 示 为 Symmetrix DMX-3 的 实物 图 ， 左 边 为 控制 器 机 柜 ， 
右边 为 磁盘 扩展 柜 机 柜 。 


图 9-92” Symmetrix DMX-3 实 物 图 


9.5.6 HDS 公司 AMS2000 和 USP 系 列 盘 阵 介绍 


1. AMS2000 系 列 存储 系统 控制 器 架构 简介 


AMS2000 系 列 是 HDS 公 司 于 2008 年 推出 的 后 端 基于 SAS/SATA 磁 
盘 扩 展柜 的 中 端 存储 系统 。 其 控制 器 有 一 个 很 大 亮点 ， 即 Native Dual 
Activated。 传 统 双 控制 器 中 端 存储 其 创建 的 每 一 个 LUN， 都 只 能 将 其 
指定 给 一 个 控制 器 ， 另 外 一 个 控制 作为 这 个 LUN 的 后 备 控制 器 作为 故 
障 时 的 见 余 切 换 ， 使 用 多 LUN 轮 流 指 定 给 不 同 控制 器 的 方式 做 到 负载 
均衡 ， 这 种 负载 均衡 完全 是 人 为 控制 的 ， 如 果 随 着 系统 的 负载 不 断 变 
化 ， 一 旦 将 来 发 生 某 个 控制 器 所 掌管 的 LUN 总 体 负载 很 大 ， 而 另 一 个 
控制 器 管理 的 LUN 总 体 负载 却 很 小 ， 那 么 此 时 就 需要 人 为 控制 将 负载 
大 的 LUN 切 换 到 负载 小 的 控制 器 上 ， 不 但 属于 高 危 操 作 而 且 还 影响 主 
机 客户 端 对 LUN 的 访问 。AMS 2000 的 两 个 控制 器 彻底 颠覆 了 这 种 低 效 
率 的 设计 ， 两 个 控制 器 共同 掌控 所 有 LUN ， 不 管 数据 IO 从 哪个 控制 器 
进入 ， 接 受 IO 的 控制 器 都 会 自行 处 理 对 这 个 LUN 的 IO ， 如 果 一 旦 发 现 
自己 负载 高 到 一 定数 值 而 对 方 控制 器 负载 低 到 一 定数 值 ， 那 么 接受 IO 
的 控制 器 会 将 这 个 IO 从 内 部 链 路 传送 给 对 方 控制 器 由 对 方 来 处 理 。 通 
过 这 种 互相 协作 的 处 理 方 式 ， 系 统 负载 达到 了 彻底 的 均衡 。 两 个 控制 
器 之 间 使 用 两 条 2GB/s 的 链 路 进行 协作 通信 和 与 数据 传输 。 两 个 控制 器 
的 写 缓存 互 为 镜像 以 防止 一 旦 某 个 控制 器 故障 之 后 另 一 个 控制 器 可 以 
立即 接管 所 有 写 IO 操 作 ， 镜 像 缓存 的 第 二 个 目的 是 为 了 当 发 生 负 载 转 
移 时 提高 转移 速度 ， 因 为 写 IO 数 据 已 经 被 镜像 所 以 无 须 额 外 的 实体 数 
据 传送 。 


与 IBM DS 5000 系 列 一 样 ，AMS2000 系 列 也 使 用 一 颗 专 用 ASIC 来 
负责 大 部 分 数据 IO 与 XOR 校 验 操 作 。Intel Xeon CPU 负责 其 他 上 层 功 
能 软件 的 运行 。 


图 9-93 所 示 为 AMS 2500 存 储 系 统 控制 器 架构 示意 图 。 


图 9-93 ”AMS2K 控 制 器 
2。USP1100 存 储 系统 架构 简介 


USP 系 列 机 器 为 目前 HDS 存 储 产品 中 最 高 端的 机 器 。 图 9-94 所 示 
为 USP 系 列 机 柜 实 物 图 。 图 9-95 所 示 为 USP-V 系 列 的 虚拟 化 功能 示意 
图 。 图 9-96 所 示 为 USP 系 列 控制 器 架构 逻辑 示意 图 。 


图 9-94 “机柜 实物 图 图 9-95 ”USP-V 系 列 虚拟 化 示意 图 


图 9-96 ”控制 器 架构 示意 图 
图 9-97 所 示 是 USP1100 存 储 系统 的 一 些 规格 说 明 。 


图 9-97 USP1100 规 格 说 明 


图 9-98 所 示 是 USP1100 存 储 系统 控制 机 柜 的 物理 透视 图 。 


图 9-98 ”USP1100 实 物 图 


图 9-99 所 示 为 Cache Switch 模 块 ， 对 应 图 9-98 所 示 的 逻辑 架构 图 中 
的 Crossbar Switch 与 Data Cache。 Crossbar 作 为 一 个 无 阻塞 交换 心 片 提 
供 所 有 FC Chip 处 理 器 到 所 有 Data Cache 之 间 的 高 速 访问 。 图 9-100 所 示 
为 各 种 前 端 接口 导向 器 插 板 ， 用 来 适 配 各 种 前 端 网 络 访问 方式 ， 包 括 
FC、ESCON、RCON、FICON、NAS 等 。 


图 9-99 Cache Switch 图 9-100 各 种 导向 器 插 板 


图 9-101 所 示 为 USP1100 存 储 系统 的 磁盘 扩展 机 柜 透 视图 。 


图 9-101 USP1100 磁 盘 扩 展柜 机 柜 


9.5.7 HP 公司 MSA2000 和 EVA8000 存 储 系 统 架 构 简 介 
1. MSA2000 存 储 系统 简介 


MSA2000 存 储 系统 是 HP 公司 的 低 端 存储 系统 ， 不 要 与 HDS 公 司 的 
AMS2000 搞 混 。 前 者 为 Modular Smart Array 的 简写 ， 后 者 为 Adaptable 
Modular Storage 的 简写 。MSA2000 存 储 系统 后 端 也 是 使 用 SAS/SATA 扩 
展柜 ， 扩 展 容量 有 限 。 前 端 可 以 插 ISCSI 扩 展 卡 或 者 FC 扩展 卡 。 内 部 
架构 为 传统 简单 架构 。 图 9-102 和 图 9-103 所 示 分 别 为 MSA2000 控 制 器 
架构 逻辑 简 图 和 透视 图 。 


图 9-102 MSA2K 控 制 器 逻辑 图 


图 9-103 ”MSA2K 控 制 器 实物 图 


2。 EVA8000 系 列 存储 系统 架构 简介 


EVA 系列 分 为 EVA4000、EVA6000 和 EVA8000。EVA 全 称 为 
“Enterprise Virtual Array”， 是 HP 公司 的 中 端 存储 系统 。 其 硬件 架构 有 
点 特别 ， 即 将 FC 控制 卡 上 常见 的 PBC 心 片 的 功能 放 到 了 外 部 ， 用 一 个 
Loop Switch 蔡 代 了 ， 控 制 器 与 所 有 扩展 柜 都 接 到 这 个 Loop Switch 上 。 


图 9-104 所 示 分 别 为 EVA8000 控 制 器 逻辑 架构 简 图 和 控制 器 机 柜 物 
理 拓扑 简 图 。 


图 9-104 ”EVA8000 控 制 器 逻辑 图 和 实物 图 


这 些 Loop Switch 心 片 ， 对 于 其 他 厂商 来 讲 都 是 被 设计 在 扩展 柜 内 
部 的 ， 但 是 EVA 这 个 产品 却 把 它 放 到 了 外 部 一 个 单独 供电 的 交换 机 
中 ， 做 成 星 型 拓扑 了 ， 所 有 扩展 柜 都 连接 到 中 心 的 Loop Switch 上 ， 其 
他 广 商 产品 都 是 柜 与 柜 串 联 方式 的 。EVA 这 种 做 法 有 个 好 处 就 是 数据 
可 以 只 经 过 一 跳 就 可 以 从 控制 器 的 IO 接口 卡 上 被 转发 到 对 应 的 扩展 
柜 ， 其 他 产品 则 都 要 经 过 在 柜子 与 柜子 之 间 进 行 多 级 跳 〈 跳 数 视 IO 的 
目标 柜子 离 控制 器 远近 而 不 同 ) ， 增 加 了 延迟 。 另 外 ， 这 种 做 法 还 能 
够 节约 Loop Switch 心 片 的 数量 ， 降 低 成 本 。 


9.5.8 ”传统 磁盘 阵列 架构 总 结 


虽然 目前 生产 磁盘 阵列 的 三家 众多 ， 产 品 众 多 ， 但 是 可 以 把 总 体 
的 目前 所 存在 的 产品 总 结 为 以 下 几 种 架构 。 


低 端 X86 PC Server 双 控制 器 架构 。 比 如 IBM DS3000、EMC 
Clariion CX/CX3/CX4 系 列 、HP MSA2000 系 列 、NetApp FAS 系 
列 。 

带 有 辅助 专用 芯片 的 低 端 X86 PC Server 双 控制 器 架构 。 比 如 
IBM DS5000、HDS AMS2000。 

高 端 X86 PC Server 高 扩展 性 多 控制 器 架构 。 比 如 富士 通 
DX8000。 

高 端 小 型 机 架构 。 比 如 IBM DS8000。 

高 端 大 型 主机 架构 。 比 如 HDS USP、EMC Symmetrix DMX4。 
X86 Server 集 群 架构 。 比 如 EMC Symmetrix Vmax、IBM XIV、 
3PAR INSERV。 


对 于 最 后 一 种 ， 也 就 是 X86 集群 架构 的 存储 系统 ， 将 会 在 本 书后 
面 的 章节 详细 介绍 。 这 里 为 何 没 有 将 富士 通 DX8000 也 归于 集群 架构 的 


原因 是 因为 其 看 似 多 控制 器 协作 ， 但 是 在 前 端 ， 多 控制 器 共享 所 有 DA 
和 CA， 只 不 过 分 工 不 同 ; 在 后 端 ， 所 有 DA 都 可 以 访问 所 有 磁盘 扩展 
柜 ， 后 端 Loop 并 不 是 由 某 个 控制 器 独 享 ， 所 以 ， 它 仍 为 一 种 全 局 控制 
器 的 X86 多 控制 器 架构 ， 与 双 控制 器 架构 的 区 别 仅 为 一 个 “多 ” 字 。 这 
种 架构 处 于 一 种 折 中 状态 ， 前 端 有 点 集群 化 的 意思 ， 而 后 端 却 依然 非 
集群 化 。 


9.6 ”磁盘 阵列 配置 实践 
9.6.1 ”基于 IBM 的 DS4500 盘 阵 的 配置 实例 


在 拿 到 一 台 窗 新 的 磁盘 阵列 之 后 ， 必 须 对 其 进行 相关 的 配置 ， 才 
能 让 其 发 挥 功能 。 人 各 个 LUN 的 参数 ， 配 置 
LUN 了 映射 。 这 三 项 配置 是 使 一 个 盘 阵 可 以 用 来 存 取 数 据 的 最 基本 配 
置 。 下 面 就 以 一 台 带 有 两 个 扩 iat te ea 问 
大 家 演示 一 下 这 些 配置 的 基本 步骤 。 


Storage Manager 软 件 是 IBM 公 司 开发 的 专门 针对 其 DS4000 系 列 盘 
阵 的 配置 工具 ， 这 个 工具 可 以 运行 在 Windows 操 作 系 统 上 ， 通 过 以 太 
网 与 磁盘 阵列 通信 ， 从 而 实现 配置 。 


在 配置 阵列 参数 之 前 ， 我 们 先 来 看 一 下 这 个 阵列 将 被 用 于 一 个 什 
么 样 的 环境 。 这 人 台 阵 列 是 一 家 小 型 公司 购买 的 ， 准 备用 于 存放 公司 的 
机 密 文 件 、SQL Server 数 据 库 文件 、 静 态 Web 网 站 文件 和 内 部 邮件 数 
据 。 整 体 拓扑 结构 如 图 9-105 所 示 。 


图 9-105” 某 公司 IT 系 统 后 端 拓扑 图 


其 中 SQL Server 数 据 库 服务 器 需要 3 个 LUN 存 放 数 据 ， 总 容量 1TB 
十 。 邮 件 和 网 站 各 需要 一 个 LUN， 大 小 分 别 为 300GB 十 和 50GB 十 。 
FTP 服 务 器 需要 两 个 LUN，400GB 十 。 


所 有 服务 器 操作 系统 均 为 Windows 2003 Enterprise Server。 每 台 服 
务 器 上 均 要 安装 两 块 2Gb/s 速 率 的 FC HBA 卡 ， 而 且 必 须 安装 多 路 径 软 
件 。 


生 一 台 普 通 PC 上 安装 盘 阵 随机 带 的 Storage Manager 软 件 ， 然 后 将 
这 人 台 PC 用 双 绞 线 连接 到 盘 阵 的 以 太 网 口上 ， 将 PC 的 IP 地 址 配置 成 与 盘 
阵 初始 IP 地 址 相同 的 网 段 。 之 后 ， 通 过 软件 主 界面 添加 盘 阵 的 IP 地 
址 ， 这 样 软件 就 可 以 通过 TCP/IP 协 议 与 盘 阵 进行 通信 了 。 


从 图 9-106 中 可 以 看 到 这 套 设备 共有 3 个 柜子 ， 控 制 器 所 在 的 柜子 
是 0 号 柜子 ， 也 就 是 图 中 右边 显示 的 Controller Enclosure， 这 个 柜子 中 
包含 两 个 互 为 备份 元 余 的 控制 器 A 和 B。Driver Enclosurel 和 Driver 
Enclosure 2 是 两 个 磁盘 扩展 柜 ， 每 个 柜子 中 包含 14 块 物理 磁盘 。 所 有 
磁盘 的 总 容量 为 2552GB， 这 在 主 界面 左边 栏 中 也 有 提示 。 


图 9-106 ”Storage Manager 的 主 界面 


单 击 按钮 可 以 查看 柜子 的 供电 、 散 热 、 温 度 、 控 制 器 电池、 插 
卡 、SFP 模 块 等 硬件 部 件 信 息 ， 如 图 9-107 所 示 。 


图 9-107 机 器 环境 监控 窗口 


1。 配 置 LUN 


在 主 界面 中 右 击 Unconfigured Capacity ， 创 建 逻 辑 磁 盘 〈 即 
LUN) ， 如 图 9-108 所 示 。 


图 9-108 创建 LUN 


出 现 选择 主机 类 型 的 对 话 框 ， 选 择 这 个 逻辑 磁盘 将 要 为 何 种 类 型 
的 操作 系统 使 用 ， 这 里 我 们 选择 Windows 2000/Server 2003 Non-C， 即 
“Windows 2003 非 集群 "类 型 ， 如 图 9-109 所 示 。 


图 9-109 ”选择 LUN 的 类 型 


提示 : 有 些 磁盘 阵列 会 针对 不 同 的 操作 系统 提供 不 同类 型 的 
LUN。 昌 然 LUN 对 于 操作 系统 来 说 只 是 一 块 裸 磁盘 ， 但 是 每 
种 操作 系统 上 的 文件 系统 在 使 用 LUN 的 行为 上 是 有 差异 的 。 
LUN 的 0 号 LBA 为 MBR， 占 用 了 一 个 局 区 。 而 文件 系统 一 般 
使 用 比 局 区 更 大 的 逻辑 块 来 做 为 分 配 单元 ， 所 以 有 些 文 件 系 
统 对 于 LBA 的 编号 就 要 从 LBA1 开 始 ， 即 MBR 的 下 一 
LBA。 RE 它们 管理 LUN 可 能 也 是 用 
块 来 作为 一 个 最 小 单元 。 但 控制 器 却 不 理解 MBR， 只 认为 文 
人 这 样 ， 就 产生 了 块 不 对 齐 的 现 
象 ， 从 而 影响 了 性 能 ， 如 图 9-100 所 示 。 所 以 ， 有 些 以 块 为 单 
元 对 LUN 做 管理 的 盘 阵 控制 器 会 针对 不 同文 件 系统 制作 对 应 
的 LUN。 
图 9-110 ”文件 系统 与 盘 阵 的 LUN 块 不 对 齐 示意 图 


在 图 9-111 所 示 的 对 话 框 中 ， 需 要 先 创建 RAID Group (或 
Arrays) ， 然 后 在 建 好 的 RG 中 再 划分 LUN。 数据库 对 于 IO 性 能 有 较 高 


要 求 ， 所 以 给 数据 库 的 3 个 LUN 各 分 配 一 个 RG， 充 分 保证 数据 库 的 IO 
性 能 。 
图 9-111 RAID 类 型 选择 ， 手 动 分 配 磁盘 
选择 相应 的 RAID 级 别 。 如 果 想 手动 选择 组 成 RAID Group 的 磁 
盘 ， 选 中 Manual 单 选 按 钮 。 然 后 在 下 方 磁盘 列表 中 ， 按 住 Ctl 键 选择 
组 成 这 个 RG 的 所 有 磁盘 成 员 ， 最 后 单 击 Apply 按 钮 ， 如 图 9-111 所 示 。 


如 果 想 让 程序 自动 生成 各 种 大 小 的 RG， 则 要 选中 Automatic 单 选 按 
钮 ， 如 图 9-112 所 示 。 


图 9-112 ”自动 分 配 磁 盘 


这 里 让 系统 自动 为 我 们 计算 。 在 RAID 5 级 别 下 ， 系 统计 算出 各 种 
容量 、 人 磁盘 数量 的 RG 组 合 。Channel Protection 指 的 是 让 RG 中 所 有 磁盘 


成 员 分 布 在 两 个 扩展 柜 中 ， 充 分 保证 宛 余 性 。 我 们 选择 5 块 盘 的 292GB 


在 这 个 RG 中 ， 我 们 可 以 手动 指定 大 小 ， 划 分 出 新 的 LUN ( 即 
Logical Drive) 。 这 里 将 全 部 容量 分 配给 一 个 LUN ， 命 名 为 
SQLLUN1，LUN 的 参数 选择 自 定 义 。 


选择 条 带 深度 为 32KB， 每 个 条 带 的 数据 部 分 的 宽度 就 是 32KB 乘 
以 4 块 数据 Segment， 为 128KB。 这 样 ， 只 要 将 SQL Server 数 据 库 的 
Extent 参 数 设置 为 128KB 大 小 ， 就 可 以 保证 每 次 读 写 RG 均 为 整 条 读 
写 ， 充 分 提高 IO 性 能 〈 但 这 样 做 会 未 失 并 发 IO 能 力 ) ， 如 图 9-113 所 
示 。 Preferred controller ownership 表 示 这 个 RAID Group 平时 由 哪个 控制 
器 管理 。 我 们 选择 Slot A， 即 控制 器 A。 一 旦 控制 器 A 发 生 故 障 ， 这 个 
RG 会 立即 由 控制 器 B 接 管 。 


图 9-113 ”选择 条 带 深度 


Logical Drive-to-LUN Mapping 即 LUN 了 上 映射， 配置 这 个 LUN 将 给 哪 
个 或 者 哪些 主机 使 用 。 我 们 稍 后 选择 用 专门 的 配置 模块 配置 ， 如 图 9- 
114 所 示 。 


图 9-114 ”配置 LUN 了 映射 


配置 完 后 ， 系 统 会 提示 是 否 还 要 配置 另外 的 RG 或 者 LUN。 因 为 这 
个 RG 全 部 容量 已 经 分 配给 了 一 个 LUN， 所 以 窗口 中 的 same array 单 选 
按钮 为 灰色 。 单 击 Yes 按 钮 进入 新 一 轮 的 RG 和 和 LUN 配置 。 用 这 种 方 
法 ， 配 置 所 有 6 个 LUN， 如 图 9-115 所 示 。 


图 9-115 ”创建 完毕 的 6 个 LUN 


由 于 这 个 环境 中 的 FTP 服 务 器 主要 存放 视频 等 大 文件 ， 所 以 使 用 
RAID 3 级 别 来 提高 传输 性 能 ， 如 图 9-115 所 示 。 另 外 ， 只 要 选中 某 个 创 
建 好 的 RG 或 者 LUN， 右 边 窗口 中 便 会 显示 出 这 个 RG 和 LUN 所 对 应 的 
物理 磁盘 以 及 掌管 它 的 控制 器 。 


2. 设置 全 局 热 备 磁盘 


最 好 设置 一 个 或 者 两 个 热 备 磁盘 。 这 样 ， 一 旦 某 块 磁盘 损坏 ， 热 
备 磁 盘 立 即 顶替 ， 以 免 数 据 丢 失 ， 如 图 9-116 所 示 。 


图 9-116 ”选择 热 备 盘 


设置 完 热 备 磁盘 之 后 ， 可 以 进一步 更 改 每 个 RG 或 者 LUN 的 细节 参 
数 ， 如 图 9-117 和 图 9-118 所 示 。 


图 9-117 各 种 参数 (1) 图 9-118 各 种 参数 (2) 


3。 设置 LUN 了 映射 


切换 到 主 界面 的 Mappings View 选 项 卡 ， 然 后 右 击 设备 名 ， 从 弹出 
的 快捷 菜单 中 选择 Define Host 命 令 来 添加 主机 信息 ， 即 使 用 这 人 台 盘 阵 
的 主机 信息 ， 如 图 9-119 所 示 。 


图 9-119 ”添加 主机 映射 


Host Name 可 以 随便 起 名 ， 并 不 一 定 要 与 对 应 主机 的 真正 
Hostname 相 同 。 添 加 完 所 有 主机 后 ， 界 面 的 显示 如 图 9-120 所 示 。 


图 9-120 ”主机 列表 


添加 完 主 机 名 之 后 ， 还 必须 添加 Host Port， 即 必 须 让 盘 阵 知道 主 
机 使 用 哪些 FC 接口 来 访问 盘 阵 。 右 击 某 个 主机 名 ， 从 弹出 的 快捷 菜单 
中 选择 Define Host Port 命 令 ， 如 图 9-121 所 示 。 


图 9-121 添加 主机 的 FC 端口 信息 


在 Port Identifier 处 ， 我 们 选择 对 应 的 ID ( 即 每 个 主机 FC HBA 卡 上 
的 WWN 地 址 ， 盘 阵 会 通过 Fabric 网 络 自动 发 现 这 些 地 址 ) 。 主 机 类 型 
当然 选择 Windows 2000/Server 2003 Non-C，Host port name 随 便 起 一 个 
名 字 即 可 ， 如 图 9-122 所 示 。 每 台 服 务 器 上 有 两 块 FC 卡 ， 所 以 每 台 
机 共有 两 个 接口 ， 在 此 为 每 个 接口 都 定义 一 下 。 定 义 好 每 台 主 机 的 接 
口 之 后 ， 如 图 9-123 所 示 。 


图 9-122 主机 上 的 FC 端口 信息 图 9-123 ”所 有 主机 端口 定义 完毕 


在 未 映射 的 LUN 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Define 
Additional Mapping 命 令 ， 打 开 如 图 9-124 所 示 的 对 话 框 。 


图 9-124 ”映射 LUN 到 主机 端口 


在 Host group or host 下 拉 列 表 框 中 选择 Host SQLserver 这 人 台 主 机 ， 
Logic unit number 表 示 此 次 映射 给 这 人 台 主 机 的 LUN， 在 主机 上 将 显示 
LUN 的 号 码 。 图 9-124 中 ， 将 SQLLUN1 这 个 LUN 映 射 给 主机 SQL 
Server， 主 机 上 显示 的 对 应 这 块 LUN 的 号 码 是 LUN0。 用 这 种 方法 ， 将 
所 有 属于 SQL Server 主 机 的 3 个 LUN 都 映射 好 后 ， 单 击 close 按 钮 。 结 
如 图 9-125 所 示 。 


图 9-125 ”LUN 映射 完毕 


注意 : 单 击 每 台 主 机 ， 右 边 就 会 出 现 这 台 主 机 可 以 访问 的 
LUN 及 其 相关 信息 。 每 个 LUN 只 能 映射 给 一 台 主机 。 理 论 
上 ， 一 个 LUN 完 全 可 以 映射 给 多 台 主 机 共同 访问 使 用 ， 这 就 
需要 用 到 partition 功 能 了 。 此 处 不 做 过 多 介绍 。 


4. 初始 化 LUN 配 置 


所 有 设置 做 完 之 后 ， 需 要 进行 初始 化 。 初 始 化 完毕 之 后 ， 才 能 供 
主机 使 用 。 


右 击 每 个 Array 或 者 LUN ， 然 后 从 弹出 的 快捷 菜单 中 选择 Initialize 
命令 ， 如 图 9-126 和 图 9-127 所 示 。 


图 9-126 ”初始 化 磁盘 阵列 图 9-127 初始 化 所 有 RAID 组 


右 击 每 个 Array， 从 弹出 的 快捷 菜单 中 选择 属性 命令 ， 可 以 查看 初 
始 化 的 进度 ， 如 图 9-128 所 示 。 


图 9-128 ”初始 化 进度 窗口 
初始 化 完成 之 后 ， 盘 阵 即 可 接受 主机 访问 了 。 


其 他 不 同 品牌 型 号 的 磁盘 阵列 产品 的 配置 过 程 大同 小 异 ， 只 要 理 
解 了 磁盘 阵列 的 组 成 架构 和 原理 ， 配 置 起 来 其 实 是 很 简单 的 。 


9.6.2 ”基于 EMC 的 CX700 磁 盘 阵 列 配 置 实例 


在 此 我 们 简要 介绍 一 下 MC 针对 CX 系列 的 配置 工具 Navisphere。 
1。 登录 Navisphere， 查 看 全 局 情况 


全 局 视图 如 图 9-129 所 示 。 图 9-130 为 所 连接 的 两 个 扩展 柜 中 的 一 
个 柜子 里 的 磁盘 列表 。 图 9-131 所 示 为 控制 器 柜 里 包含 的 两 个 控制 器 的 
言 息 。 图 9-132 所 示 为 存放 盘 阵 操作 系统 及 重要 配置 信息 的 私有 LUN。 
每 个 控制 器 都 有 各 自 的 私有 LUN。 图 9-133 所 示 为 映射 LUN 与 主机 用 的 
Storage Groups， 也 就 是 映射 组 。 在 这 个 组 中 的 主机 可 以 访问 这 个 组 中 
的 LUN。 


图 9-129 ”全 局 视图 图 9-130 ”扩展 柜 中 的 磁盘 图 9-131 ”控制 器 柜 中 的 两 
列表 个 控制 器 


图 9-132 ”用 于 存放 盘 阵 的 操作 系统 以 及 其 9-133 ”用 来 映射 LUN 和 主机 的 Storage 
他 配置 信息 的 Private LUNs Groups 


2。 创建 RAID 组 


(1) 在 盘 阵 图 标 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create RAID 
Group 命令 ， 如 图 9-134 所 示 。 


图 9-134 创建 RAID 组 


(2) 在 如 图 9-135 所 示 的 对 话 框 中 选择 RAID 组 的 ID、RAID 组 所 
包含 的 磁盘 数量 以 及 其 他 参数 。 


图 9-135” RAID 组 参数 


(3) 在 创建 好 的 新 RAID 组 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 
Bind LUN 命 令 创建 LUN， 如 图 9-136 所 示 。 在 打开 的 对 话 杠 中， 我 们 
选择 RAID 类 型 为 RAID 5， 如 图 9-137 和 图 9-138 所 示 。 利 用 上 述 方法 创 
建 LUN 6 和 LUN 7 两 个 LUN， 如 图 9-139 所 示 。 


图 9-136 ”在 RAID 组 上 创建 ( 绪 定 ) LUN 图 9-137 LUN 参 数 页 (1) 


图 9-138 ”LUN 参数 页 (2) 图 9-139 ”创建 好 的 两 个 LUN: LUN 6 和 
7 


3。 创建 Storage Group 并 绑 定 主机 与 LUN 


(1) 在 盘 阵 图 标 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create Storage 
Group 命令 ， 如 图 9-140 所 示 。 


图 9-140 ”创建 Storage Group 


(2) 在 打开 的 对 话 框 中 输入 新 Storage Group 的 名 称 ， 如 图 9-141 
所 示 。 


图 9-141 ”给 新 Storage Group 起 名 


(3) 在 创建 好 的 Storage Group 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 
SelectLUN 命 令 绑 定 LUN， 如 图 9-142 所 示 。 


图 9-142 ”选择 要 映射 的 LUN (一 ) 


(4) 将 要 分 配给 这 个 组 的 LUN 移 动 到 右边 的 窗口 ， 如 图 9-143 所 
未 o 


图 9-143 ”选择 要 映射 的 LUN (二 ) 


(5) 切换 到 Hosts 选 项 卡 ， 选 择 要 分 配 的 主机 ， 将 其 移动 到 右 侧 
窗口 ， 如 图 9-144 所 示 。 


图 9-144 ”选择 要 绑 定 的 主机 


(6) 添加 完 LUN 和 主机 之 后 ， 对 应 的 主机 就 可 以 识别 到 对 应 的 
LUN， 并 可 以 使 用 了 ， 如 图 9-145 所 示 。 


图 9-145 ”创建 好 的 Storage Group 
各 种 磁盘 阵列 的 配置 大 同 小 异 ， 总 地 来 说 主要 有 以 下 三 步 。 
(1) 配置 RAID 组 。 
(2) 在 RAID 组 上 划分 LUN。 


(3) 将 LUN 映 射 给 相应 的 主机 使 用 。 
9.7 HBA 卡 逻辑 架构 详 析 与 SAAN Boot 示 例 


9.7.1 HBA 卡 逻辑 架构 
关于 IOP 


IOP 全 称 IO Processor，20 多 年 前 由 IBM 首 先 提 出 。 其 根本 目的 是 
在 计算 机 IO 设 备 上 放置 一 个 智能 处 理 器 ， 来 处 理 一 些 通信 协议 的 逻 
辑 ， 从 而 将 原本 需要 由 系统 主 CPU 执 行 的 功能 (设备 驱动 层面 ) 
Offload 到 IO 设备 自身 执行 以 便 节 约 主 CPU 资源 。 时 至 今日 ，IOP 已 经 
被 普遍 使 用 在 各 种 IO 设备 上 ， 比 如 以 太 网 卡 、FC 卡 、Raid 卡 、SAS 
卡 、SCSI 卡 等 。 当 然 们 有 一 部 分 卡 不 使 用 IOP， 因 为 目前 的 主 CPU 人 性 
能 已 经 非常 强劲 ， 与 20 多 年 前 的 CPU 效率 不 可 同日 而 语 ， 所 以 这 类 没 
有 IOP 的 IO 设备 ， 其 上 层 逻 辑 功 能 主要 由 系统 CPU 完成 。 当 然 ， 随 着 
集成 度 的 提高 ， 各 种 最 新 的 标准 I0 板 卡 基 本 都 是 单 芯片 设计 了 ，IOP 
也 被 集成 在 了 心 片 内 部 ， 而 且 往往 只 占 很 小 一 部 分 ， 其 他 都 是 各 种 接 
口 逻辑 、 加 速 逻 辑 。 


带 IOP 的 IO 板 卡 一 般 都 需要 一 个 OS 〈 即 Firmware) ， 这 个 OS 代码 
存放 于 IO 板 卡 的 Flash 或 者 ROM 介 质 中 ， 有 些 过 于 庞大 的 OS 甚 至 干脆 
存放 在 了 与 这 个 I0 卡 相连 接 的 磁盘 特定 区 域 中 。 有 些 板 卡 逻辑 较为 简 
单 ， 也 可 以 不 使 用 OS， 而 直接 使 用 非常 简化 的 单 任务 Firmware。 


不 管 是 IOP 或 者 非 IOP 的 IO 板 卡 ， 如 果 需 要 从 这 张 卡 所 连接 的 外 部 
设备 启动 系统 ， 则 都 需要 一 个 Optional ROM。 Optional ROM 的 作用 见 
下 文 。 


非 IOP 的 HBA 比 如 Adaptec 2940、LSI 896。 


关于 Firmware 


Firmware 指 运行 在 IO 设备 自身 的 程序 代码 。 其 包含 Tiny BIOS 和 
OS 或 者 简化 的 单 任 务 代 码 。Tiny BIOS 用 于 带 IOP 的 IO 卡 加 电 时 自身 的 
启动 的 初始 化 操作 ， 其 包括 了 各 种 级 别 的 Boot Loader。OS 则 用 于 IOP 
载 入 执行 以 实现 这 个 IO 设备 自身 的 功能 ， 比 如 Raid 功 能 。Boot Loader 
将 OS 以 及 用 于 其 他 硬件 逻辑 的 代码 加 载 到 对 应 的 内 存 空间 ， 供 这 些 部 
件 执行 。 


Tiny BIOS 不 等 于 Optional ROM， 不 要 将 二 者 混淆 。 前 者 是 IO 设备 
上 的 IOP 自 己 执行 的 ， 用 于 初始 化 自己 ; 后 者 则 是 主板 上 的 主 CPU 通 
过 系统 BIOS 载 入 执行 的 用 于 系统 从 设备 外 部 访问 这 个 IO 设备 。 


关于 Optional ROM 


作用 : 主要 用 于 Boot。Optional ROM 代 码 可 以 存放 在 IO 卡 的 ROM 
里 ， 也 可 以 存放 在 主板 系统 BIOS 中 (如 果 你 的 板 卡 已 经 是 非常 普遍 的 
大 众 型 号 的 话 ) 。 从 这 个 设备 Boot 之 前 需要 加 载 这 个 设备 对 应 的 
Optional ROM， 这 样 系统 BIOS 才 可 以 驱动 这 块 卡 从 而 向 这 块 卡 后 面 的 
磁盘 读 写 数据 。 也 就 是 说 ，Optional ROM 里 包含 了 这 块 板 卡 针对 主板 
BIOS 的 驱动 程序 。 


IO 设 备 自身 可 以 控制 是 否 在 系统 加 电 的 时 候 让 系统 BIOS 加载 
Optional ROM。 系统 BIOS 必 须 运行 对 应 外 设 的 Optional ROM 才 可 以 输 
出 这 个 外 设 更 细节 的 信息 ， 而 且 也 只 有 运行 Optional ROM 才 能 让 用 户 
进入 这 个 外 设 的 配置 界面 进行 底层 的 配置 ， 比 如 大 家 经 常会 看 到 服务 
器 启动 的 时 候 提 示 按 Ctrl 十 A 进入 某 配 置 界面 。Optional ROM 执 行 完 之 
后 ， 系 统 BIOS 便 跳 转 到 下 一 个 存在 的 Optional ROM 继 续 执行 ， 如 果 上 
一 个 执行 过 的 Optional ROM 未 进行 任何 配置 变更 ， 则 整个 系统 就 未 作 
任何 更 改 。 如 果 想 让 系统 BIOS 访 问 IO 卡 后 面 的 磁盘 ， 对 于 某 些 卡 ， 仪 


仅 执 行 Optional ROM 是 不 行 的 ， 还 需要 进入 配置 界面 来 打开 一 个 选 
项 ， 一 般 叫 做 “Enable BIOS”。 其 实 这 个 选项 实际 控制 着 是 否 让 这 个 IO 
卡 设备 注册 到 系统 Int13 中 断 向 量 表 中 ， 如 果 不 打 开 这 个 选项 ， 则 IO 卡 
不 向 mt13 注 册 ， 则 系统 就 无 法 读 写 IO 卡 后 面 的 磁盘 。 下 文 的 配置 示例 
中 会 给 出 相关 的 过 程 。 


HBA 架 构 方 框图 


如 图 9-146 所 示 ，IOP 即 为 这 个 IO 设备 的 CPU; RAM 为 执行 代码 必 
需 的 内 人 存 ; ASIC 则 是 辅助 运算 的 专用 心 片 ， 比 如 XOR 运 算 心 片 ， 可 以 
大 大 降低 IOP 的 负担 ， 提 高 运算 速度 ; Flash 用 于 存放 Firmware 和 
Optional ROOM; Bus Controller Chip 用 于 总 线 数据 传输 的 控制 ， 比 如 
PCIE 总 线 控制 。 


图 9-146 ”HBA 结 构 方 框图 
非 Boot 的 HBA 卡 访问 流程 


不 支持 Boot 功 能 的 HBA 卡 可 以 没有 Optional ROM。 这 种 HBA 卡 在 
操作 系统 未 加 载 之 前 不 能 对 其 所 连接 的 物理 设备 进行 访问 。 只 有 在 操 
作 系 统 加 载 之 后 ， 在 操作 系统 中 安装 这 个 设备 的 驱动 程序 ， 方 可 对 其 
所 连接 的 设备 进行 访问 。 

关于 操作 系统 安装 与 启动 

支持 Boot 的 HBA， 虽 然 其 Optional ROM 可 以 在 OS 未 加 载 前 提供 对 
其 自身 的 访问 ， 但 是 由 于 Optional Rom 所 提供 的 访问 方式 也 只 是 非常 


低 效率 的 Int13 方 式 ， 加 之 传统 BIOS 只 运行 在 16b 模 式 下 ， 非 常 古老 ， 
根本 不 能 满足 需求 (EFI BIOS 运 行 在 64b 模 式 下 并 且 对 驱动 支持 方面 有 


了 很 大 改进 ， 另 当 别论 ) 。 所 以 现代 操作 系统 都 要 求 操作 系统 内 必须 
包含 这 个 IO 卡 的 高 级 驱动 ， 除 了 实现 少数 一 些 功能 之 外 ， 几 乎 不 再 调 
用 系统 BIOS 来 访问 IO 设备 。 所 以 ， 在 安 妆 操作 系统 到 某 个 HBA 所 挂 的 
磁盘 时 ， 要 么 操作 系统 安装 介质 已 经 包含 对 应 设备 的 驱动 程序 ， 要 么 
就 需要 手动 用 软盘 等 外 部 介质 加 载 对 应 的 驱动 程序 。 如 果 HBA 所 挂 的 
磁盘 或 者 LUN 上 已 经 安装 有 操作 系统 并 且 携 带 了 对 应 的 驱动 程序 ， 则 
可 以 直接 从 这 个 LUN 启 动 操 作 系统 。 


9.7.2 ”支持 Boot 的 HBA 卡 访问 流程 
具体 过 程 见 下 文 描 述 。 


提示 : 一 台 计 算 机 包含 有 多 个 BIOS。 主 板 BIOS， 也 叫 系统 
BIOS， 包 含 用 于 访问 所 有 常见 IO 设备 的 基本 的 驱动 程序 ， 比 
如 键盘 、 软 驱 、 光 驱 、IDE 硬 盘 控 制 器 、USB 控 制 器 (一 些 
早期 的 主板 BIOS 不 包含 ) 等 。 对 于 一 些 不 常见 也 不 常用 的 IO 
板 卡 ， 或 者 功能 比较 复杂 的 IO 板 卡 ， 比 如 SCSI 卡 、Raid 卡 、 
网 卡 、 显 卡 等 ， 这 些 IO 设 备 一 般 都 具有 自己 的 BIOS， 也 就 是 
将 驱动 自己 的 代码 放 到 自己 的 BIOS 中 ， 这 些 BIOS 会 在 系统 
BIOS 执 行 之 后 逐个 加 载 以 便 让 系统 BIOS 可 以 访问 这 些 设 
备 。 

这 些 IO 设 备 可 以 是 插 卡 形式 的 ， 也 可 以 是 集成 在 主板 上 的 。 
它们 自己 的 BIOS 可 以 存放 在 IO 板 卡 的 必 片 中 ， 也 可 以 作为 附 
加 的 代码 部 分 存放 在 系统 BIOS 所 在 的 芯片 中 的 附加 部 分 ， 所 
以 这 些 BIOS 可 以 被 单独 升级 。 这 些 IO 板 卡 独立 提供 的 BIOS 
又 称 为 Optional ROM。 


Optional ROM 对 于 一 个 IO 板 卡 来 说 并 不 是 必需 的 ， 只 有 以 下 
两 种 情形 才 是 必需 的 。 一 是 : 在 操作 系统 加 载 之 前 需要 被 访 
问 (比如 显卡 ) ， 则 一 定 需要 Optional ROOM。 二 是 : 功能 过 
于 复杂 ， 系 统 BIOS 不 包含 它 的 基本 驱动 代码 。DOS 操 作 系统 
以 及 基于 DOS 的 早期 的 操作 系统 必须 依附 系统 BIOS 来 对 外 设 
进行 IO 操作 ， 原 因 就 是 因为 DOS 操 作 系统 自 身 并 不 包含 任何 
设备 驱动 程序 ， 所 以 只 能 调用 系统 BIOS 执 行 期 间 在 内 存 驻 留 
的 所 有 IO 设备 驱动 程序 。 但 是 近代 操作 系统 都 会 使 用 自身 的 
驱动 程序 直接 操作 IO 设备 ， 并 不 需要 系统 BIOS 的 参与 了 ， 除 
非 操作 系统 需要 对 这 些 IO 设 备 进 行 一 些 非常 底层 的 操作 ， 比 
如 设备 重新 初始 化 等 。 所 以 ， 近 代 操 作 系统 在 启动 之 后 ， 会 
用 自己 的 驱动 程序 替代 系统 BIOS 加 载 的 基本 驱动 程序 。 

系统 BIOS 在 执行 的 过 程 中 ， 会 逐个 加 载 所 有 IO 设备 的 
Optional ROOM。 首先 系统 BIOS 会 对 实 内 存 地 址 0xC0000 到 
0xF0000 进 行 扫描 ， 扫 描 单 位 是 以 2KB 为 边界 。 所 有 具有 
Optional ROM 的 IO 设备 均 会 在 内 存 对 应 地 址 中 映射 这 些 
ROM。 系统 BIOS 一 旦 发 现 0xAA55 这 样 的 字 串 ， 便 知道 这 是 
某 个 IO 设 备 的 ROM 入 口 ，0xAA55 便 是 Optional ROM 的 签 
名 。 在 这 个 签名 之 后 是 一 个 字 节 的 指针 ， 这 个 指针 给 出 了 这 
个 Optional ROM 在 内 存 中 占据 了 多 少 512B 的 Block。 这 个 指 
针 之 后 紧 接 着 的 内 存 部 分 就 是 ROM 实 际 代码 的 入 口 ， 系 统 
BIOS 直 接 跳 转 到 这 个 入 口 开 始 读 取 Optional ROM 代 码 执行 ， 
Optional ROM 会 首先 向 系统 BIOS 注 册 其 中 断 向 量 以 便 被 其 他 
程序 所 访问 ， 其 次 Optional ROM 还 会 提供 一 个 用 户 接口 用 于 
配置 这 个 IO 设备 ， 比 如 很 多 HBA 在 加 电 启 动 之 后 会 在 屏幕 上 
显示 “Press Ctrl 十 Q to enter configuration utility”。 其 次 还 可 以 
提供 对 这 个 IO 设 备 的 一 些 底层 诊断 。 


如 果 某 个 IO 设备 支持 从 其 所 连接 的 外 部 存储 介质 来 启动 操作 
系统 ， 则 如 果 这 个 设备 是 非常 普遍 的 比如 IDE 控 制 器 ， 那 么 
系统 BIOS 中 会 包含 它 的 基本 驱动 ， 则 不 需要 任何 其 他 过 程 ， 
就 可 以 在 系统 BIOS 的 配置 界面 中 选择 从 这 个 IO 设备 启动 。 但 
是 如 果 这 个 IO 设备 需要 Optional ROM， 则 在 未 执行 Optional 
ROM 之 前 ， 系 统 BIOS 中 不 会 识别 到 这 个 IO 设备 ， 从 而 也 就 
会 提供 从 这 个 设备 启动 的 选项 。Optional ROM 执 行 的 过 程 
中 ， 会 利用 一 种 由 系统 BIOS 提 供 的 通用 的 API， 即 BIOS Boot 
Specification (BBS) API 来 向 系统 BIOS 注 册 自 身 ， 这 样 ， 
在 系统 BIOS 配 置 界面 的 Boot sequence 设 置 中 就 可 以 出 现 对 应 
的 设备 和 这 个 设备 已 经 识别 到 的 外 部 介质 了 。 


仔细 的 读者 可 以 发 现 ， 一 般 在 进入 系统 BIOS 配 置 界面 之 前 ， 系 统 
BIOS 都 会 首先 完成 所 有 Optional ROM 的 执行 加 载 过 程 之 后 才 会 进入 配 
置 界面 ， 其 目的 就 是 为 了 收集 所 有 可 供 启 动 的 外 设 列表 。 如 果 在 没有 
加 载 全 部 可 能 的 Optional ROM 之 前 就 进入 配置 界面 ， 则 用 户 也 不 会 看 
到 对 应 的 设备 ， 就 会 造成 不 便 。 


(1) 我 们 以 Qlogic 公 司 QLA2340 FC 卡 来 举例 。 开 机 后 按照 相关 
提示 进入 FC 卡 的 BIOS 配 置 界面 。 如 图 9-147 和 图 9-148 所 示 ， 选 择 需要 
配置 的 卡 ， 进 入 之 后 ， 选 择 Configuration Settings 选 项 。 


图 9-147 ”选择 待 配 置 的 卡 图 9-148 ”进入 Configuration Settings 


(2) 如 图 9-149 所 示 ， 进 入 之 后 ， 选 择 Adapter Settings 选 项 ， 出 现 
如 图 9-150 所 示 的 窗口 。 


图 9-149 ”选择 Adapter Settings 图 9-150 ”Enable BIOS 


(3) 图 中 显示 的 Host Adapter BIOS 就 是 指 Optional ROM ， 将 其 
Enable， 表 示人 允许 系统 BIOS 在 执行 的 过 程 中 加 载 。 退 出 ， 然 后 单 击 图 
9-149 所 示 窗 口中 的 Selectable Boot Settings 来 选择 可 供 启 动 的 LUN， 出 
现 如 图 9-151 所 示 的 窗口 ， 此 处 ， 选 择 4 个 列表 中 的 第 一 个 ， 系 统 将 列 
出 所 识别 到 的 FC Target， 如 图 9-152 所 示 。 选 择 对 应 的 Target， 退 出 。 


图 9-151 进入 Selectable Boot 图 9-152 ”选择 识别 到 的 FC Target 


(4) 出 现 如 图 9-153 所 示 的 窗口 ， 这 个 窗口 列 出 了 这 个 FC Target 
中 所 包含 的 所 有 LUN 和 其 对 应 的 ID。 此 处 ， 选 择 LUN0， 退 出 ， 发 现 
所 选择 的 LUN 已 经 出 现在 Boot List 中 ， 如 图 9-154 所 示 。 


图 9-153 ”进入 Selectable Boot 图 9-154 ”选择 识别 到 的 FC Target 


(5) 在 配置 完成 后 ， 退 出 FC 卡 BIOS 配 置 界面 并 重启 系统 ， 让 
Optional ROM 重 新 向 系统 BIOS 注 册 局 动 LUN 并 且 加 载 Optional ROM。 
这 样 便 可 以 从 LUN 启 动 操 作 系统 了 ， 如 果 操 作 系统 尚 未 安装 ， 则 需 
通过 安装 盘 启 动 后 ， 加 载 对 应 的 驱动 程序 ， 将 系统 安装 在 这 个 LUN 
中 ， 如 图 9-155 和 图 9-156 所 示 。 


图 9-155 ”进入 Selectable Boot 图 9-156 ”选择 识别 到 的 FC Target 


9.8 ”国产 中 高 端 FC 人 磁盘 阵列 


提 到 Infortrend 这 个 名 字 ， 圈 内 人 可 谓 无 人 不 知 无 人 不 晓 ， 但 是 圈 
外 人 可 能 知道 的 不 多 ， 因 为 他 们 的 产品 几乎 被 所 有 二 三 线 厂商 OEM 


过 ， 在 国内 是 可 以 与 经 典 的 LSI 贴 牌 产 品 平起平坐 的 。 这 类 产品 都 有 个 
特点 ， 融 是 中 规 中 号 、 不 高 不 低 ， 该 有 的 都 有 ， 没 有 的 可 二 次 开 友 ， 
硬件 品质 和 做 工 做 展 ， 稳 定 可 靠 ， 特 别 适 合 于 OEM 给 那些 把 持 着 市 场 
和 渠道 能 力 但 是 却 香 于 没有 产品 又 不 想 投入 太 多 研发 成 本 的 厂商 。 
Infortrend 也 算是 在 存储 界 打拼 了 20 年 的 老 厂商 了 ， 其 产品 也 不 知 被 多 
少 其 他 后 入 存储 界 的 厂商 研究 、 学 习 和 借鉴 过 ， 其 在 中 国 国家 专利 局 
有 40 多 项 专利 。 


如 图 9-157 所 示 为 Infortrend 的 产品 Portfolio， 其 中 宫 括 了 同时 支持 
块 和 文件 访问 方式 的 统一 存储 产品 和 ESDS 系 列 块 存储 产品 。 


图 9-157 ”Infortrend 产 品系 列 一 览 


提示 : ESDS4000 和 ESDS5000 系 列 在 落笔 时 即将 上 市 。 
ESVA 系 列 属于 高 端 存 储 系统 。 我 们 将 会 在 本 书 NAS 一 章 里 介 
绍 Infortrend 的 本 书 存 储 产 品 ， 在 集群 一 章 中 介绍 ESVA 特 殊 
的 集群 方式 ， 在 容 灾 一 章 介绍 Infortrend 的 容 灾 复制 技术 。 


Infortrend 的 FC 阵列 产品 分 为 两 个 系列 ， 一 个 是 中 低 端 EonStor DS 
(ESDS) 系列 ; 另 一 个 是 中 高 端 ESVA (Enterprise Scalable Virtualized 
Architecture) 系列 。 


9.8.1 ”Infortrend 中 低 端 ESDS 系 列 存储 系统 


如 图 9-158 所 示 为 ESDS 系 列 的 几 种 规格 ， 其 中 包括 2U 2.5 寸 盘 24 盘 
位 双 控 、2U 3.5 寸 盘 12 盘 位 双 控 、3U 3.5 寸 盘 16 盘 位 双 控 、4U 3.5 寸 盘 
24 盘 位 双 控 ， 以 及 高 密度 的 4U 3.5 寸 盘 48/60 盘 位 双 控 。 


图 9-158 ESDS3000 各 种 规格 的 控制 器 


市 场 上 能 做 高 密度 盘 柜 的 厂商 不 太 多 ， 其 中 不 太 好 掌握 的 几 个 技 
术 是 散热 和 在 线 热 插 拔 。 在 有 些 解决 方案 中 热 插 拔 必 须 把 上 机 箱 盖 全 
部 打开 ， 并 且 要 么 抽出 整个 机 箱 (基本 不 可 行 ， 太 沉 ) ， 要 么 机 箱 上 
方 留 有 足够 空间 ， 这 种 方案 在 维护 的 时 候 很 不 方便 。 而 另外 一 些 方案 
将 磁盘 分 为 多 个 组 ， 每 个 组 放 在 一 个 抽 民 里， 可 以 以 抽 民 为 单元 整个 
拉 出 ， 然 后 更 换 其 中 的 磁盘 。 整 个 抽 居 拉 出 的 时 候 ， 并 不 会 影响 该 抽 
导 内 的 磁盘 IO 访问 ， 这 就 需要 抽 屠 与 控制 器 上 的 SAS 通 道 心 片 / 卡 之 间 
仍 有 物理 连接 。 一 般 是 通过 一 种 叫做 “坦克 链 ” 的 形态 实现 的 ， 或 者 也 
可 以 称 之 为 脐带 。 如 图 9-159 所 示 为 坦克 链 实物 图 ， 这 种 设计 能 保护 和 
稳定 SAS 和 电源 连 线 ， 并 且 随 着 抽 居 的 推 入 可 以 收缩 到 原 有 空间 内 ， 
非常 方便 。 只 需要 注意 抽出 和 插入 时 的 振动 控制 即 可 。 


图 9-159 ”坦克 链 实 物 图 


让 人 比较 惊讶 的 一 点 是 ，Infortrend 能 够 在 4U 空 间 内 容纳 60 块 3.5 寸 
磁盘 十 2 个 存储 控制 器 ， 这 在 业界 是 领先 的 。 如 图 9-160 所 示 为 各 种 规 
格 控制 器 机 头 的 后 视图 。 扩 展 性 方面 ， 每 个 控制 器 均 提 供 一 个 可 更 换 
的 通道 模块 位 。 最 大 可 连接 5 个 磁盘 扩展 柜 ， 如 果 用 60 盘 位 的 高 密度 盘 
柜 ， 再 加 上 控制 器 自 带 的 60 盘 位 ， 总 共 可 以 接 入 360 盘 


图 9-160 ESDS3000 系 列 控制 器 后 视图 


早期 的 外 置 存储 系统 都 是 使 用 电池 直接 保护 所 有 数据 缓存 ， 电 池 
电量 有 限 ， 如 果 长 时 间 无 法 恢复 供电 ， 数 据 就 会 丢失 。 最 新 的 设计 一 
般 都 是 使 用 Flash 介 质 在 掉 电 之 后 永久 存储 数据 缓存 内 的 脏 数据 。 好 处 
是 电池 可 以 不 用 很 大 。 图 9-161 左 图 为 ESDS3000 的 备 电 模块 ， 包 含 电 
闻 和 一 块 Flash 卡 ， 右 图 则 为 传统 备 电 方式 。 


图 9-161 ESDS3000 备 电 模 块 


ESDS3000 支 持 主流 的 存储 协议 ， 包 括 8G/16G FC、1/10GbE Eth、 
6Gb SAS， 并 且 提 供 了 各 种 通道 扩展 模块 ， 如 图 9-162 所 示 。 


图 9-162 ESDS3000 控 制 器 扩展 通道 模块 


9.8.2 ”Infortrend 中 高 端 ESVA 系 列 存 储 系统 


ESVA 全 称 是 Enterprise Scalable Virtualized Architecture ， 主 打 
Scale-Out 和 虚拟 化 。 最 大 单 系统 可 以 Scale-Out 到 12 个 节点 ， 每 节点 400 
块 盘 ， 共 4800 盘 ， 如 图 9-163 所 示 。 


图 9-163 ESVA 存 储 系统 


提示 : 我 们 会 在 第 15 章 讲 集群 的 时 候 介 绍 ESVA 的 Scale-Out 
和 虚拟 化 方式 。 


如 图 9-164 所 示 为 ESVA 系 统 内 单个 节点 配置 ， 机 头 双 控 挂 了 一 批 
扩展 柜 ， 每 个 控制 器 提供 一 个 MiniSAS 后 端 接口 ， 可 以 捉 联 多 个 扩展 
柜 ， 前 端 则 提供 最 大 8 个 FC 接口 和 4 个 Eth 接 口 。 


图 9-164 ESVA 单 节点 示意 图 
9.8.3 ”Infortrend 存 储 软 件 特性 及 配置 界面 


在 软件 特性 方面 ，ESDS 和 ESVA 系 列 支 持 主流 技术 ， 比 如 快照 克 
条 、 自动 精简 配置 Thin Provision、 远 程 复制 、 自 动 存 储 分 级 。 对 于 重 
删 这 种 非 主流 特性 ， 一 般 离线 或 者 近 线 存储 用 得 较 多 ， 不 支持 。 对 于 
快照 ，ESDS 支 持 4096 个 ，ESVA 支 持 16000 个 ; 对 于 自动 存储 分 级 ， 


ESDS 支 持 2 个 层级 ， 而 ESVA 支 持 4 个 层级 。 另 外 ，ESVA 还 支持 针对 
Thin 卷 进行 NTFS/EXT2/EXT3 文 件 系 统 的 空间 回收 ， 这 一 点 难 能 划 


cE 
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提示 : 我 们 会 在 容 灾 的 章节 中 介绍 Infortrend 远 程 复 制 技术 的 
一 些 特点 。 


串口 是 比较 常见 的 配置 接口 ， 多 数 产品 在 串口 配置 方面 做 得 是 比 
较 粗 核 大 叶 的 ， 有 些 只 提供 命令 行 接口 ， 人 机 交换 很 不 友好 。 令 人 欣 
慰 的 是 Infortrend 提 供 了 菜单 模式 的 配置 方式 ， 极 大 增强 了 便捷 性 ， 这 
一 由 插 难 得 的 ， 如 图 9-165 所 示 。 


图 9-165 ”串口 菜单 配置 方式 


同时 ，Infortrend 的 SANWatch GUI 图 形 界 面 ， 其 实 是 Infortrend 的 
一 个 软件 套件 ， 其 包含 了 Storage Manager、 Replication Manager、 
Virtualization Manager、Disk Performance Monitor、EonPath 多 路 径 软 件 


以 及 应 用 快照 一 致 性 代理 组 件 。 
图 9-166 ”SANWatch 套 件 


SANWatch 可 以 让 用 户 用 HTTP 方 式 通过 Web 页 面 来 配置 存储 系 
统 ， 如 图 9-167 玉 图 9-169 所 示 。 可 以 看 到 其 显示 的 元 素 还 是 很 多 样 化 
的 ， 更 加 注重 用 户 体验 ， 在 如 今 互 联网 大 潮 下 ， 还 是 能 够 跟 得 上 时 代 
的 。 


图 9-167 GUI 图 形 界面 (1) 


图 9-168 ”GUI 图 形 界面 (2) 


图 9-169 ”GUI 图 形 界面 (3) 


9.9 ”小结 


磁盘 阵列 的 前 端 和 后 端 用 FC 网 络 作为 通路 取代 原来 的 并 行 SCSI 通 
路 技术 ， 获 得 了 极 大 的 成 功 ! 如 果 说 将 主机 通道 替换 成 FC 通路 只 能 称 
为 半 网 络 的 话 ， 那 么 将 一 个 个 磁盘 作为 FC 网 络 上 的 节点 对 待 ， 可 就 是 
彻 彻底 底 的 网 络 化 存储 系统 了 。 这 也 自然 阐释 了 “网 络 存 储 ”" 和 “存储 网 
络 ” 的 概念 。 


提示 : 此 时 ， 我们 再 来 看 本 书 第 2 章 中 所 描述 的 那个 “网 中 有 
网 ”的 模型 ， 可 以 看 到 ， 整 个 系统 ， 所 有 通路 ， 都 可 以 说 是 网 
络 化 的 了 ， 只 不 过 CPU 内 存 总 线 和 主机 IO 总 线 应 该 算是 半 网 
络 化 ， 只 是 一 个 总 线 ， 上 面 没有 网 络 化 所 特有 的 “协议 ”和 * 开 
销 ”、 包 交换 等 词汇 。 


目前 ，NGIO (Next Generation IO) 已 经 提 上 日 程 。 这 种 架构 就 是 
将 主机 IO 总 线 甚至 内 存 总 线 都 用 交换 式 网 络 来 连接 。 可 想 而 知 ， 这 个 
交换 网 络 速率 肯定 很 高 ， 稳 定性 和 可 扩展 性 也 很 强 。 


到 了 Next Generation 时 代 ， 内 存 、CPU 和 各 种 IO 设备 可 以 在 地 理 
上 相隔 很 远 ， 甚 至 可 以 通过 网 络 共 享 。 内 存 可 以 不 仅仅 被 一 个 CPU 使 
用 ， 多 个 CPU、 多 个 内 存 、 多 个 IO 控制 器 之 间 都 是 点 对 点 交换 式 互 联 
通信 。 这 是 一 个 很 有 吸引 力 的 课题 ， 就 像 存储 网 络 化 一 样 。 对 于 存储 
网 络 化 ， 位 于 A 地 的 主机 可 以 识别 并 使 用 远 在 相隔 千里 的 B 地 一 台 盘 阵 
上 的 LUN。 那 么 对 于 网 络 化 的 系统 总 线 ，A 地 的 CPU 可 以 访问 位 于 B 地 
的 内 存 阵 列 或 者 位 于 B 地 的 某 个 IO 控制 器 ， 它 们 之 间 都 通过 网 络 相 
连 。 


说 明 : 有 人 将 上 面 描述 的 架构 ， 称 为 System Area Network， 
即 SAN (系统 区 域 网 络 ) 。 有 意思 的 是 ， 它 和 Storage Area 
Network 的 简称 同名 。 


目前 基于 PCIE 网 络 的 MR-IOV 已 经 逐步 形成 标准 ， 包 括 
Infiniband、NGIO、FutureIO 在 内 的 多 种 太 过 超前 的 “将 计算 机 总 线 长 
出 主机 外 面 * 的 想法 ， 现 在 看 来 都 没有 成 为 主流 。 那 么 这 次 依赖 开放 式 
低 成 本 高 速 的 PCI-E 通 道 技术 而 生 的 MR-IOV， 同 样 也 是 这 个 目的 ， 它 
是 否 能 够 发 展 为 主流 并 促成 革命 ， 让 我 们 拭目以待 ! 


第 10 章 “三 足见 立 ”DAS、SAN 
和 NAS 


国 DAS 
国 SAN 
国 NAS 


FC 已 经 成 功 地 将 传统 的 磁盘 阵列 改造 成 了 彻底 网 络 化 传输 的 磁盘 
阵列 ， 不 仅 从 盘 阵 到 主机 的 通路 成 了 网 络 化 ， 就 连 盘 阵 后 端 控制 器 到 
磁盘 的 连接 也 被 彻底 网 络 化 了 。 尤 其 对 盘 阵 后 端的 改革 更 是 一 个 惊人 
的 创举 ! 


盘 阵 后 端的 网 络 化 使 可 接 入 磁盘 节点 数 大 大 增加 ， 可 扩展 性 大 大 
增强 。 一 时 间 各 个 厂家 纷纷 制造 出 自己 的 盘 阵 ， 由 于 后 端 接 入 容量 增 
加 ， 这 些 盘 阵 不 是 几 个 磁盘 箱 就 能 放下 的 了 ， 它 们 动 辆 就 要 占用 几 个 
大 机 柜 。 机 房 中 占 地 最 大 的 往往 就 是 存储 设备 ， 而 不 是 主机 设备 。 


存储 区 域 网 络 (Storage Area Network，SAN) 这 个 概念 ， 直 到 FC 
革命 成 功 之 后 ， 其 意义 才 真 正体 现 出 来 ， 存 储 才 真正 走向 了 网 络 化 。 
在 广义 中 ， 各 种 存储 架构 都 可 以 称 为 SAAN， 因 为 就 算 直 接连 到 主板 上 
的 IDE 通 道 也 可 以 连接 两 块 磁盘 。 从 这 种 意义 上 说 ， 它 就 是 一 个 2 节点 
网 络 。 


10.1 NAS 也 疯狂 


武当 旋 张 真人 所 创 。 想 当年 ， 张 真人 融 是 在 武当 创立 了 卷 管理 和 
文件 系统 的 伟大 理论 ! 如 今 ， 张 真人 已 经 逝去 多 年 。 然 而 ， 他 的 理论 
却 被 广泛 地 应 用 着 ， 而 且 深 入 人 心 。 不 过 ， 没 人 会 追究 起 到 底 是 谁 创 
立 了 这 些 理论 ， 因 为 它 太 广泛 了 ， 广 泛 地 以 至 于 没有 人 去 理会 志 了 。 


10.1.1 “另辟蹊径 一 一 乱 谈 NAS 的 起 家 


武当 也 跟 上 了 时 代 的 变化 ， 不 但 本 身 的 体制 从 公有 制 改 成 了 股份 
制 ， 而 且 董 事 会 还 决定 将 武当 仓库 全 面 对 外 开放 ， 利 用 一 切 可 以 利用 
的 手段 便利 。 除 去 货币 贬值 的 因素 ， 收 费 比 张 真人 时 代 贵 出 了 好 几 
音 。 利 润 大 部 分 属于 武当 董事 长 瓜 董 ， 剩 下 的 除了 给 员工 开 点 工资 
外 ， 全 部 用 来 扩容 仓库 和 加 强 仓库 建设 ， 以 获取 更 大 的 利润 。 


1. 武当 仓库 简要 介绍 


武当 仓库 是 一 个 历史 悠久 、 产 远 流 长 的 大 型 仓库 ， 其 创始 人 是 张 
和 真人。 起 初 只 是 为 了 满足 武当 本 派 存放 货物 使 用 ， 后 来 对 外 开放 。 仓 
库 分 为 8 个 库 区 ， 每 个 库 区 中 又 有 不 计 其 数 的 房间 。 整 个 仓库 配备 了 两 
名 仓库 管理 员 ， 各 自 管理 4 个 库 区 。 一 旦 某 个 管理 员 请 假 不 能 到 岗 ， 另 
外 一 位 管理 员 就 要 暂时 管理 全 部 库 区 。 仓 库 共 有 东西 两 道 大 门 ， 各 由 
一 位 库 管 员 把 守 。 仓 库 地 理 位 置 优越 ， 其 前 方 就 是 一 个 立交 桥 大 枢纽 
系统 ， 当 地 路 政 部 门 给 予 武 当 极其 优越 的 条 件 ， 专 门 为 武当 仓库 的 两 
道 大 门 修了 能 直通 大 枢纽 的 高 速 路 。 


武当 仓库 当前 的 运作 模式 如 图 10-1 和 图 10-2 所 示 。 


图 10-1 武当 仓库 当前 运作 模式 图 10-2 ”当前 后 端 存 储 网 络 架 构 


自从 武当 仓库 宣布 对 外 全 面 开 放 后 ， 短 短 的 一 天 内 ，8 个 库 区 全 部 
被 预 售 一 空 。 买 家 当然 都 是 赫赫 有 名 的 大 门派 ， 因 为 也 只 有 他 们 才 出 


得 起 高 价 。 


由 于 体 改 的 时 候 ， 当 年 被 张 真人 看 好 的 微软 道 长 被 的 董 打发 回 家 
了 ， 所 以 现在 武当 仓库 只 有 两 位 根据 提货 单 和 入 库 单 进行 取 货 、 存 货 
的 库 管 员 。 


当前 武当 提货 单 /存货 单 格式 如 图 10-3 所 示 。 
图 10-3 ”当前 武当 仓库 货 


每 个 门派 都 通过 交通 枢纽 来 向 武当 仓库 存 取 货物 。 武 当 存 取 货 物 
的 单据 上 没有 对 货物 属性 的 描述 ， 仓 库 管 理 员 只 需 根 据 货物 存 取 单 据 
上 描述 的 房间 号 段 来 将 对 应 的 货物 取出 或 者 存 入 ， 而 不 管 这 些 货物 是 
什么 ， 有 多 少 。 


所 以 ， 每 个 门派 要 有 一 个 理 货 员 ， 这 个 理 货 员 知道 什么 货 应 该 去 
哪些 房间 提取 ， 以 及 有 多 少 个 空闲 房间 。 他 自己 保留 了 一 个 房间 使 用 
情况 图 ， 每 当 本 门派 需要 提取 什么 货物 ， 理 货 员 就 根据 这 个 对 应 图 计 
算出 货物 对 应 的 存储 房间 ， 然 后 填写 武当 仓库 货物 存 取 单 交 给 仓库 管 
理 员 ， 管 理 员 将 对 应 房间 中 的 所 有 货物 交 给 理 货 员 ， 理 货 员 在 将 货物 
整理 好 后 交 给 本 门派 使 用 。 存 货 的 过 程 也 类 似 ， 理 货 员 记录 好 货物 要 
存 入 的 房间 ， 然 后 填写 货物 存 取 单 ， 将 存 取 单 和 货物 交 给 仓库 管理 
员 。 管 理 员 根据 房间 的 号 码 将 货物 依次 放 入 对 应 房间 。 值 得 说 明 的 
是 ， 货 物 存 取 单 上 的 房间 必须 是 连续 的 ， 不 允许 断 开 存放 。 连 续 的 房 
间 数 量 最 大 是 128 个 ， 超 过 128 个 房间 的 货物 ， 融 需要 填 与 多 张 货物 存 
取 单 了 ， 如 图 10-4 所 示 。 


图 10-4” 填 好 的 货 


武当 所 董 天 天 研究 着 怎么 从 现 有 的 资源 中 ， 榨 取 最 后 一 滴 利润 。 
经 过 调查 ， 他 发 现 各 门派 都 养 着 一 名 理 货 员 。 内 董 心 想 其 他 门派 一 定 
也 很 头疼 ， 能 少 养 人 就 少 状 人。 这 天 晚上 ， 反 复 琢 磨 ， 他 终于 想到 一 
个 绝招 。 由 于 各 门派 目前 都 养 着 一 名 理 货 员 ， 他 们 要 付 劳 务 费 。 如 果 
用 武当 的 人 来 充当 理 货 员 ， 卖 服务 给 各 门派 。 而 每 个 门派 都 会 付 一 份 
劳务 费 给 我 ， 而 我 只 需要 付 一 份 工 资 给 理 货 员 就 可 以 了 。 真 是 一 本 万 
利 啊 ! 


另外 ， 由 于 江湖 政府 换届 时 ， 瓜 董 没有 搞 好 关系 ， 使 武当 每 月 需 
要 向 江湖 政府 缴纳 高 额 的 高 速 公 路 使 用 费 ， 这 让 一 向 以 节省 成 本 著称 
的 瓜 董 香 不 堪 言 。 瓜 董 决定 抛弃 高 速 公 路 ， 使 用 普通 公路 。 


值得 称赞 的 是 ， 瓜 董 不 是 个 爱面子 的 人 ， 他 为 了 节省 成 本 ， 可 以 
不 惜 一 切 代价 。 他 亲自 把 微软 道 长 请 回 了 武当 ， 让 他 担任 仓库 理 货 
总 管 职 务 。 随 后 ， 瓜 董 联系 了 各 门 各 派 学 门人 ， 让 他 们 把 理 货 的 工作 
外 包 给 武当 做 ， 劳 务 费 比 原来 有 所 优惠 。 各 门派 都 同意 了 。 


微软 道 长 手下 可 以 有 多 个 分 管 。 各 个 门派 使 用 的 货物 记录 方式 并 
不 相同 ， 大 部 分 门派 使 用 的 是 微软 道 长 所 创立 的 NTFS 记 录 方 式 ， 而 有 
些 则 使 用 的 是 少林 雷 牛 大 师 所 创 的 EXT 格 式 。 既 然 要 将 货物 记录 服务 
全 部 外 包 给 武当 ， 那 么 微软 道 长 无 疑 要 将 所 有 这 些 门 派 使 用 的 记录 方 
式 都 实现 ， 从 而 为 每 个 门派 服务 。 微 软 道 长 逆 发 布告 示 ， 广 招 天 下 贤 
士 来 任职 分 管 职务 ， 每 个 分 管 管理 其 各 自 的 货物 记录 方式 。 图 10-5 和 
10-6 为 改制 之 后 的 仓库 管理 模式 。 


图 10-5 ”改制 之 后 的 仓库 架构 图 10-6 ”改制 之 后 的 后 端 存储 网 络 架 构 


2. 改制 之 后 的 仓库 架构 


武当 仓库 经 过 这 样 的 改造 之 后 ， 功 能 更 加 强大 了 。 唯一 不 足 的 是 
为 了 蔬 省 成 本 将 原本 高 成 本 的 高 速 公 路 替换 成 了 普通 公路 。 


原来 的 单据 显然 不 适合 仓库 当前 的 运作 模式 了 ， 仓 库 的 货物 存 取 
单 也 改版 了 ， 如 图 10-7 所 示 。 


图 10-7 ”改制 之 后 的 货 单 


从 武当 仓库 整改 之 后 的 新 单据 中 可 以 发 现 ， 现 在 各 个 门派 只 要 告 
诉 武当 仓库 的 理 货 员 需要 什么 货物 及 多 少数 量 就 可 以 了 ， 完 全 不 用 记 
录 这 些 货物 实际 放 到 了 哪个 房间 ， 在 哪里 及 怎么 去 这 些 内 容 。 计 算 这 
些 复杂 的 对 应 关系 的 工作 完全 移交 给 了 武当 仓库 理 货 员 来 做 。 理 货 员 
计算 好 之 后 ， 生 成 提货 /存货 单 ， 交 给 库 管 员 ， 直 接 去 对 应 房间 提 / 存 
货物 。 理 货 员 与 库 管 员 之 间 的 交互 ， 速 度 快 了 很 多 ， 因 为 完全 是 在 仓 
库 内 部 进行 通信 了 ， 不 需要 跨越 缓慢 的 公路 交通 系统 。 


经 过 实践 ， 瓜 董 的 这 套 做 法 还 真 取 得 了 显著 成 效 ， 各 门派 无 须 雇 
用 理 货 员 ， 无 须 支 付 昂贵 的 高 速 费 ， 节 省 了 成 本 。 同 时 ， 内 董 也 发 了 
财 。 不 过 唯一 不 足 的 是 对 于 普通 公路 进行 货运 的 速度 ， 各 门派 不 太 满 
意 。 但 是 相对 于 成 本 大 大 降低 和 便捷 融 来 的 好 处 ， 各 门派 也 只 有 牺牲 
速度 了 。 


10.1.2 ”双管齐下 一 一 两 种 方式 访问 的 后 端 存储 网 络 


但 是 有 的 仓库 租用 者 对 这 种 方案 并 没有 兴趣 ， 他 们 不 但 追求 速 
度 ， 而 且 情 愿 用 自己 的 理 货 员 ， 也 不 相信 仓库 提供 的 理 货 员 。 这 种 客 
户 得 罪 不 起 ， 那 么 就 给 他 单独 的 政策 ， 还 是 采用 原来 的 方式 使 用 仓 


库 ， 和 新 方式 互 不 影响 。 在 仓库 前 面 开 屏 了 新 的 道路 去 接 入 高 速 枢 
纽 。 这 样 就 满足 了 两 种 不 同 的 需求 ， 如 图 10-8 和 图 10-9 所 示 。 


图 10-8 ” 旁 路 传统 访问 图 10-9 ”两 种 方式 访问 的 后 端 存 储 网 络 


10.1.3 “万 物 归 一 一 一 网 络 文件 系统 


微软 老道 在 吸取 内 董 的 思想 之 后 ， 终 于 创立 了 目 己 的 理论 。 武 当 
的 仓库 就 像 一 个 大 的 卷 ， 一 个 大 的 磁盘 阵列 。 它 可 以 划分 出 多 个 LUN 
供 多 个 使 用 者 使 用 。 而 每 个 使 用 者 必须 有 自己 的 文件 系统 ， 因 为 这 个 
LUN 只 是 一 个 卷 设备 ， 只 提供 了 不 计 其 数 的 房间 存放 货物 。 人 至 于 起 么 
存放 货物 。 需 要 由 使 用 者 自己 决定 和 管理 ， 也 就 是 用 文件 系统 来 管理 
卷 ， 像 理 货 员 作 货 物 记 录 一 样 。 


微软 老道 把 瓜 董 的 思想 用 在 了 存储 上 ， 他 把 文件 系统 的 功能 从 使 
用 者 处 迁移 到 了 磁盘 阵列 之 上 ， 让 磁盘 阵列 自己 管理 存储 空间 。 而 对 
外 提供 统一 的 用 户 接 口 (货物 存 取 单据 v2.0) ， 使 得 使 用 者 不 用 再 记 
录 某 某 文 件 和 卷 上 扇 区 或 者 簇 块 的 对 应 关系 ， 这 个 工作 统统 由 盘 阵 上 
的 集中 式 文件 系统 模块 处 理 。 使 用 者 只 需 通 过 网 络 告诉 这 个 文件 系统 
需要 存 取 什 么 文件 ， 长 度 是 多 少 就 可 以 了 。 具 体 存 取 数据 的 过 程 ， 由 
集中 式 文 件 系统 来 做 ， 使 用 者 只 需 等 待 接收 数据 就 可 以 了 。 同 样 ， 在 
存 文件 的 时 候 ， 使 用 者 只 需 告 诉 文 件 系统 要 存 哪 些 数 据 ， 提 供 一 些 文 
件 名 、 长 度 、 哪 个 目录 下 等 信息 就 可 以 了 ， 至 于 文件 存 到 卷 的 哪些 空 
余 扇 区 完全 由 盘 阵 上 的 文件 系统 逻辑 来 处 理 ， 使 用 者 不 必 关 心 。 


位 于 盘 阵 上 的 集中 式 文件 系统 得 蔓 于 包 交 换 网 络 ， 可 以 同时 处 理 
多 个 使 用 者 的 请 求 。 它 可 以 给 每 个 使 用 者 提供 各 自 的 文件 夹 目录 ， 并 


且 可 以 为 这 些 目录 限定 允许 存放 的 最 大 数据 量 。 总 之 ， 文 件 系统 可 以 
实现 的 任何 功能 都 可 以 在 盘 阵 上 实现 。 


1. 网 络 文件 系统 


使 用 者 如 何 与 盘 阵 上 的 集中 式 文 件 系 统 进行 交互 呢 ? 当然 是 通过 
网 络 来 传递 数据 。 由 于 一 直 以 来 的 习惯 ， 以 太 网 加 TCP/IP 成 为 了 首选 
的 网 络 方式 。 除 了 底层 传输 网 络 ， 还 必须 定义 上 层 的 应 用 逻辑 。 


针对 上 层 逻 辑 ， 微 软 定义 了 自己 的 一 套 规范 ， 叫 做 CIFS 

(Common Internet File System) ， 意 思 是 Internet 范 围 的 FS。Linux 和 

UNIX 系统 使 用 了 另 一 种 方式 ， 称 为 NFS (Network File System) ， 这 
些 上 层 协 议 都 是 利用 TCP/IP 协 议 进 行 传 输 的 。 


以 上 描述 的 模型 统称 为 “网 络 文 件 系 统 ”"。 这 种 文件 系统 逻辑 不 是 
在 本 地 运行 ， 而 是 在 网 络 上 的 其 他 节点 运行 ， 使 用 者 通过 外 部 网 络 将 
读 写 文 件 的 信息 传递 给 运行 在 远 端的 文件 系统 ， 也 就 是 调用 远程 的 文 
件 系统 模块 ， 而 不 是 在 本 地 内 存 中 调用 文件 系统 的 API 来 进行 。 所 以 
网 络 文件 系统 又 叫做 远程 调用 式 文件 系统 ， 也 就 是 RPC FS (Remote 
Procedure Call File System) 。 


相对 于 SAN 来 说 ， 这 种 网 络 文件 系统 不 仅 磁 盘 或 卷 在 远程 节点 

， 连 文件 系统 功能 也 搬运 到 了 远程 节点 上 。 本 地 文件 系统 可 以 直接 
ee 线 访问 内 存 来 调用 其 功能 。 而 网 络 文件 系统 只 能 通过 
网 络 适配器 上 连接 的 网 线 而 不 是 主板 上 的 导线 来 访问 远 端 的 文件 系统 
功能 。 


网 络 文件 系统 在 网 络 上 传递 的 是 些 什么 内 容 呢 ? 下 面 用 抓 包 的 方 
式 来 分 析 一 下 。 


2。. CIFS 协 议 网 络 包 分 析 


在 某 个 用 CIFS 访 问 方式 的 目录 下 新 建 一 个 文本 文档 ， 然 后 将 它 删 
除 。 此 过 程 中 抓 取 网 络 流量 。 在 CIFS 方 式 下 ， 仅 仅 上 述 两 个 动作 ， 就 
引发 了 网 络 上 数 百 个 包 的 流量 〈 如 图 10-10 所 示 ) ， 可 见 CIFS 是 一 个 开 
销 非 常 大 的 NAS 协 议 。 这 里 就 不 一 一 分 析 每 个 包 了 。 


图 10-10 ”CIFS 协 议 交 互 的 数据 包 
3。NFS 协 议 网 络 包 分 析 


一 台 Linux 客 户 端 上 使 用 NFSv3 来 Mount 一 台 NFS 服 务 器 上 的 某 
个 目录 到 本 地 的 /mnt 目 录 下 。 进 入 这 个 目录 ， 然 后 用 touch a 命令 来 创 
建 一 个 名 为 a 的 文件 ， 然 后 执行 vi a， 进 入 编辑 模式 ， 不 作 任何 修改 ， 
退出 ， 之 后 用 rm a 命 令 来 删除 这 个 文件 。 其 间 抓 取 网 络 上 的 流量 。 


提示 : 10.128.132.45 是 NFS 客 户 端 的 IP 地 址 ，10.128.132.175 
是 NFS 服 务 器 端的 IP 地 址 。 分 析 结 果 已 经 去 除了 不 必要 的 
TCP 包 以 及 TCP_ACK 等 包 。 


图 10-11 显 示 的 是 这 个 过 程 中 网 络 上 双方 所 交互 的 主要 数据 包 。 
图 10-11 ”NFS 方式 下 网 络 上 的 数据 包 


可 以 看 到 ，NFS 协 议 的 开销 远 远 小 于 CIFS 协 议 。 完 成 相似 动作 ， 
NFS 只 需要 交互 十 几 个 包 即 可 。 下 面 来 分 析 每 个 包 的 作用 。 


Framel (如 图 10-12 所 示 ) : 客户 端 在 创建 文件 之 前 ， 首 先 做 了 一 
次 lookup 操 作 ， 来 查找 当前 目录 中 是 否 已 经 有 同名 文件 ; 如 果 有 ， 则 
拒绝 创建 。 图 中 的 DH 表示 Directory Handle， 是 一 个 32 字 节 长 的 字段 ， 
这 个 值 用 来 指 代 目录 名 称 。 在 第 一 次 访问 某 个 目录 时 ，NFS 服 务 端 会 
动态 分 配 这 个 值 ， 将 其 通知 给 客户 端 。 随 后 的 访问 请 求 中 ， 客 户 端 将 
使 用 这 个 值 而 不 是 目录 名 称 来 向 NFS 服 务 端 发 起 针对 这 个 目录 的 请 
求 。 


图 10-12 ”客户 端的 Lookup 请 求 


提示 : 图 中 DH 值 的 hash 值 为 0x98f8d6bb， 为 了 表示 方便 ， 抓 
包 软 件 将 其 hash 成 一 个 4 字 节 的 值 ， 这 个 hash 值 并 不 是 存在 于 
网 络 包 中 的 。 本 例 中 ，/mnt 目 录 被 指定 的 DH 值 的 hash 值 就 是 
0x98f8d6bb。 


Frame2 (如 图 10-13 所 示 ) : 为 NFS 服 务 端 对 Frame1 的 回应 。 通 过 
ERR_NOENT 可 以 判断 出 当前 目录 并 没有 名 为 8 的 文件 。 


图 10-13 ”Lookup 请 求 的 回应 


Frame4 (如 图 10-14 所 示 ) : 客户 端 随即 发 起 了 “Create Callj”， 创 
建 和 a” 文件 。 


10-14 客户 端的 Create 请 求 


Frame5 (如 图 10-15 所 示 ) : NFS 服 务 端 对 客户 端 Frame4 的 回应 。 
创建 成 功 ， 服 务 端 返回 File Handle (FH) 的 hash 值 为 0xf03ce91c。FH 
与 DH 一 样 ， 在 数据 包 中 实际 上 也 为 一 个 32 字 节 长 的 字段 。 为 了 表示 方 


便 ， 抓 包 软 件 将 其 hash 成 一 个 4 字 节 的 值 。 随 后 的 交互 中 客户 端 不 会 用 
文件 名 来 向 服务 端 请 求 操作 ， 而 全 部 用 这 个 File Handle 来 指 代 。 


图 10-15 “Create 请 求 的 回应 


Frame6 (如 图 10-16 所 示 ) : 文件 *a” 创 建成 功 之 后 ， 出 于 保险 起 
见 ， 应 用 程序 一 般 都 会 紧 接 着 查询 一 下 文件 属性 ， 顺 便 确 认 文 件 是 否 
创建 成 功 。“GetAttr Call* 就 是 用 来 查询 文件 属性 用 的 一 种 RPC call。 从 
图 中 可 以 看 到 对 应 的 FH 值 为 0xf03ce91c，NFS 服 务 端 收 到 这 个 值 就 会 
自动 对 应 成 文件 “a”。 


10-16 客户 端的 GetAttr 请 求 


Frame7 (如 图 10-17 所 示 ) : NEFS 服 务 端 对 Frame6 的 回应 。 包 中 可 
以 看 到 文件 的 umask 访 问 权 限 以 及 atime、mtime、ctime 属 性 。 


图 10-17 GetAttr 请 求 的 回应 


Frame8 (如 图 10-18 所 示 ) : 紧 接 着 NFS 客 户 端 发 起 了 一 个 查 
询 /mnt 目 录 属 性 的 请 求 。 因 为 Handle 的 值 为 0x98f8d6bb， 所 以 可 以 判 
断 这 个 GetAttr Call 是 针对 /mnt 目 录 的 。 


图 10-18 ”客户 端 针 对 /mnt 目 录 的 GetAttr 请 求 
Frame9 (如 图 10-19 所 示 ) : _ NFS 服务 端 对 Frame8 的 回应 。 
图 10-19 ”针对 GetAttr 请 求 的 回应 


Frame10 (如 图 10-20 所 示 ) : NFS 客 户 端 发 起 一 个 在 /mnt 目 录 中 
查找 文件 “a” 的 请 求 。 这 里 由 于 是 查找 操作 ， 客 户 端 会 假设 不 知道 “a” 


文件 的 FH 值 ， 而 只 知道 /mnt 目 录 的 DH 值 ， 所 以 文件 名 “a”* 使 用 的 就 是 
ASCII 码 的 “a”。 


图 10-20 ”客户 端的 Lookup 请 求 


Frame11 (如 图 10-21 所 示 ) : NFS 服 务 端 根据 Frame10 中 请 求 的 回 
应 找到 这 个 文件 ，FH 值 是 0xf03ce91c。 


10-21 针对 Lookup 请 求 的 回应 


Frame12 (如 图 10-22 所 示 ) : NFS 客 户 端 发 起 一 个 SetAttr Call 的 请 
求 ， 这 个 请 求 的 目的 是 为 了 改变 文件 属性 。 可 以 看 到 客户 端 请 求 将 文 
件 的 atime 和 mtime 改 为 服务 端 当前 的 系统 时 间 。 


图 10-22 ”客户 端的 SetAttr 请 求 


Frame13 (如 图 10-23 所 示 ) : 对 Frame12 的 回应 。 可 以 看 到 
atime、 ctime 在 之 前 和 之 后 的 不 同 ， 当 然 ， 时 间 差 别 都 在 微 秒 级 ， 因 为 
这 一 连 串 的 请 求 其 实 是 在 很 短 的 时 间 | 里 发 出 去 并 得 到 应 答 的 。 


图 10-23 ”针对 SetAttr 请 求 的 回应 


Frame15 (如 图 10-24 所 示 ) : 由 于 在 客户 端 执行 了 “rm a” 的 命 
令 ， 所 以 客户 端 发 起 一 个 对 /mnt 目 录 的 访问 请 求 。 其 实 客户 端 在 抓 包 
期 间 一 直 处 于 /mnt 目 录 中 ， 至 于 为 何 要 重新 发 起 Access 请 求 ， 与 具体 
应 用 程序 的 代码 有 关 ， 可 能 开发 者 为 了 确认 /nt 目录 的 DH 值 没有 过 
期 ， 所 以 重新 试探 访问 。 


10-24 客户 端 针 对 /mnt 目 录 的 Access 请 求 


Frame16 (如 图 10-25 所 示 ) : NFS 服 务 端 对 Frame15 的 回应 。 
图 10-25 “针对 Access 请 求 的 回应 


Frame18 (如 图 10-26 所 示 ) : 此 时 ， 客 户 端 由 于 输入 了 “rm a” 命 
令 ， 所 以 客户 端 首先 要 查询 一 下 文件 “a”* 的 权限 ， 因 此 客户 端 发 起 一 个 
GetAttr 的 请 求 来 查询 文件 “a” 的 权限 。 


图 10-26 ”客户 端的 GetAttr 请 求 
Frame19 (如 图 10-27 所 示 ) : NFS 服 务 端 对 Frame18 的 回应 。 
图 10-27 针对 GetAttr 请 求 的 回应 


Frame20 (如 图 10-28 所 示 ) : NFS 客 户 端 发 起 对 文件 “a” 的 Access 
请 求 。 至 于 为 何在 删除 文件 之 前 要 发 起 Access 请 求 ， 与 编码 习惯 有 
关 。 


图 10-28 客户 端的 Access 请 求 
Frame21 (如 图 10-29 所 示 ) : NFS 服 务 端 对 Frame20 的 回应 。 
图 10-29 ”针对 Access 请 求 的 回应 


Frame23 (如 图 10-30 所 示 ) : NFS 客 户 端 发 起 Remove 请 求 。 可 以 
到 Remove 请 求 中 并 没有 使 用 FH， 而 是 直接 使 用 了 文件 名 。 


图 10-30 ”客户 端的 Remove 请 求 


Frame24 (如 图 10-31 所 示 ) : NFS 服 务 端 对 Frame23 的 回应 。 


10-31 针对 Remove 请 求 的 回应 


可 以 看 到 ， 基 于 NAS 的 数据 访问 ， 客 户 端 并 不 关心 文件 存放 在 磁 
盘 的 哪些 扁 区 ， 这 些 逻 辑 全 部 由 NAS 服 务 端 处 理 ， 客 户 端 向 NAS 设 备 
发 送 的 只 有 各 种 文件 操作 请 求 以 及 实际 的 文件 流 式 数 据 。 


提示 : 大 家 可 以 在 12.4 节 看 到 有 关 ISCSI 的 抓 包 分 析 ， 可 以 作 
一 下 对 比 ， 两 者 交互 的 语言 完全 不 同 。 


10.1.4” 美 其 名 日 一 一 NAS 


这 种 带 有 集中 式 文 件 系 统 功 能 的 盘 阵 叫做 网 络 附 加 存储 (Network 
Attached Storage, NAS) 。 


提示 : NAS 不 一 定 是 盘 阵 ， 一 台 普 通 的 主机 就 可 以 做 成 
NAS， 只 要 它 自己 有 磁盘 和 文件 系统 ， 而 且 对 外 提供 访问 其 
文件 系统 的 接口 (如 NFS、CIFS 等 ) ， 它 就 是 一 台 NAS。 常 
用 的 Windows 文 件 共 享 服务 器 就 是 利用 CIFS 作 为 调用 接口 协 
议 的 NAS 设 备 。 一 般 来 说 ，NAS 其 实 就 是 处 于 以 太 网 上 的 一 
台 利 用 NFS、CIFS 等 网 络 文件 系统 的 文件 共享 服务 器 。 人 至 于 
将 来 会 不 会 有 FC 网 络 上 的 文件 提供 者 ， 也 就 是 FC 网 络 上 的 
NAS， 就 要 看 是 否 有 人 尝试 了 。 


1. SAN 和 NAS 的 区 别 


前 面 说 过 ，SAN 是 一 个 网 络 上 的 磁盘 ，NAS 是 一 个 网 络 上 的 文件 


提示 : 根据 SAN 的 定义 ， 即 “存储 区 域 网 络 ?"，SAN 其 实 只 是 
一 个 网 络 ， 但 是 这 个 网 络 内 包含 着 各 种 各 样 的 元 素 ， 如 主 
机 、 适 配器 、 网 络 交 换 机 、 磁 盘 阵 列 前 端 ”、 盘 阵 后 端 、 磁 盘 
等 。 应 该 说 ，SAN 是 一 个 最 大 的 范围 ， 涵 盖 了 一 切 后 端 存储 
相关 的 内 容 。 所 以 从 这 个 角度 来 看 ，SAN 包 含 了 NAS， 因 为 
NAS 的 意思 是 “网 络 附加 存储 ”， 它 说 的 是 一 种 网 络 存储 方 
式 ， 这 样 它 就 没有 理由 不 属于 SAN 的 范畴 。 所 以 ， 我 认为 
SAN 包 含 NAS。 长 时 间 以 来 ， 人 们 都 用 SAN 来 特 指 FC， 特 指 
远 端的 磁盘 。 那 么 ， 假 设 设计 出 一 种 基于 FC 网 络 的 NAS， 此 
时 SAN 代 表 什 么 呢 ? 会 产生 滑稽 的 矛盾 。 但 是 ， 似 乎 还 真 想 
不 出 一 种 更 简便 、 更 直观 的 叫 法 来 称呼 “FC 网 络 上 的 磁盘 ”这 
个 事物 。 到 此 我 也 陷入 定义 的 洲 涡 了 ， 所 以 我 们 最 好 还 是 入 
乡 随 俗 。 本 书 之 后 的 文字 中 ， 就 把 FC 网 络 上 的 磁盘 叫做 
SAN， 把 以 太 网 络 上 的 文件 系统 称 为 NAS。 这 里 就 是 提 一 
下 ， 不 要 被 表象 所 迷惑 。 


2。FTP 服 务 器 为 什么 不 属于 NAS 


我 们 必须 明白 什么 是 网 络 文件 系统 ， 网 络 文件 系统 与 本 地 文件 系 
统 的 唯一 区 别 ， 就 是 传输 方式 从 主板 上 的 导线 变 成 了 以 太 网 络 ， 其 他 
方面 包括 调用 的 方式 对 于 上 层 应 用 来 说 没有 任何 改变 。 


这 就 意味 着 ， 一 旦 用 户 挂 载 了 一 个 网 络 文件 系统 目录 到 本 地 ， 那 
么 他 就 可 以 像 使 用 本 地 文件 系统 一 样 使 用 网 络 文件 系统 。 


在 Windows 系 统 中 ， 可 以 直接 双击 共享 目录 中 的 程序 将 其 在 本 机 
运行 (实际 上 是 先 通过 以 太 网 将 这 个 程序 文件 传输 到 本 地 的 缓存 ， 然 
后 才 在 本 地 执行 ， 而 不 是 在 远 端 执行 ) 。 而 FTP 无 法 做 到 这 一 点 ，FTP 


不 能 实现 诸如 挂 载 等 动作 ， 它 不 是 实时 的 。 只 有 通过 FTP 将 文件 传输 
到 本 地 的 某 个 目录 之 后 才能 执行 ， 而 且 这 个 程序 执行 需要 的 所 有 文件 
都 必须 在 本 地 。 


而 网 络 文件 系统 则 不 然 ， 即 便 某 个 本 地 执行 的 程序 需要 访问 远 端 
的 某 些 文件 ， 它 也 可 以 直接 访问 远 端 的 文件 ， 不 需要 预先 将 数据 复制 
到 本 地 再 访问 。 所 以 ，FTP、HTTP 和 TFTP 等 文件 服务 并 不 属于 网 络 
文件 系统 ， 也 不 属于 NAS。 


3. 普通 台式 机 可 以 充当 NAS 吗 

完全 可 以 ， 只 要 具备 NAS 的 特性 ， 就 可 以 充当 NAS。 

NAS 必 须 具备 的 物理 条 件 如 下 。 

不 管用 什么 方式 ，NAS 必 须 可 以 访问 卷 或 者 物理 磁盘 。 

NAS 必 须 具 有 接 入 以 太 网 的 能 力 ， 也 就 是 必须 具备 以 太 网 卡 。 


普通 台式 机 具备 了 这 两 个 条 件 ， 就 可 以 充当 NAS。 我 们 只 要 编写 
程序 从 磁盘 提取 或 者 存放 数据 ， 记 录 好 这 些 数 据 的 组 织 方法 ， 然 后 通 
过 网 络 文件 系统 协议 规定 的 格式 进行 发 送 或 接收 ， 就 可 以 实现 NAS 的 
功能 。 或 者 可 以 直接 在 操作 系统 上 编程 ， 直 接 利用 操作 系统 已 经 实现 
好 的 文件 系统 和 网 络 适配器 驱动 程序 ， 所 要 做 的 只 是 利用 操作 系统 提 
供 的 足够 简单 的 API 编 写 网络 文 件 系统 的 高 层 协议 逻辑 即 可 。 


10.2 ”龙争虎斗 -NAS 与 SAN 之 争 


10.2.1 SAN 快 还 是 NAS 快 


很 多 人 都 在 问 ， 到 底 是 SAN 快 还 是 NAS 快 ?要 解答 这 个 问题 , 方 
法 非常 简单 ， 和 百 米 赛跑 一 样 ， 只 要 计算 起 点 到 终点 的 距离 、 耗 时 、 
开销 就 可 以 了 。 


SAN 的 路 径 图 如 图 10-32 所 示 。 

图 10-32” ”SAN 方式 路 径 图 
NAS 的 路 径 图 如 图 10-33 所 示 。 

图 10-33 NAS 方 式 路 径 图 


显然 ，NAS 架 构 的 路 径 在 虚拟 目录 层 和 文件 系统 层 通 信 的 时 候 ， 
用 以 太 网 络 和 TCP/P 协 议 代 替 了 内 存 ， 这 样 做 不 但 增加 了 大 量 的 CPU 
自 令 周期 (TCP/IP 人 逻辑 和 以 太 网 卡 驱动 程序 ， 而 且 使 用 了 低速 传输 
介质 《内 存 速度 要 比 以 太 网 快 得 多 ) 。 而 SAN 方 式 下 ， 路 径 中 比 NAS 
方式 多 了 一 次 FC 访问 过 程 ， 但 是 FC 的 逻辑 大 部 分 都 由 适 配 卡 上 的 硬件 
完成 ， 增 加 不 了 多 少 CPU 开 销 ， 而 且 FC 访 问 的 速度 比 以 太 网 高 。 所 以 
我 们 很 容易 得 出 结论 。 如 果 后 端 磁盘 没有 瓶颈 ， 那 么 除非 NAS 使 用 快 
于 内 存 的 网 络 方式 与 主机 通信 ， 否 则 其 速度 永远 无 法 超越 SAN 架 构 。 


目前 万 兆 以 太 网 络 已 经 逐渐 普及 ， 如 果 拿 万 兆 和 8GbFC 相 比 ， 底 
层 裸 速率 一 定 是 万 兆 的 要 快 ， 此 时 就 要 看 上 层 的 交互 效率 了 。 对 于 
NAS 访 问 协 议 ， 每 一 笔 针 对 文件 的 操作 ， 比 如 Create () /Open () 、 
Lookup () 、Getattr () 、Setattr () 、Read ( /Write () 等 ， 都 需 
要 经 过 网 络 传输 ， 而 对 于 SAN 来 讲 ， 由 于 文件 系统 运行 在 Host 本 机 ， 
大 部 分 文件 系统 元 数据 也 都 可 以 被 缓存 到 Host 本 地 内 存 ， 所 以 大 部 分 
针对 文件 的 非 读 写 操作 (比如 Open () 上 Lookup () 等 ) ， 都 可 以 在 
本 地 内 存 完 成 调用 ， 此 时 速度 非常 快 ， 但 是 这 些 操作 在 NAS 环 境 下 ， 


就 得 通过 网 络 远程 向 NAS Server 发 起 请 求 ， 时 延 激 增 ， 虽然 NAS 
Client 端 也 有 一 小 部 分 缓存 ， 但 是 毕竟 不 如 整个 Host 本 地 FS 的 缓存 占据 
的 容量 大 。 当 你 的 应 用 场景 多 是 这 类 IO 请 求 的 话 ， 那 么 性 能 远 比 不 过 
SAN， 但 是 你 的 场景 如 果 是 Read () /Write () 请 求 居多 ， 也 就 是 读 
与 实际 数据 的 请 求 占 多 数 的 时 候 ， 此 时 速度 就 大 多 取决 于 底层 物理 链 
路 的 带宽 了 。 


既然 NAS 一 般 情况 下 不 比 SAN 快 ， 为 何 要 让 NAS 诞 生 呢 ? 既然 
NAS 不 如 SAN 速 度 快 ， 那 么 它 为 何 要 存在 呢 ? 具体 原因 如 下 。 


NAS 的 成 本 比 SAN 低 很 多 。 前 端 只 使 用 以 太 网 接口 即 可 ，FC 适 配 
卡 以 及 交换 机 的 成 本 相对 以 太 网 卡 和 以 太 交 换 机 来 说 是 非常 高 的 。 


NAS 可 以 解放 主机 服务 器 上 的 CPU 和 内 存 资源 。 因 为 文件 系统 的 
逻辑 是 要 靠 CPU 的 运算 来 完成 的 ， 同 时 文件 系统 还 需要 占用 大 量 主机 
内 存 用 作 缓 存 。 所 以 ，NAS 适 合用 于 CPU 密集 的 应 用 环境 。 


由 于 基于 以 太 网 的 TCP/ 了 传输 数据 ， 所 以 NAS 可 扩展 性 很 强 。 只 
要 有 了 的 地 方 ，NAS 就 可 以 提供 服务 ， 且 容易 部 署 和 配置 。 


NAS 设 备 一 般 都 可 以 提供 多 种 协议 访问 数据 。 网 络 文件 系统 只 是 
其 提供 的 一 种 接口 而 已 ， 还 有 诸如 HTTP、FTP 等 协议 方式 。 而 SAN 只 
能 使 用 SCSI 协 议 访问 。 


NAS 可 以 在 一 台 盘 阵 上 实现 多 台 客 户 端的 共享 访问 ， 包 括 同时 访 
问 某 个 目录 或 文件 。 而 SAN 方 式 下 ， 除 非 所 有 的 客户 端 都 安装 了 专门 
的 集群 管理 系统 或 集群 文件 系统 模块 ， 否 则 不 能 将 某 个 LUN 共 享 ， 强 


制 共 享 将 会 损毁 数据 。 


经 


过 特别 优化 的 NAS 系 统 ， 可 以 同时 并 发 处 理 大 量 客户 端的 请 


求 ， 提 供 比 SAN 方 式 更 方便 的 访问 方法 。 


多 


台 主机 可 以 同时 挂 接 NFS 上 的 目录 ， 那 么 相当 于 减少 了 整个 系 


统 中 文件 系统 的 处 理 流 程 ， 由 原来 的 多 个 并 行 处 理 转 化 成 了 NFS 上 的 
单一 实例 ， 简 化 了 系统 风 余 度 。 


10.2.2 SAN 好 还 是 NAS 好 


关于 IO 密集 和 CPU 密集 说 明 如 下 。 


CPU 密集 : 指 的 是 某 种 应 用 极其 耗费 CPU 资源 ， 其 程序 内 部 逻 
辑 复杂 ， 而 且 对 磁盘 访问 量 不 高 。 如 超频 爱好 者 常用 的 CPU 测 
试 工具 就 是 这 种 应 用 ， 这 种 程序 在 运行 的 时 候 ， 根 本 不 用 读 取 


而 已 。 进 程 运行 之 后 便 会 使 CPU 的 核心 处 于 全 速 状态 ， 这 会 造 
成 其 他 进程 在 同一 时 间 内 只 获得 很 少 的 执行 时 间 ， 影 响 了 其 他 
程序 的 性 能 。 在 必要 时 ， 可 以 将 多 台 机 器 组 成 集群 来 运行 这 种 
程序 。 

IO 密集 : 指 的 是 某 种 应 用 程序 的 内 部 逻辑 并 不 复杂 ， 耗 费 的 
CPU 资源 不 多 ， 但 是 要 随时 存 取 硬盘 上 的 数据 。 比 如 FTP 服 务 
器 之 类 程序 就 是 这 种 。 

IO 和 CPU 同时 密集 : 这 种 应 用 程序 简直 就 是 梦 厅 。 为 了 获得 高 
性 能 ， 大 部 分 这 类 程序 都 不 适合 用 单 台 机 器 运行 ， 必 须 组 成 集 
群 系统 来 运行 这 种 应 用 程序 ， 包 括 前 端 运 算 节点 的 集群 和 后 端 
存储 节点 的 集群 。 


显然 ， NAS 对 于 大 块 连续 IO 密集 的 环境 ， 要 比 SAN 慢 一 大 截 ， 原 
因 是 积累 效应 。 经 过 大 量 IO 积 累 之 后 ， 总 体 差别 就 显现 出 来 了 。 不 
过 ， 如 果 要 使 用 10Gb/s 以 太 网 这 种 高 速 网 络 ， 无 疑 要 选用 NAS ， 因 为 
底层 链 路 的 速度 毕竟 是 目前 NAS 的 根本 瓶 须 。 此 外 ， 如 果 是 高 并 发 随 
机 小 块 1O 环 境 或 者 共享 访问 文件 的 环境 ，NAS 会 表现 出 很 强 的 相对 性 
能 。 如 果 SAN 主 机 上 的 文件 系统 碎片 比较 多 ， 那 么 读 写 某 个 文件 时 便 
会 产生 随机 小 块 IO， 而 NAS 自 身 文件 系 统 会 有 很 多 优化 设计 ， 余 片 相 
对 少 。CPU 密 集 的 应 用 可 以 考虑 使 用 NAS。 


SAN 与 NAS 有 各 自 的 优点 和 缺点 ， 需 要 根据 不 同 的 环境 和 需求 来 
综合 考虑 。 


10.2.3 ”与 SAN 设 备 的 通信 过 程 


对 于 SAN 方 式 来 说 ， 应 用 程序 必须 通过 运行 在 服务 器 本 机 或 者 
NAS 设 备 上 的 文件 系统 与 磁盘 阵列 对 话 。 应 用 程序 对 本 机 文件 系统 
(或 NAS) 说 :“ 隆 ， 兄 弟 ， 帮 我 把 /mnt/SAN 目 录 下 的 SAN.txt 文 件 传 
到 我 的 缓冲 区 。” 文 件 系统 开始 计算 SAN.txt 文 件 占用 的 磁盘 扇 区 的 
LBA 地 址 ， 计 算 好 之 后 向 SAN 磁 盘 阵列 说 〈 用 SCST 语 言 ) :“ 嗨 ， 哥 
们 ， 把 从 LBA10000 开 始 之 后 的 128 个 扇 区 内 容 全 部 传送 给 我 ! ” 


SAN 磁 盘 阵 列 接收 到 这 个 请 求 之 后 ， 便 从 它 自 身 的 众多 磁盘 中 提 
取 数 据 ， 通 过 FC 网 络 传送 给 运行 着 文件 系统 程序 的 节点 (服务 器 主机 
或 NAS 设 备 ) 。 文 件 系统 接收 到 局 区 内 容 之 后 ， 根 据 文件 系统 记录 截 
掉 扇 区 多 余 的 部 分 ， 将 整理 后 的 数据 放 入 请 求 这 个 数据 的 应 用 程序 的 
缓冲 区 。 


10.2.4， 与 NAS 设 备 的 通信 过 程 


应 用 程序 通过 操作 系统 的 虚拟 目录 层 直 接 与 NAS 设 备 对 话 :“ 隆 ， 
兄弟 ， 帮 有 我 把 /mnVNAS 目 录 下 的 NAS.txt 文 件 传 过 来 。 ”或 “路 ， 兄 弟 ， 
帮 有 我 把 AnnVNAS 目 录 下 的 NAS.txt 文 件 的 前 1024 字 节 传 递 过 来 。 ”这些 
话 被 封装 成 TCP/IP 数 据 包 ， 通 过 以 太 网 传递 到 NAS 设 备 上 。NAS 接 到 
这 个 请 求 之 后 ， 立 即 用 自己 的 文件 系统 (NTFS、JFS2、EXT2、EXT3 
等 ) 计算 NAS.txt 文 件 都 占用 了 磁盘 的 哪些 扇 区 ， 然 后 从 自己 的 磁盘 上 
用 ATA 语 言 或 者 SCSI 语 言 向 对 应 的 磁盘 存 取 数据 (或 自己 安装 FC 适 配 
卡 ， 从 SAN 存 储 设备 上 存 取 数 据 ) 。 


显然 ， NAS 将 文件 系统 逻辑 搬出 了 主机 服务 器 ， 成 为 了 一 个 单独 
的 文件 系统 逻辑 运行 者 。 如 图 10-34 所 示 为 从 主机 到 NAS 设 备 的 IO 全 流 
程 示意 图 ， 牵 扯 到 了 整个 系统 的 IO 路 径 以 及 路 径 上 的 每 种 元 素 和 和 角 
色 。 


图 10-34 ”网 络 文件 系统 IO 全 流程 图 
提示 : 关于 系统 IO 路 径 的 详细 阐述 请 参考 本 书后 面 章节 。 


(1) 首先 ， 主 机 客户 端 通过 NFS Client 对 NAS 上 的 一 个 输出 目 
录 /as/export 进 行 Mount 操 作 ， 将 其 Mount 到 了 本 地 的 /mntnas 路 径 下 。 


(2) 之 后 ， 主 机 客户 端 上 某 应 用 程序 发 起 了 对 /mnt/nas/nas.txt 文 
件 的 读 取 操 作 ， 读 取 从 偏 移 量 0 字 节 开始 往 后 的 1024 字 节 ， 也 就 是 这 个 
文件 的 前 1024 字 节 。 这 个 动作 是 通过 调用 操作 系统 提供 的 文件 操作 
API 执 行 的 ， 比 如 Read () 。 


(3) 这 个 IO 请 求 被 传送 到 了 NEFS Client 处 ，NEFS Client 知 
道 /mntnas 路 径 对 应 的 其 实 是 NAS 服 务 端的 mas/export 这 个 输出 目录 ， 


所 以 NFS Client 将 上 层 下 发 的 这 个 读 取 请 求 封 装 成 NFS 协 议 规 定 的 标准 
格式 通过 网 络 传送 到 NAS 服 务 端 。 


(4) NAS 服 务 端 接收 到 这 个 读 请 求 之 后 ， 将 请 求 通过 操作 系统 
API 传 送 给 文件 系统 模块 处 理 。 


(5) 文件 系统 模块 接收 到 针对 /nas/export/nas.txt 文 件 的 读 请 求 之 
后 ， 首 先 查 询 缓存 内 是 否 有 对 应 的 数据 ， 如 果 有 ， 则 直接 返回 结果 ; 
如 果 没 有 ， 则 需要 将 这 段 字 节 所 落 入 的 底层 存储 空间 的 块 信息 取 回 ， 
这 个 动作 通过 查询 Inode 表 等 元 数据 获得 。 当 得 到 底层 块 地 址 之 后 ， 文 
件 系统 通过 调用 OS 提 供 的 API 将 对 这 些 块 的 读 请 求 发 送 给 下 游 模块 ， 
也 就 是 卷 管理 层 。 


(6) 卷 管理 层 是 将 底层 物理 磁盘 设备 进行 虚拟 化 封装 的 层次 。 当 
卷 管理 层 收 到 针对 某 个 卷 某 段 LBA 地 址 的 请 求 之 后 ， 它 要 进行 翻译 ， 
将 目标 虚拟 卷 的 地 址 翻译 为 对 应 着 底层 物理 磁盘 块 设备 的 地 址 ; 翻译 
完 后 ， 卷 管理 层 将 对 应 目标 地 址 的 请 求 再 次 通过 调用 OS API 的 方式 发 
送 给 下 游 ， 也 就 是 驱动 程序 层 了 。 


(7) 块 设备 驱动 是 负责 对 相应 块 设备 进行 IO 的 角色 ， 它 将 这 些 
IO 发 送 给 SCSI CDB Generator， 也 就 是 SCSI 指 令 的 翻译 中 心 。 


(8) SCSI CDB Generator 的 职责 是 将 对 应 的 IO 请 求 描述 为 SCSI 协 
议 的 标准 格式 。 之 后 ， 这 些 指令 被 发 送 到 SCSIFC 适 配器 的 驱动 程序 
处 。 


(9) 设备 驱动 程序 接收 到 这 些 SCSI 指 令 之 后 ， 将 其 封装 到 对 应 
的 链 路 帧 中 通过 内 部 总 线 网 络 或 者 外 部 包 交 换 网 络 传 送 到 目标 。 


(10) SCSI 指 令 传 送 到 目标 设备 ， 目 标 设备 执行 相应 指令 并 返回 
结果 。 


10.2.5 “文件 提供 者 


NAS 可 以 看 作 一 个 Filer。Filer 这 个 词 是 著名 NAS 设 备 厂商 NetApp 
对 其 NAS 产 品 的 通俗 称呼 。 它 专门 处 理 文件 系统 逻辑 及 其 下 面 各 层 的 
逻辑 ， 从 而 解放 了 服务 器 主机 。 服 务 器 主机 上 不 必 运 行文 件 系 统 逻 
辑 ， 甚 至 也 不 用 运行 磁盘 卷 逻 辑 ， 只 需 运 行 目录 层 逻辑 (UNIX 系 统 上 
VFS 层 、Windows 系 统 上 的 盘 符 及 目录 ) 即 可 。 把 底层 的 模块 全 部 交 
由 一 个 独立 的 设备 来 完成 ， 这 样 就 节约 了 服务 器 主机 的 CPU 资 源 和 内 
存 资源 ， 从 而 可 以 专心 地 处 理应 用 层 逻 辑 了 。 


NAS 网 关 就 是 这 样 一 种 思想 。NAS 网 关 其 实 就 是 一 台 运 行文 件 系 
统 逻 辑 和 卷 逻 辑 的 设备 ， 可 以 把 它 想象 成 一 个 泵 ， 这 个 泵 可 以 从 后 端 
接收 一 种 格式 (以 LBA 地 址 为 语言 的 指令 和 数据 格式 ) ， 经 过 处 理 后 
从 前 端 用 另 一 种 格式 (以 文件 系统 为 语言 的 指令 和 数据 格式 ) 发 送出 
去 ， 或 执行 反 向 的 过 程 。 可 以 把 这 个 泵 接 入 任何 符合 条 件 的 网 络 中 ， 
以 实现 它 的 功能 。 我 们 可 以 称 它 为 文件 系统 泵 ， 或 者 Filer。 可 以 把 
SAN 设 备 称 为 Disker 《专门 处 理 磁 盘 卷 逻辑 ) ， 把 服务 器 主机 称 为 
Applicationer (专门 处 理应 用 逻辑 ) 。 如 果 某 个 设备 集成 了 Filer 和 
Disker 的 功能 ， 并 将 其 放 入 了 一 个 机 箱 或 者 机 柜 ， 那 么 这 个 设备 就 是 
一 个 独立 的 NAS 设 备 。 如 果 某 个 设备 仅仅 实现 了 Filer， 而 Disker 是 另 
外 的 独立 设备 ， 那 么 这 个 只 实现 了 Filer 的 设备 就 称 为 NAS 网 关 或 NAS 
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图 10-35 显 示 了 这 个 泵 接 入 网 络 之 后 发 生 的 变化 。 


图 10-35 ”NAS 泵 


然而 ， 目 前 NAS 的 用 途 并 不 如 SAN 广 泛 ， 主 要 原因 是 NAS 的 前 端 
接口 几乎 都 是 千 兆 以 太 网 接口 ， 而 千 兆 以 太 网 的 速度 也 不 过 
100Mb/s， 除 去 开销 之 后 所 剩 无 几 。 而 SAN 设 备 的 前 端 接口 目前 普遍 
都 是 4Gb/s 的 速度 ， 可 以 提供 400Mb/s 的 带宽 。FC 现 在 已 有 8Gb/s 速 率 
的 接口 出 现 ， 而 10Gb/s 以 太 网 也 初 露 端倪 。 不 久 的 将 来 ，NAS 必 定 会 
发 起 另 一 轮 进攻 。 


10.2.6 NAS 的 本 质 


本 地 文件 系统 负责 将 硬盘 上 的 数据 包装 、 展 现 ， 以 及 提供 调用 接 
口 。 文 件 系统 将 数据 展现 为 文件 和 目录 的 形式 ， 调 用 接口 包括 读 、 
写 、 删 、 创 建 等 。 


一 般 情况 下 ， 应 用 程序 是 在 内 存 中 调用 这 些 接口 从 而 让 文件 系统 
实现 对 应 功能 的 。 如 Read () 、Write () 、API 等 。 


如 果 应 用 程序 不 在 本 机 运行 ， 而 是 运行 在 网 络 的 另 一 端 ， 同 时 依 
然 想 保留 原 有 的 访问 文件 的 方式 。 此 时 就 需要 允许 远程 机 器 上 的 应 用 
程序 可 以 把 这 些 调用 指令 通过 网 络 打包 传送 过 来 ， 这 些 指令 必须 双方 
都 能 够 识别 ， 为 此 ，NFS 和 CIFS 协 议 诞生 了 。 二 者 统称 NAS 协 议 或 者 
NASo 


多 个 远程 的 应 用 程序 可 以 同时 对 本 地 文件 系统 发 起 IO 请 求 。 这 
样 ， 本 地 这 人 台 服 务 器 就 变 成 了 一 台 文 件 服务 器 了 ，NAS 设 备 就 这 么 诞 
Ts 


所 以 NFS 和 CIFS 又 被 称 为 "网络 文 件 系统 ”， 其 实 它 们 只 是 一 种 规 
定 如 何 将 文件 操作 指令 及 结果 在 双方 之 间 传送 和 控制 的 协议 。 网 络 上 
只 有 协议 ， 没 有 文件 系统 ， 文 件 系统 都 在 本 地 。 “通过 外 部 网 络 而 不 是 
计算 机 内 部 总 线 来 传递 文件 读 写 指令 的 系统 ”是 对 网 络 文件 系统 最 准确 
和 最 本 质 的 描述 。 


10.3 DAS、SAN 和 NAS 


人 们 将 最 原始 的 存储 架构 称 为 DAS Direct (Dedicate) Attached 
Storage， 直 接连 接 存 储 ， 意 思 是 指 存储 设备 只 用 于 与 独立 的 一 台 主 机 
服务 器 连接 ， 其 他 主机 不 能 使 用 这 个 存储 设备 。 如 PC 中 的 磁盘 或 只 
一 个 外 部 SCSI 接 口 的 JBOD 都 属于 DAS 架 构 。 


纵 观 武当 仓库 的 改革 过 程 ， 恰 恰 正 是 一 个 从 DAS 〈 仅 供 自 己 使 
用 ) 到 SAN (出 租 仓库 给 其 他 租户 使 用 ) ， 再 到 NAS (集中 式 理 货 服 
务 外 包 ) 的 过 程 。 


到 此 ，DAS、SAN、NAS 形 成 了 存储 架构 的 三 大 阵营 ， 且 各 有 其 
适用 条 件 ， 形 成 了 三 足见 立 之 势 ! 


提示 : 但 是 ， 大 家 一 定 要 牢记 ，SAN (Storage Area 
Network) 是 一 种 网 络 ， 而 不 是 某 种 设备 。 只 要 是 专门 用 来 向 
服务 器 传输 数据 的 网 络 都 可 以 称 为 SAAN。 所 以 ，NAS 设 备 使 
用 以 太 网 络 向 主机 提供 文件 级 别 的 数据 访问 ， 那 么 以 太 网 络 
就 是 SAN。 由 于 在 高 端 领域 NAS 的 使 用 不 如 FC SAN 设 备 多 ， 
所 以 人 们 习惯 地 称 FC SAN 架 构 为 SAN。 我 们 也 顺从 习惯 ， 但 
是 一 定 要 明白 其 中 的 门道 。 


10.4 ”最终 幻想 
络 传输 


既然 SCSI 语 言及 数据 可 以 用 FC 协议 传递 ， 文 件 系统 语言 可 以 用 以 
太 网 传递 ， 那 么 文件 系统 语言 能 不 能 用 FC 传递 呢 ? 再 者 SCSI 语 言 能 不 
能 通过 以 太 网 来 传递 呢 ? 完全 可 以 ， 而 且 后 者 已 经 被 实现 并 被 广泛 应 
用 了 ， 这 些 内 容 将 在 第 12 章 讲解 。 在 4 种 组 人 台中， 只 有 将 文件 系统 语言 
承载 于 FC 网 络 传输 这 个 想法 没有 被 实现 ， 或 者 说 有 人 实现 了 但 是 没 
听 说 。 


将 文件 系统 语言 承载 于 FC 网 


现在 来 看 前 者 。 试 想 一 下 ， 如 果 用 FC 协议 传递 文件 系统 语言 和 数 
据 而 不 是 磁盘 卷 语言 及 其 数据 ， 那 么 开销 会 小 很 多 。 文 件 系 统 语言 毕 
竟 是 比较 上 层 和 高 级 的 语言 ， 相 对 于 底层 磁盘 卷 语言 来 说 ， 它 非常 简 
单 。 


读 写 某 个 文件 ， 如 果 用 高 层 语言 只 需要 描述 关于 这 个 文件 的 信息 
即 可 。 但 是 如 果 使 用 低级 语言 ， 可 能 要 发 送 很 多 的 语句 。 如 果 这 个 文 
件 在 磁盘 上 形成 了 很 多 碎片 的 话 ， 发 送 的 IO 指令 将 不 计 其 数 。 这 就 像 
C 语 言 被 编译 器 编译 成 汇编 语句 一 样 ， 文 件 系统 语言 是 高 级 语言 ， 比 
如 “将 C 盘 下 C.txt 文 件 传送 过 来 "这 一 句 高 级 语言 ， 会 被 翻译 成 更 低级 的 
多 条 SCSI 语 言 。 利 用 比 内 存 总 线 速度 慢 得 多 的 FC 网 络 来 传送 这 些 低级 
语言 ， 无 疑 是 非常 浪费 资源 的 。 低 级 语言 就 应 该 在 内 存 中 传递 而 不 是 
外 部 低速 网 络 上 ， 这 样 才能 达到 性 能 最 大 化 。 


目前 普遍 的 架构 是 文件 系统 和 磁盘 控制 器 驱动 程序 都 运行 在 应 用 
服务 器 主机 上 。 文 件 系统 向 卷发 送 的 请 求 是 通过 内 存 来 传递 的 ， 而 主 
机 向 磁盘 (LUN) 发 送 的 请 求 是 通过 FC 网 络 来 传递 的 ， 后 者 速度 显然 
比 前 者 慢 很 多 。 如 果 将 “文件 系统 、 磁 盘 控 制 器 和 磁盘 (SAN 盘 阵 或 者 


本 地 磁盘 ) ”这 三 个 部 件 ， 整 体 搬 到 应 用 服务 器 主机 外 部 ， 成 为 一 个 独 
立 的 NAS 系 统 。 然 后 这 个 NAS 设 备用 FC 协 议 与 服务 器 主机 通信 ，FC 协 
议 上 承载 的 是 文件 系统 语言 ， 这 就 既 保 证 降低 了 服务 器 的 开销 ， 又 保 
证 了 数据 传输 速度 。 


也 许 受 限于 技术 或 者 商业 和 市 场 的 限制 ，File system (或 File) 
over FC (FC 网 络 文件 系统 ) 始终 没有 被 提出 或 开发 出 来 。 不 过 在 10G 
以 太 网 普及 之 后 ， 相 信 FC 设 备 也 会 因为 高 成 本 、 高 专用 化 、 兼 容 性 等 
问题 逐渐 被 淘汰 。 目 前 市 场 上 的 NAS 设 备 普遍 采用 以 太 网 加 上 TCP/IP 
的 模式 来 传送 文件 系统 指令 ， 我 们 可 以 称 这 种 架构 为 File system over 
Ethernet (FSoE) 。 


提示 : 关于 协议 之 间 相 互 杂 交 的 论题 ， 在 后 面 会 详细 讨论 。 
10.5 ”长 路 漫漫 一 存储 系统 染 构 演化 过 程 
下 面 总 结 一 下 系统 架构 演化 过 程 中 的 10 个 阶段 。 
10.5.1 第 一 阶段 : 全 整合 阶段 


图 10-36 是 一 个 最 原始 的 普通 服务 器 的 架构 ， 所 有 部 件 和 模块 都 在 
一 个 服务 器 机 箱 中 。 这 属于 DAS 架 构 ， 因 为 主机 机 箱 内 的 磁盘 只 被 本 
机 使 用 。 


图 10-36 ”全 整合 阶段 


10.5.2 ”第 二 阶段 : 磁盘 外 置 阶段 


图 10-37 所 示 的 架构 ， 是 将 磁盘 置 于 服务 器 机 箱 外 部 的 情况 。 这 种 
架构 依然 属于 DAS 架 构 ， 因 为 存储 系统 只 被 一 台 主 机 使 用 。 


图 10-37 “磁盘 外 置 阶段 


10.5.3 ”第 三 阶段 : 外 部 独立 磁盘 阵列 阶段 


图 10-38 是 服务 器 主机 通过 普通 SCSI 线 缆 连 接 外 部 独立 磁盘 阵列 的 
情况 。 这 种 简单 的 SCSI 接 口 盘 阵 只 能 供 一 台 或 者 几 台 (如 果盘 阵 提供 
多 个 外 部 SCSI 接 口 的 话 ) 主机 接 入 ， 称 不 上 彻底 的 网 络 化 ， 但 可 以 被 
称 为 SAN， 因 为 这 种 架构 已 经 开始 显现 网 络 化 萌芽 了 。 


图 10.38 ”外 部 独立 磁盘 阵列 阶段 
10.5.4 ”第 四 阶段 : 网 络 化 独立 磁盘 阵列 阶段 


图 10-39 是 一 台 服 务 器 用 FC 网 络 连接 FC 接口 磁盘 阵列 的 情况 。 
中 磁盘 阵列 真正 成 为 包 交 换 网 络 上 的 一 个 节点 ， 可 同时 被 多 个 其 他 节 
点 访问 ， 是 向 彻底 网 络 化 进化 的 里 程 碑 。 这 种 架构 是 彻 彻底 底 的 SAN 


架构 。 
图 10-39 网 络 化 独立 磁盘 阵列 阶段 
10.5.5 “第 五 阶段 : 瘦 服 务 器 主机 、 独 立 NAS 阶 段 


10-40 中 ， 服 务 器 主机 用 以 太 网 与 NAS 设 备 进行 通信 从 而 存储 数 
据 。 在 瘦 服 务 器 阶段 ， 文 件 系 统 之 下 的 所 有 层次 模块 位 移 到 了 外 部 独 
立 设备 中 。 主 机 得 到 了 彻底 的 解放 ， 专 门 处 理 业 务 逻 辑 ， 而 不 必 人 花费 
太 多 资源 去 处 理 底 层 系统 逻辑 。 


图 10-40” 瘦 服务 器 主机 、 独 立 NAS 阶 段 


10.5.6 ”第 六 阶段 : 全 分 离 式 阶段 


在 NAS 设 备 的 后 端 可 以 用 包含 在 自己 机 箱 内 的 硬盘 ， 也 可 以 用 并 
行 SCSI 来 连接 磁盘 ， 还 可 以 用 FC 协议 来 连接 SAN 盘 阵 来 获得 LUN 
(NAS 网 关 ) 。 在 这 个 阶段 中 ， 所 有 部 件 彻底 地 分 离 了 ， 每 个 部 件 都 
各 司 其 职 ， 中 间 通 过 不 同 的 网 络 方式 通信 ， 前 端 用 以 太 网 ， 后 端 用 FC 
网 ， 如 图 10-41 所 示 。 


图 10-41 全 分 离 式 阶段 


10.5.7 ”第 七 阶段 : 统一 整合 阶段 


在 图 10-42 的 环境 中 ， 既 有 纯 SAN 的 磁盘 阵列 ， 来 利用 自己 机 箱 或 
扩展 柜 内 的 磁盘 ， 又 有 NAS 网 关 设 备 ， 不 但 可 以 利用 本 地 磁盘 ， 还 可 
以 向 SAN 磁 盘 阵 列 “ 租 赁 > 若干 LUN 卷 。 另 外 还 有 一 台 多 协议 磁盘 阵 
列 ， 它 既 可 以 向 外 提供 FC 协 议 的 连接 方式 〈 承 载 磁 盘 卷 语言 ) ， 又 可 
以 提供 以 太 网 的 连接 方式 (承载 文件 系统 语言 ) ， 这 种 设备 是 SAN 与 
NAS 融 合 的 结果 。 服 务 器 可 以 选择 直接 用 磁盘 卷 语言 访问 SAN 磁 盘 阵 
列 上 的 LUN， 用 运行 在 服务 器 上 的 文件 系统 程序 管理 磁盘 卷 ， 也 可 以 
选择 直接 通过 以 太 网 络 访问 NAS 设 备 上 的 目录 ， 用 文件 系统 语言 让 
NAS 发 送 指令 。 


这 个 架构 最 终 就 是 一 个 整合 的 架构 ， 既 有 纯 SAN 和 纯 NAS， 又 有 
被 整合 到 一 起 的 SAN 和 NAS 统 一 存储 设备 。 


第 七 阶段 也 是 目前 IT 系统 所 应 用 的 架构 。 


图 10-42 ”统一 整合 阶段 
10.5.8 ”第 八 阶段 : 迅速 膨胀 阶段 


也 就 是 Scale-Out 架 构 的 x86 集 群 阶段 ， 使 用 大 量 的 节点 来 组 成 一 个 
对 外 统一 的 视图 。 从 物理 可 见 的 角度 上 讲 ， 是 大 规模 并 行 集群 ， 从 较 
高 层 的 角度 来 讲 ， 由 单个 的 、 无 意识 的 节点 来 组 成 一 个 庞大 的 整体 有 
意识 的 整体 ， 这 就 变 成 了 云 的 一 种 特征 了 。 不 管 是 SAN 还 是 NAS, 它 
们 此 时 被 承载 到 同 质 化 的 底层 集群 上 ， 只 是 前 端 输出 的 访问 协议 不 同 
而 已 。 


此 时 整个 系统 中 的 节点 数量 规模 将 会 空前 庞大 ， 系 统 内 部 的 能 量 
将 迅速 爆发 ， 如 图 10-43 所 示 。 


图 10-43 ”迅速 膨胀 阶段 
10.5.9 ”第 九 阶段 : 收缩 阶段 


当 大 量 的 节点 迅速 膨胀 之 后 ， 能 量 最 终 会 被 靖 耗 欠 尽 ， 随 着 新 技 
术 的 不 断 产 生 ， 当 机 械 硬 盘 被 心 片 所 取代 ， 并 且 大 规模 集成 电路 技术 
不 断 地 发 展 ， 操 作 系统 中 的 所 有 底层 模块 均 用 专用 硬件 电路 实现 。 
CPU 所 做 的 仅仅 是 进行 业务 逻辑 计算 。 外 部 接口 已 经 过 渡 到 了 全 部 使 
用 无 线 网 络 进行 通信 ， 包 括 连接 显示 器 《或 许 已 经 被 3D 眼 镜 所 取 
代 ) 。 


目前 ，IPmtel 公 司 已 经 在 其 CPU 上 集成 了 显示 心 片 ， 使 计算 机 不 再 
需要 加 装 独 立 的 显卡 ， 也 不 用 占用 主板 上 的 空间 来 集成 显示 心 片 。 
Sun 公 司 将 多 个 万 兆 以 太 网 心 片 集 成 在 了 最 新 的 CPU 上 。Bluearc 公 司 
的 存储 产品 更 是 已 经 将 整个 操作 系统 的 所 有 逻辑 都 做 到 了 FPGA 心 片 


中 。 这 些 新 技术 正在 发 芽 ， 随 着 节点 数量 的 膨胀 ， 其 底层 却 在 向 着 收 
缩 的 方向 演进 。IT 架 构 正 处 于 缓慢 收缩 之 中 。 图 10-44 所 示 为 收缩 阶段 
系统 架构 示意 图 。 


图 10-44 ”收缩 阶段 
10.5.10 ”第 十 阶段 : 强烈 明 缩 阶段 


长 过 了 头 就 要 收缩 ， 阳 气 消散 ”图 10- 和 5 强烈 雪 缩 阶段 
之 后 ， 阴 实 就 会 逐渐 显露 并 占 上 
风 ， 整 个 系统 会 发 生 强 烈 明 缩 。 对 于 系统 架构 ， 塌 缩 之 后 的 IT 系 统 会 
节约 大 量 空间 和 电力 能 量 。 随 着 集成 电路 技术 发 展 到 一 定 程度 之 后 ， 
甚至 可 以 将 整个 系统 集成 于 一 个 微小 的 芯片 中 ， 即 所 谓 的 System on 
Chip (SOC) 。IT 系 统 将 雯 缩 到 这 个 心 片 中 ， 如 图 10-45 所 示 。 


纵 观 这 10 个 阶段 ， 从 全 整合 阶段 《占用 很 大 空间 和 资源 ) 到 贡 缩 
阶段 《 极 小 的 空间 极 高 的 质量 ) ， 这 正 是 宇宙 发 展演 化 的 规律 。 在 一 
个 极 大 的 空间 中 包含 了 众多 物质 ， 然 后 通过 不 断 演 化 ， 最 终 夫 缩 到 一 
个 小 空间 内 ， 同 样 包含 了 极 大 的 质量 。 


到 此 ，SAN 已 经 不 仅仅 限于 通过 FC 网 络 传递 SCSI 指 令 的 架构 了 。 
SAN 的 概念 ， 既 然 是 “存储 区 域 网 络 ” 的 意思 ， 那 么 就 应 该 泛 指 参与 主 
机 服务 器 后 端 存储 系统 的 所 有 部 件 ， 甚 至 包括 NAS， 我 们 可 以 将 NAS 
看 作 SAN 的 一 个 分 支架 构 。 


SAN 在 IT 系统 架构 进化 到 第 十 阶段 之 前 还 会 继续 存在 。 在 第 十 阶 
段 ，SAN 的 概念 或 许 会 被 赋予 另外 的 意义 。 


10.6 ”泰山 北斗 NetApp 的 NAS 产 品 


NetApp 公 司 掌握 了 全 球 最 先进 的 NAS 方 面 的 相关 技术 ， 它 的 FAS 
系列 产品 统治 了 NAS 市 场 的 大 部 江山 。FAS 系 列 中 的 所 有 产品 均 运 行 
Data ONTAP 操 作 系 统 ， 这 是 NetApp 专 门 开 发 的 针对 NAS 的 操作 系 


统 。 


既然 是 NAS， 其 内 部 的 文件 系统 层 肯定 是 一 个 功能 强大 而 稳定 的 
层次 。ONTAP 系 统 中 的 文件 系统 名 为 WAFL ， 这 是 一 个 充满 个 性 的 文 
件 系统 。 


NetApp 上 自称 其 存储 产品 为 “Filer"， 下 面 就 来 看 看 Filer 的 四 把 杀手 
铜 。 


10.6.1 WAFL 配合 RAID 4 


Write Anywhere Filesystem Layout (WAFL) 是 NetApp 公 司 开发 的 
一 种 文件 系统 。 这 个 文件 系统 最 大 的 特点 ， 也 是 其 他 所 有 文件 系统 都 
没有 实现 的 特点 ， 就 是 它 能 按照 RAID 4 的 喜好 来 向 RAID 4 卷 写 数据 。 
RAID 4 由 于 其 独立 校 验 盘 的 设计 ， 导 致 它 只 能 接受 顺序 的 写 入 IO 而 不 
能 并 发 ， 所 以 它 对 于 其 他 厂家 的 盘 阵 来 说 完全 就 是 一 个 灾 星 ， 没 有 人 
敢 用 ， 也 没有 人 愿意 用 。 然 而 NetApp 偏 偏 采 用 了 它 ， 而 且 通 过 WAFL 
的 调教 ，RAID 4 在 FAS 产 品 上 发 挥 出 了 很 好 的 性 能 。WAEFL 是 怎么 调 
教 RAID 4 的 呢 ? 


与 其 说 是 WAFL 调 教 RAID 4， 不 如 说 是 RAID 4 逼迫 wWAFL 就 汇 。 


RAID 4 再 不 好 也 有 可 取 的 地 方 ， 如 果 10 写 入 有 很 大 几率 是 整 条 写 
的 形式 ， 那 么 RAID 4 便 会 表现 得 像 RAID 0 一 样 良好 。 不 仅仅 是 RAID 
4， 任 何 校 验 型 的 RAID， 如 RAID 5、RAID 3， 只 要 是 整 条 写 ， 便 会 产 
生 极 高 的 性 能 。 


提示 : 关于 整 条 写 的 概念 ， 可 参考 本 书 第 4 章 的 内 容 。 


既然 校 验 型 RAID 最 喜欢 被 整 条 写 ， 那 么 就 不 妨 满足 这 个 要 求 。 
WAFL 就 是 这 么 被 设计 出 来 的 。 


图 10-46 所 示 的 是 一 个 5 块 盘 组 成 的 RAID 4 系统 。 条 带 大 小 20KB， 
条 带 在 每 个 数据 盘 上 分 割 出 的 segment 大 小 为 4KB。 假 如 某 一 时 刻 应 用 
要 求 WAFL 写 入 三 个 文件 ， 如 /tmp/filel1、/tmp/file2 和 /tmp/file3， 其 中 
file1 大 小 为 4KB，file2 大 小 为 8KB ，file3 大 小 为 4KB。 则 WAFL 便 会 计 
算出 : 如 果 将 这 三 个 文件 对 应 的 数据 写 到 一 整 条 条 带 上 ， 就 构成 了 整 
条 写 ， 性 能 得 到 了 提升 。 


图 10-46 ”5 块 盘 组 成 的 RAID 系 统 


所 以 ，WAEFL 先 在 其 元 数据 中 做 好 记录 : /tmp/filel1 对 应 数据 块 为 
Al，/tmp/file2 对 应 数据 块 为 A2 十 A3，/tmp/file3 对 应 数据 块 为 A4。 然 
后 将 这 三 个 文件 的 数据 合并 写 入 RAID。 当 然 ， 如 果 要 求 增 加 高 并 发 
度 ， 那 么 WAEFL 也 可 以 将 同一 个 文件 对 应 的 一 定 长 度 的 块 写 入 同一 个 
硬盘 。 


实际 上 ， 文 件 系统 就 应 该 适 配 底 层 的 特性 ， 只 有 这 样 才能 获得 最 
优 的 性 能 。 普 通 文 件 系统 中 ， 在 选取 空闲 块 写 入 数据 的 时 候 ， 并 没有 
针对 底层 的 RAID 级 别 来 做 对 应 的 优化 。 而 WAFL 中 有 一 个 专门 的 Write 
Allocation 模 块 来 负责 优化 。WAFL 的 做 法 无 疑 对 文件 系统 的 优化 起 到 
了 领头 和 示范 作用 。 


以 上 只 是 简略 说 明 WAFL 的 思想 ， 实 际 操 作 中 还 需要 考虑 诸如 元 
数据 的 写 入 、 块 的 偏 移 等 很 多 复杂 情况 。 


10.6.2 Data ONTAP 利 用 了 数据 库 管 理 系 统 的 设计 


我 们 知道 ， 数 据 库 管理 系统 是 这 样 记 录 日 志 的 : 在 某 时 刻 ， 数 据 
库 管 理 系统 接收 到 应 用 程序 的 SQL 更 新 语句 及 其 对 应 的 数据 ， 在 将 这 
些 数 据 更 新 到 缓存 中 覆盖 原 有 数据 的 同时 ， 将 这 个 操作 的 动作 以 及 对 
应 的 数据 ， 以 日 志 的 形式 记录 到 位 于 内 存 的 日 志 缓 冲 区 内 。 每 当 应 用 
程序 发 起 提交 指令 或 每 隔 几 秒 钟 的 时 间 ， 缓 冲 区 内 的 日 志 就 会 被 写 入 
到 磁盘 上 的 日 志文 件 中 ， 以 防止 意外 掉 电 后 造成 的 数据 不 一 致 性 ， 同 
时 将 缓存 中 更 新 过 的 数据 块 写 入 磁盘 。 只 有 当日 志 被 确实 地 写 入 到 硬 
盘 上 的 日 志文 件 中 后 ， 数 据 库 管理 程序 才 会 对 上 层 应 用 返回 执行 成 功 


的 信号 。 


数据 库 系统 是 一 个 非常 复杂 的 系统 ， 也 是 一 个 对 数据 一 致 性 要 求 
极 高 的 系统 ， 所 以 数据 库 利 用 记录 操作 日 志 的 方式 来 保证 数据 一 致 性 
的 做 法 是 目前 普遍 使 用 的 ， 而 且 是 实际 效果 最 好 的 方法 。NetApp 的 
Data ONTAP 操 作 系统 ， 就 是 利用 了 数据 库 这 种 设计 思想 ， 它 把 向 文件 
系统 或 卷 的 一 切 写 入 请 求 作为 操作 日 志 记 录 到 NVRAM 中 保存 ， 每 当 
日 志 被 保存 到 了 NVRAM 中 ， 就 会 向 上 层 应 用 返回 写 入 成 功 信号 。 


为 何 要 用 NVRAM 而 不 是 文件 来 保存 日 志 呢 ? 
10.6.3 ”利用 NVRAM 来 记录 操作 日 志 


数据 库 系 统 完全 可 以 直接 将 操作 日 志 写 入 磁盘 ， 而 不 必 先 写 入 内 
存 中 的 日 志 缓冲 区 ， 再 在 触发 条 件 下 将 日 志 写 入 磁盘 上 的 文件 。 然 而 
这 么 做 会 严重 降低 性 能 ， 因 为 日 志 的 写 入 是 非常 频繁 的 ， 且 必须 为 同 
步 写 入 。 如 果 每 条 日 志 记 录 都 写 入 磁盘 ， 则 由 于 磁盘 相对 于 内 存 来 说 


是 慢 速 IO 设备 ， 所 以 会 造成 严重 的 IO 瓶颈 。 所 以 必须 使 用 内 存 中 的 一 
小 块 来 作为 日 志 缓 存 。 


但 是 一 旦 系统 发 生意 外 掉 电 ， 则 内 存 中 的 日 志 还 疫 来 得 及 保存 到 
硬盘 就 会 丢失 。 在 数据 库 再 次 启动 之 后 ， 会 提取 硬盘 上 已 经 保存 的 日 
志文 件 中 的 条 目 来 重 放 这 些 操作 ， 对 于 没有 提交 的 操作 ， 进 行 回 滚 。 
这 样 ， 就 保证 了 数据 的 一 致 性 。 


如 果 某 个 应 用 程序 频繁 地 进行 提交 操作 ， 则 日 志 缓 冲 区 的 日 志 便 
会 被 频繁 与 入 磁盘 。 在 这 种 情况 下 ， 日 志 缓 存 就 起 不 到 多 少 作 用 了 。 
和 平 好 ， 对 于 很 多 需要 访问 数据 库 的 应 用 程序 来 说 ， 上 层 的 每 个 业务 操 
作 一 般 都 算 作 一 个 交易 ， 在 交易 尚未 完成 之 前 ， 程 序 是 不 会 发 送 提交 
站 令 给 数据 库 系 统 的 ， 所 以 频繁 提交 发 生 的 频率 不 高 。 


然而 ， 上 层 应 用 向 文件 系统 中 写 数据 的 话 ， 每 个 请 求 都 是 一 次 完 
整 的 交易 。 如 果 对 每 个 请 求 都 将 其 对 应 的 操作 日 志 写 入 磁盘 ， 开 销 就 
会 很 大 。 所 以 NetApp 索 性 利用 审 电池 保护 的 RAM 内 人 存 用 作 记 录 操 作 日 
志 的 存储 空间 。 这 样 一 来 ， 不 但 日 志 写 入 的 速度 很 快 ， 而 且 不 用 担心 
意外 掉 电 。 有 了 这 种 电池 保护 的 RAM ( 称 为 NVRAM 似 乎 不 合适 ， 因 
为 NVRAM 不 用 电 闻 就 可 以 在 不 供电 的 情况 下 保存 数据 ， 而 NetApp 使 
用 的 是 带电 闻 保 护 的 RAM， 下 文 姑且 称 其 为 NVRAM) 来 记录 操作 日 
志 ， 只 要 日 志 被 成 功 存 入 了 这 个 RAM， 就 可 以 立即 通知 上 层 写 入 成 
功 。 


一 定 要 搞 清 楚 日 志和 数据 缓存 的 区 别 。 日 志 只 是 记录 一 种 操作 动 
作 以 及 数据 内 容 ， 而 不 是 实际 数据 块 ， 前 者 比 后 者 要 小 很 多 。 实 际 数 
据 块 保存 在 RAM 中 而 不 是 NVRAM 中 。 


由 于 用 RAM 来 保存 日 志 ， 所 以 速度 超级 快 ， 可 以 一 次 接收 上 千 条 
写 入 请 求 而 直接 向 上 层 应 用 返回 成 功 信 号 ， 待 RAM 半 满 或 每 10 秒 钟 的 
时 候 ， 这 些 数据 由 WAFL 一 次 性 批量 连续 写 入 硬盘 ， 保 证 了 高 效率 。 
这 也 是 NetApp 的 NAS 为 什么 相对 比较 快 的 一 个 原因 。 


10.6.4 ” WAFL 从 不 覆 写 数据 


每 当 NVRAM 中 的 日 志 占 用 了 整个 NVRAM 空 间 的 一 半 或 每 10 秒 钟 

也 可 能 是 其 他 的 某 些 条 件 达到 临界 值 的 时 候 ，WAFL 便 会 将 所 有 缓存 
在 内 存 缓冲 区 内 的 已 经 改写 的 数据 以 及 元 数据 批量 写 入 硬盘 ， 同 时 清 
空 操 作 日 志 ， 腾 出 空间 给 接 下 来 的 请 求 使 用 。 这 个 动作 叫做 Check 


Pointo 


WAFL 并 不 会 覆盖 掉 对 应 区 块 中 原来 的 数据 ， 而 是 寻找 磁盘 上 的 
空 闪 块 来 存放 被 更 改 的 块 。 也 就 是 说 ， 所 有 由 WAFL 写 入 的 数据 都 会 
与 入 空 闪 块 ， 而 不 是 覆盖 旧 块 。 另 外 ， 在 Check Point 没 有 发 生 的 时 
候 ， 或 者 数据 没有 全 部 被 Flush 之 前 ，WAFL 从 来 不 会 写 入 任何 元 数据 
到 磁盘 。 


有 了 以 上 两 个 机 制 就 可 以 保证 在 Check Point 没 发 生 之 前 ， 人 磁盘 上 
的 元 数据 所 对 应 的 实际 数据 仍然 为 上 一 个 Check Point 时 候 的 状态 。 如 
果 此 时 发 生 突然 断 电 等 故障 ， 虽 然 可 能 有 新 数据 已 经 被 写 入 空闲 块 ， 
但 是 元 数据 并 未 写 入 ， 所 以 磁盘 上 保存 的 元 数据 还 是 指向 旧 块 (这 也 
是 为 何 旧 块 从 来 不 会 被 WAFL 覆 盖 的 原因 ) ， 数 据 就 像 没有 变化 一 
样 ， 根 本 不 用 执行 文件 系统 检查 这 种 耗 时 费力 的 工作 。 一 旦 Check 
Point 被 触发 ， 则 WAFL 先 将 缓存 中 的 所 有 数据 写 入 磁盘 空间 块 ， 最 后 
才 将 元 数据 写 入 硬盘 。 一 旦 新 的 元 数据 写 入 了 硬盘 ， 则 新 元 数据 的 指 


针 均 指 到 了 方才 被 写 入 的 新 数据 块 ， 对 应 的 旧 数 据 块 则 变 为 空 闪 块 
(虽然 块 中 仍 有 数据 ， 但 是 已 经 没有 任何 指针 指向 它 ) 。 


这 个 特性 使 得 NetApp 的 快照 技术 水 到 汇 成 ， 且 性 能 良好 。 
10.7 初 圳 锋芒 一 BlueArc 公 司 的 NAS 产 品 


上 文中 所 述 的 IT 系统 架构 发 展 的 第 九 阶段 (收缩 阶段 ) ， 其 代表 
就 是 软件 的 全 心 片 化 。 这 些 心 片 不 同 于 CPU ， 而 是 完全 应 用 逻辑 心 
片 ， 比 如 ASIC 或 更 高 成 本 的 FPGA 和 CPLD。 这 些 心 片 对 于 专用 逻辑 
的 运算 速度 远 高 于 CPU， 因 为 CPU 是 读 取 外 部 程序 代码 指令 流 来 执行 
并 生成 结果 的 ， 而 专用 心 片 则 是 通过 读 入 原始 数据 信号 ， 在 经 过 内 部 
逻辑 电路 之 后 直接 生成 了 输出 信和 号。 一片 频率 100MHz 的 FPGA 在 运行 
专用 逻辑 的 时 候 速 度 也 会 高 于 频率 几 GHz 的 CPU。 图 10-47 所 示 为 CPU 
的 处 理 流 程 ， 而 图 10-48 所 示 的 是 FPGA 的 处 理 流程 。 


图 10-47 ”CPU 的 处 理 流程 图 10-48 FPGA 的 处 理 流程 


FPGA 心 片 的 频率 目前 已 经 可 以 超越 1GHz， 其 内 部 电路 已 经 达到 
1000 万 门 。 其 可 容纳 的 逻辑 更 多 、 更 复杂 ， 处 理 速度 越 来 越 快 。 


目前 有 些 厂 家 正在 党 试 利 用 FPGA 来 取代 CPU。 由 于 FPGA 可 重 构 
计算 的 特性 ， 人 们 认识 到 许多 能 发 挥 其 特长 的 应 用 。 比 如 在 玩 
《Crysis》 电 脑 游戏 时 ， 可 将 FPGA 配 置 成 128 位 的 高 性 能 3D 图 像 处 理 
器 ; 当 需 要 听 高 保 真 环绕 立体 声 时 ， 可 将 FPGA 配 置 成 专用 的 DSP 处 理 
器 ; 在 高 层 网 络 交 换 机 需要 支持 新 协议 时 ， 只 需 重新 配置 FPGA 而 不 
必 更 改 任何 硬件 ; 在 数字 电视 变更 解码 协议 时 ， 只 要 通过 网 络 下 载 数 


据 来 重新 配置 FPGA; 当 从 GSM 网 转 到 CDMA 网 时 ， 也 只 需 重 新 配置 
FPGA 而 不 必 更 换 手 机 了 。 


同样 ， 存 储 产 品 公 司 BlueArc 在 其 NAS 产 品 Titan 系 列 中 ， 将 其 上 运 
行 的 所 有 软件 逻辑 都 写 入 了 FPGA 中 。 其 产品 将 存储 系统 路 径 上 的 多 
个 模块 也 分 别 做 成 了 可 插 拔 式 模块 ， 包 括 前 端 网 络 接口 模块 、 文 件 系 
统 模块 和 后 端 网 络 接口 模块 。 前 端 接口 是 面 对 客 户 端的 接口 ; 文件 系 
统 则 是 整个 系统 的 处 理 中 枢 ;， 后 端 接口 则 是 连接 磁盘 扩展 柜 的 接口 。 
每 个 模块 上 均 有 多 个 FPGA 心 片 来 处 理 各 自 的 逻辑 。 图 10-49 显 示 了 
Titan 各 个 模块 之 间 的 生态 架构 图 。 


图 10-49 ”Titan 存 储 产品 内 部 架构 示意 图 


图 10-50 为 Titan 产 品 实物 图 。 后 面 有 4 个 插 模 模块 ， 中 间 两 个 为 文 
件 系统 模块 ， 最 上 面 和 最 下 面 的 模块 分 别 为 前 端 网 络 模块 和 后 端 网 络 
模块 。 


图 10-50 ”Titan 存储 产品 实物 图 


且 不 说 Titan 这 种 全 硬件 染 构 是 否 成 熟 ， 其 内 部 软件 是 否 兼容 性 良 
好 ， 抛 开 这 些 因素 不 痰 ， 这 种 架构 其 实 反 映 的 是 一 种 趋势 ， 一 种 精 
神 。 


10.8 ”宝刀 未 老 -Infortrend 公 司 NAS 产 品 


在 中 端 SAN 存 储 方面 ， 似 乎 到 处 都 可 见 到 Infortrend 公 司 的 产品 ， 
因 其 优良 的 做 工 和 中 规 中 和 矩 的 软件 特性 ， 非 常 适合 被 OEM。 如今 
Infortrend 这 员 老 将 也 推出 了 自己 的 双 控 统一 存储 产品 
EonNAS ， 最 大 支持 到 256 盘 。 同 时 支持 用 iSCSI、FC、NFS/CIFS 方 式 


访问 ， 最 大 支持 4 个 万 兆 以 太 口 ， 如 图 10-51 所 示 。 这 款 NAS 系 统 采用 
的 是 双 控 可 热 插 拔 模 块 化 设计 ， 设 计 上 还 是 很 用 心 的 。 


图 10-51 EonNAS3000 控 制 器 机 头 


对 于 NAS 来 讲 ， 软 件 核 心 和 功能 胜 过 硬件 规格 。EonNAS 底 层 采 
用 ZFS 作 为 存储 软件 核心 。ZFS 拥 有 多 项 特色 ， 比 如 Raid-Z、 重 定向 
写 、 原 生 快照 /克隆 、 远 程 复 制 、 讨 缩 、 重 删 、 数 据 一 致 性 支持 等 等 。 
这 也 是 近年 来 ZFS 几 乎 被 所 有 二 三 线 厂商 用 作 存 储 底层 的 原因 ， 因 为 
它 几 乎 搞定 了 SAN 和 NAS 存 储 系 统 底层 所 需要 做 的 多 数 工 作 。 如 图 10- 
52 所 示 为 EonNAS3000 配 置 界面 。 


图 10-52 ”EonNAS3000 配 置 界面 


这 里 要 着 重 介绍 的 一 点 是 ，EonNAS 支 持 无 颖 Failover。 多 数 双 控 
NAS 产 品 是 不 支持 拷贝 文件 的 同时 发 生 控 制 器 切换 而 同时 又 能 保证 文 
件 拷贝 过 程 继续 的 。 很 欣慰 地 看 到 EonNAS 很 好 地 做 了 支持 ， 支 持 这 
个 技术 ， 需 要 双 控 之 间 同 步 已 经 打开 的 文件 句柄 等 信息 ， 还 是 比较 有 
挑战 性 的 。 如 图 10-53 和 图 10-54 所 示 ， 当 在 执行 文件 拷贝 动作 时 ， 强 
行 Failover 一 人 台 控 制 器 ， 但 是 文件 拷贝 只 是 提示 了 重 试 或 者 跳 过 ， 并 没 
有 完全 中 断 ， 此 时 点 击 重 试 即 可 恢复 之 前 的 拷贝 状态 。 


图 10-53 ”强行 Failover 


图 10-54 ”拷贝 可 以 继续 执行 


第 11 章 ”大 师 之 作 一 大 话 以 太 网 
和 TCP/IP 协 议 


唱 以 太 网 
IP 
TCP 

四 UDP 
OSI 


在 老 祖宗 的 OSI 宝 典 的 基础 上 ， 后 人 不 知 哪 位 大 侠 ， 创 立 了 自己 
的 功夫 秘笈 ， 后 广泛 流传 于 江湖 。 这 套 秘 策 ， 就 是 大 名 上 见 见 的 “以 太 网 
和 TCP/IP 大 法 ”。 


11.1 ”共享 总 线 式 以 太 网 


如 何 让 多 台 PC 之 间 能 够 相互 连接 并 且 相 互 发 送信 息 呢 ? 既然 说 到 
独立 系统 之 间 的 互联 ， 那 就 可 以 参考 OSI 来 做 。 在 参考 OSI 之 前 先 参 考 
三 元 素 ， 即 连 起 来 、 找 目标 、 发 数据。 


11.1.1 ” 连 起 来 


“ 连 ”这 个 动作 ， 包 括 了 OSI 的 物理 层 和 数据 链 路 层 。 首 先 要 找 一 种 
连接 方式 将 所 有 节点 连接 起 来 。 连 接 多 个 节点 最 简单 的 办 法 就 是 总 线 
技术 。 总 线 就 是 一 个 公共 的 媒介 。 要 交流 ， 就 必须 提供 交流 所 需 的 场 


所 ， 这 个 场所 就 是 总 线 。 将 总 线 想象 成 一 根 铜 导 线 ， 每 个 节点 都 连接 
到 这 条 线 上 。 这 样 每 个 节点 的 信号 ， 在 总 线 上 所 有 的 其 他 节点 都 会 感 
知 到 ， 因 为 展 导 体 上 的 电位 处 处 相等 。 


基于 这 个 总 线 模型 ， 早 期 的 以 太 网 是 使 用 集线器 (HUB) 将 每 台 
PC 都 连接 到 它 的 一 个 接口 上 ， 所 有 这 些 接口 通过 集线器 内 的 中 继 电 路 
连接 在 一 起 。 为 什么 需要 中 继 器 ， 为 什么 不 可 以 直接 物理 连接 在 一 起 
呢 ? 使 用 中 继 器 的 主要 原因 有 两 个 : 第 一 ， 信 号 在 总 线 上 传输 时 受到 
干扰 可 能 会 迅速 衰减 。 加 了 中 继 器 后 集线器 将 从 一 个 接口 收 到 的 bit 流 
复制 到 每 个 接口 ， 这 样 就 避免 了 信号 衰减 ; 第 二 ， 中 继 器 可 以 防止 由 
于 不 可 知 的 原因 ， 造 成 两 个 节点 同时 向 总 线 上 放置 信号 所 造成 的 短 
路 。 图 11-1 是 一 个 HUB 模 型 。 


图 11-1 HUB 模 型 


在 数据 链 路 层 ， 以 太 网 使 用 帧 的 形式 来 发 送 数 据 流 。 上 层 的 数据 
流 被 封装 成 一 个 个 的 以 太 网 帧 ， 在 总 线 上 传播 。 


11.1.2 找 目 标 


为 了 区 分 总 线 上 的 每 个 节点 ， 每 个 节点 都 必须 具有 一 个 唯一 的 身 
份 标志 。 以 太 网 中 ， 这 个 标志 被 称 作 Media Access Control (MAC) 地 
址 ， 介 质 访问 地 址 ， 即 只 有 数据 帧 中 包含 这 个 地 址 ， 总 线 介 质 上 拥有 
这 个 地 址 的 接收 方才 知道 这 个 数据 帧 是 给 自己 的 ， 从 而 才 会 将 其 保存 
到 缓冲 区 内 。 实 际 上 ， 每 个 以 太 网 帧 中 都 包含 源 MAC 地 址 和 目的 
MAC 地 址 。 


MAC 地 址 是 一 个 6 字 节 (48b) 长 的 字段 ， 每 个 节点 的 网 卡 都 有 一 
个 全 球 唯一 的 MAC 地 址 ， 这 个 地 址 在 网 卡 出 三 时 被 固化 在 芯片 中 。 


以 太 网 就 是 利用 MAC 地 址 来 区 分 每 个 节点 的 。 
11.1.3 ”发 数据 


既然 是 总 线 方式 联网 ， 那 么 每 个 节点 发 出 的 信号 ， 总 线 上 的 所 有 
节操 都 会 感知 到 ， 并 且 ， 同 一 时 刻 只 能 由 一 个 节 点 的 信号 在 总 线 上 传 
递 ， 如 果 同 时 有 多 个 节点 都 向 总 线 上 传递 信号 ， 则 各 路 信号 之 间 就 会 
发 生 冲 突 。 比 如 ， 节 点 A 在 时 间 点 T1 时 刻 向 总 线 上 放置 高 电位 信号 
(假设 电位 为 0.5V) ， 而 节点 B 在 T1 时 刻 向 总 线 上 放置 低 电位 信号 
(假设 电位 为 0V) ， 这 样 ， 就 形成 了 电流 通路 ， 一 方面 造成 短路 ， 缩 
短 设备 寿命 ， 另 一 方面 总 线 上 的 其 他 节点 所 感知 到 的 电位 总 是 90。 所 
以 ， 任 何 情况 下 ， 都 不 能 让 多 个 厄 点 同时 向 总 线 上 放置 信号 。 


有 如 下 两 种 措施 可 以 防止 这 种 情况 的 发 生 。 


= 集线器 中 的 中 继 电 路 ， 会 防止 由 于 恶意 破坏 或 者 其 他 不 可 知 的 
程序 pug 所 导致 的 信号 冲突 。 
=。 在 协议 角度 ， 从 根本 上 杜绝 这 种 情况 的 发 生 。 


在 总 线 上 ， 每 个 节点 利用 载波 侦 听 机 制 (CSMA) 来 检测 当前 总 
线 上 是 否 有 其 他 节点 的 信号 正在 传播 ， 一旦 检测 到 信号 ， 则 暂时 不 发 
适 缓冲 区 内 的 效 据 帧 ， 并 不 断 地 侦 听 电路 上 的 信号 ， 一 旦 发 现 总 续 空 
闲 ， 则 立即 向 总 线 上 放置 信号 ， 声 明 要 使 用 总 线 ， 如 果 在 完全 相同 的 
时 刻 ， 另 一 个 节点 也 同样 放置 了 信号 ， 则 两 路 信号 会 发 生 冲 突 ， 两 个 
节点 检测 到 冲突 后 ， 会 撤销 声明 ， 继 续 回 到 侦 听 状态 ， 这 个 过 程 叫做 
冲突 检测 (CD) 。 


但 两 个 节点 在 同一 时 刻 同时 发 出 信号 的 几率 很 小 ， 即 使 本 轮 声明 
失败 ， 在 下 一 轮 争 抢 声 明 中 ， 某 个 节点 胜利 的 几率 是 很 大 的 ， 而 且 以 


太 网 中 的 所 有 节点 的 优先 权 都 是 一 样 的 ， 或 者 可 以 说 以 太 网 内 没有 优 
先 权 的 概念 ， 包 括 网 关 设 备 在 内 。 而 SCSI 总 线 的 优先 级 最 高 ， 因 为 
SCSI 协 议 本 身 就 是 一 个 Poll- Response 型 的 协议 ，SCSI 控 制 器 要 顺序 寻 
找 总 线 上 的 除 自身 之 外 的 所 有 其 他 节点 ， 它 的 优先 级 最 高 。 所 以 对 于 
以 太 网 来 说 ， 完 全 不 必 担 心 某 个 节点 永远 也 抢 不 到 总 线 使 用 权 (俗称 
“总 线 饿 死 ?) 的 情况 。 


另外 ， 也 不 必 担 心 这 种 CSMA/CD 机 制 会 耗费 过 多 的 时 间 ， 由 于 这 
种 机 制 不 是 靠 CPU 执 行 代码 来 实现 的 ， 而 完全 是 靠 电 路 逻辑 执行 的 ， 
所 以 速度 都 在 微 秒 级 ， 宏 观 上 不 会 感觉 到 延迟 。 


如 果 一 条 总 线 上 的 节点 过 多 ， 则 发 生 冲 突 的 几率 就 越 大 ， 造 成 的 
开销 和 延迟 也 越 大 。 另 一 方面 节点 越 多 ， 每 个 节点 使 用 总 线 的 平均 时 
间 也 就 会 降低 ， 宏 观 上 ， 也 就 造成 了 每 节点 的 可 用 带宽 降低 。 所 以 共 
享 总 线 方式 的 网 络 ， 可 接 入 的 节点 数量 是 有 限 的 。 


节点 取得 了 总 线 使 用 权 之 后 ， 便 开始 发 送 数 据 帧 ， 也 就 是 将 数据 
帧 的 比特 流转 换 成 电信 号 ， 以 一 定 的 间隔 速度 放置 到 总 线 上 ， 对 于 
10Mb/s 以 太 网 来 说 ， 每 隔 一 千 万 分 之 一 秒 ， 总 线 上 的 信号 就 被 放置 一 
次 ， 直 到 整个 数据 帧 被 传播 完毕 ， 总 线 空 凋 ， 然 后 节点 再 发 起 新 一 轮 
的 CSMA/CD 过 程 。 


在 一 个 节点 向 总 线 上 传播 数据 的 同时 ， 所 有 其 他 节 和 点 都 会 将 总 线 
上 正在 传播 的 信号 保存 到 各 自 的 缓冲 区 内 ， 形 成 一 帧 一 帧 的 数据 。 也 
就 是 说 ， 共 享 式 以 太 网 中 ， 任 何 一 个 节点 所 发 送 的 数据 ， 其 他 所 有 节 
点 都 会 收 到 。 


这 岂 不 是 没有 隐私 可 言 了 么 ? 


的 确 ， 只 要 在 HUB 上 的 任何 一 个 节点 上 安装 一 个 抓 包 软件 ， 就 可 
以 抓 取 总 线 上 的 信号 ， 看 到 任何 兰 节 点 发 送 到 任何 目的 节点 的 数据 。 


比如 ， 节 点 A 想 与 节点 B 通 信 ， 节 点 B 怎 么 知道 当前 总 线 上 的 数据 
是 给 它 的 呢 ? 我 们 上 面 讲 过 ， 每 个 节点 都 有 一 个 MAC 地 址 ， 节 点 A 若 
想 将 数据 传送 给 节点 B， 就 会 在 数据 帧 中 的 特定 字段 填 入 节点 B 的 
MAC 地 址 (目的 MAC 地 址 ) ， 并 且 在 特定 字段 填 入 节点 A 自 己 的 
MAC 地 址 〈 源 MAC 地 址 ) ， 这 个 数据 包 被 所 有 人 收 到 ， 当 然 包 括 B 节 
点 。B 节 点 检测 这 个 帧 的 目的 MAC 地 址 ,与 自身 的 MAC 地 址 作对 比 ， 
如 果 相 配 ， 则 得 知 这 个 帧 是 给 自己 的 ， 并 且 通 过 检测 源 MAC 地 址 段 ， 
B 会 知道 这 个 帧 是 节点 A 给 的 。 而 节点 C 此 时 也 收 到 了 这 个 帧 ， 它 也 会 
对 比 自己 的 MAC 与 帧 中 的 目的 MAC 字 段 ， 发 现 不 匹配 ， 所 以 知道 这 
个 帧 不 是 给 自己 的 ， 立 即将 其 丢弃 。 


以 太 网 定义 了 一 种 特殊 的 MAC 地 址 ， 这 个 地 址 的 所 有 48 位 的 值 都 
为 1。 这 个 地 址 对 应 了 总 线 上 的 所 有 节点 ， 也 就 是 说 ， 如 果 某 个 数据 帧 
中 的 目的 地 址 是 这 个 特殊 的 MAC 地 址 ， 则 所 有 接收 到 这 个 帧 的 节点 都 
会 保存 起 来 并 提交 上 层 协议 处 理 ， 而 被 这 个 地 址 称 为 广播 地 址 。 


11.2 ”网 桥 式 以 太 网 


前 面 描述 了 共享 总 线 型 以 太 网 。 会 发 现 ， 一 个 人 说 话 所 有 人 都 听 
到 ， 这 不 安全 ， 也 没 必 要 浪费 资源 。 必 须发 明 一 个 机 制 来 改进 ， 网 桥 
的 出 现 ， 初 步 降低 了 这 个 问题 所 带 来 的 影响 。 


网 桥 也 有 多 个 接口 ， 外 观 甚至 和 HUB 一 样 ， 但 是 里 面 的 电路 加 入 
了 逻辑 运算 电路 和 智能 化 的 东西 ， 不 像 HUB 一 样 ， 所 有 接口 复制 总 线 
上 的 数据 。 


网 桥 把 它 上 面 的 接口 分 了 很 多 组 ， 每 一 个 组 中 的 接口 都 在 一 条 独 
立 的 总 线 上 ， 不 同 的 组 使 用 不 同 的 总 线 。 也 就 是 说 ， 除 非 网 桥 转发 过 
去 ， 否 则 某 个 组 中 总 线 上 的 数据 ， 不 会 被 另外 的 组 收 到 。 这 样 就 碱 小 
了 冲突 域 ， 相 当 于 本 来 10 个 人 的 小 组 ， 分 成 了 多 个 子 讨论 组 ， 一 个 讨 
论 组 在 讨论 的 同时 ， 另 一 个 讨论 组 也 可 以 讨论 ， 两 个 组 完全 物理 上 隔 
离 。 这 样 ， 接 入 相同 数目 的 节点 ， 但 是 性 能 却 比 HUB 好 多 了 。 图 11-2 
为 一 个 网 桥 模型 。 


图 11-2 ”网 桥 模 型 


如 图 11-2 所 示 ， 节 点 A 与 B 在 总 线 1 (冲突 域 1) 中 ， 总 线 1 与 总 线 2 
是 隔离 的 ， 如 果 人 A 与 B 通 信 ， 则 只 会 在 总 线 1 上 节点 ，A 与 B 通 信 的 同 
时 ， 总 线 2 上 的 C 与 D 也 可 以 通信 。 这 样 ， 每 个 冲突 域 中 所 包含 的 节点 
数目 降低 了 ， 所 以 相对 HUB 来 说 提高 了 性 能 。 


但 是 如 果 A 想 与 D 通 信 ， 怎 么 办 呢 ? 毫 无 疑问 ， 桥 接 芯 片 必须 将 A 
发 出 的 数据 帧 从 总 线 1 复制 到 总 线 2 上 ; 反之 亦 然 。 那 么 ， 桥 接 芯 片 如 
何 知 道 某 个 数据 帧 是 A 发 送 给 D 的 ， 而 不 是 B 的 呢 (A 发 送 给 B 的 数据 帧 
不 能 被 复制 到 总 线 2， 否 则 就 和 HUB 一 样 了 ) ? 显然 ， 桥 接 芯 片 必 须 
对 数据 帧 进行 分 析 ， 分 析 其 中 的 目的 MAC 地 址 ， 如 果 某 个 数据 帧 的 源 
节点 在 总 线 1 上 ， 其 目的 MAC 地 址 对 应 的 节点 也 在 总 线 1 上 ， 那 么 芯片 
就 不 会 复制 这 个 数据 帧 到 其 他 总 线 ， 但 是 如 果 目 的 MAC 对 应 的 节点 与 
源 节 点 不 在 一 个 总 线 上 ， 则 桥接 忆 片 会 将 这 个 数据 帧 转发 到 目的 节点 
所 在 的 总 线 ， 从 而 让 目的 节点 收 到 。 


为 了 做 到 这 一 点 ， 网 桥 必须 知道 某 条 总 线 上 到 底 包 含 了 哪些 MAC 
地 址 ， 这 样 才能 做 到 根据 目的 MAC 与 总 线 的 对 应 关系 来 决定 某 个 数据 


帧 是 否 需 要 转发 ， 转 发 到 哪 条 总 线 。 桥 接 心 片 是 通过 动态 学 习 来 填充 
“MAC 一 总 线 ” 对 应 表 的 。 


每 当 总 线 上 有 数据 帧 通过 ， 桥 接 心 片 就 去 提取 它 的 源 MAC 地 址 ， 

放 入 对 应 表 中 (已 经 存在 的 记录 将 会 忽略 ) 。 比 如 ， 当 网 桥 刚 刚 加 电 
的 时 候 ， 这 张 对 应 表 是 空 的 。 这 时 总 线 1 上 的 A 向 B 发 送 了 一 个 数据 
帧 ， 因 为 是 共享 总 线 ， 所 以 桥接 必 片 也 会 同样 收 到 这 个 帧 ， 网 桥 立 即 
提取 这 个 帧 中 的 源 MAC 地 址 ， 假 如 这 个 MAC 值 为 : 00-40-D0-A0-A3- 
7D， 就 向 表 中 填 入 一 条 “00-40-D0-A0-A3-7D bus1”， 这 表示 busl 总 线 
上 ， 有 一 个 MAC 地 址 为 00-40-D0-A0-A3-7D 的 节点 连接 着 。 同 样 ， 所 
有 总 线 上 所 收 到 的 源 MAC 地 址 都 会 被 记录 到 表 中 。 如 果 从 总 线 1 上 收 
到 一 个 数据 帧 ， 经 过 查 表 发 现 其 目的 MAC 在 另 一 条 总 线 上 ， 则 网 桥 将 
这 个 帧 转发 到 那 条 总 线 。 如 果 某 个 帧 的 目的 MAC 还 没有 被 网 桥 学 习 
到 ， 也 就 是 说 网 桥 不 知道 这 个 MAC 在 哪个 总 线 ， 则 网 桥 便 向 除 发 送 这 
个 帧 的 总 线 之 外 的 其 他 总 线 转发 这 个 帧 ， 直 到 学 习 到 这 个 MAC 条 目 。 


强调 : 网 桥 并 不 记录 到 底 是 哪个 端口 所 连接 的 节点 具有 这 个 
MAC， 因 为 根本 没有 必要 记录 端口 信息 ， 数 据 帧 只 要 进入 这 
条 总 线 ， 这 条 总 线 上 所 有 端口 下 连接 的 节点 就 都 会 收 到 数 
据 ， 只 记录 “总 线 - MAC” 统 计 表 即 可 ， 所 以 没有 必要 记录 “ 端 
口 - MAC” 表 。 


11.3 ”交换 式 以 太 网 


HUB 是 一 锅 顷 ， 网 桥 也 好 不 到 哪里 去 ， 只 不 过 把 这 一 锅 大 粥 分 成 
了 多 锅 小 新 而 已 。 


随 着 硬件 技术 的 提高 ， 交 换 式 以 太 网 出 现 了 。 交 换 式 以 太 网 利用 
交换 机 替代 了 网 桥 。 其 实 交 换 机 也 是 一 种 网 桥 ， 一 种 特殊 的 网 桥 。 普 
通 网 桥 中 ， 每 个 端口 组 (冲突 域 ， 中 有 不 止 一 个 端口 ， 而 交换 机 中 ， 
每 个 端口 组 中 只 有 一 个 端口 ， 也 可 以 这 么 说 ， 交 换 机 上 的 每 个 端口 都 
独占 一 条 总 线 。 这 样 交 换 机 彻底 隔离 了 冲突 域 ， 而 不 是 仅仅 减 小 了 冲 
突 域 ， 也 就 是 说 ， 交 换 机 的 每 个 端口 下 都 是 一 个 独立 的 冲突 域 。 


此 外 ， 交 换 机 内 部 必 片 ， 也 不 再 被 称 作 桥 接 心 片 ， 而 改 成 交换 心 
片 。 网 桥 芯片 学 习 并 记录 “<*MAC- 总 线 " 对 应 表 ， 那 么 顺藤摸瓜 ， 交 换 机 
既然 每 个 端口 独占 一 个 总 线 ， 理 所 当然 的 ， 交 换 心 片 学 习 并 记录 的 就 
是 “<MAC- 端 口 ?对 应 表 。 


交换 机 是 以 太 网 的 最 终 实现 形式 。 端 口 之 间 不 再 是 共享 总 线 通 
信 ， 而 是 可 以 在 任意 时 刻 、 任 意 两 个 端口 之 间 同 时 收发 数据 。 
HUB 是 没有 大 脑 的 ， 只 有 一 个 中 继 器 。 网 桥 进化 出 了 大 脑 ， 但 是 


智商 不 高 。 而 交换 机 则 拥有 高 智商 的 大 脑 和 极 快 的 运算 速度 。 图 11-3 
便 是 一 个 交换 式 模型 。 


图 11-3 ”交换 式 以 太 网 模型 
11.4 ”TCP/IP 协 议 


以 太 网 的 出 现 ， 给 系统 间 互 联 提供 了 方便 的 方式 。 每 个 节点 安装 
一 块 以 太 网 适配器 ， 上 层 程 序 只 要 将 要 发 送 的 数据 以 及 数据 要 到 达 的 
目的 MAC 地 址 告诉 以 太 网 卡 ， 数 据 就 可 以 通过 以 太 网 传输 到 目的 ， 完 
成 通信 过 程 。 


但 是 实际 中 ， 以 太 网 并 不 是 直接 被 应 用 程序 使 用 来 收发 数据 的 。 
究 其 原因 ， 就 是 因为 以 太 网 是 一 个 没有 传输 保障 机 制 的 网 络 。 首 先 以 
太 网 设备 不 会 对 数据 帧 进行 校 验 纠 错 等 措施 。 其 次 以 太 网 设备 一 旦 由 
于 数据 交换 量 过 大 ， 就 可 能 造成 缓冲 区 队列 充满 而 主动 丢弃 数据 帧 ， 
而 且 丢 弃 数 据 帧 的 同时 ， 不 会 有 任何 措施 来 通知 发 送 方 。 所 以 ， 以 太 
网 是 一 个 不 可 靠 的 网 络 。 应 用 程序 如 果 直 接 调用 以 太 网 来 发 送 数 据 ， 
则 必须 忍受 丢失 数据 的 风险 。 


为 了 解决 以 太 网 的 这 个 弱点 ， 人 们 在 以 太 网 之 上 ， 增 加 了 一 个 层 
次 ， 在 这 个 层次 上 ， 人 们 实现 了 以 太 网 所 不 具有 的 功能 。 运 行 在 这 个 
层次 上 的 程序 ， 用 了 很 多 复杂 的 机 制 来 保证 发 送 给 以 太 网 适配器 的 数 
据 包 能 够 成 功 地 到 达 对 方 ， 如 果 中 途 发 生 丢 包 现象 ， 则 本 地 会 通过 超 
时 未 得 到 确认 等 机 制 来 重新 发 送 该 数据 包 。 而 应 用 程序 由 原来 的 直接 
调用 以 太 网 接口 ， 改 为 调用 这 种 位 于 以 太 网 上 层 的 新 程序 接口 从 而 获 
得 可 靠 的 数据 收发 。 


运行 在 这 个 新 层次 上 的 协议 有 很 多 ， 如 NetBEUI、 NetBIOS、 
IPX、TCP/P 等 。 这 些 协议 ， 其 下 层 调 用 以 太 网 提供 的 服务 ， 上 层 则 
向 外 提供 新 的 调用 接口 ， 向 应 用 程序 提供 可 靠 的 网 络 传输 服务 。 


在 这 些 协议 中 ，TCP/IP 以 其 广 谱 的 适用 性 、 良 好 的 性 能 以 及 能 够 
良好 地 在 超大 规模 网 络 上 运行 等 优点 ， 迅 速 地 得 到 了 普及 ， 成 为 
Internet 网 络 所 使 用 的 通信 协议 。 


11.4.1 TCP/IP 协 议 中 的 IP 


到 MAC 这 一 层 ， 以 太 网 已 经 实现 了 OSI 的 下 三 层 ， 即 物理 层 、 链 
路 层 和 网 络 层 。 以 太 网 也 只 跨越 了 这 3 层 ， 从 第 四 层 到 第 七 层 ， 以 太 网 


没有 涉足 〈 现 在 普遍 认为 以 太 网 只 作用 到 链 路 层 ， 这 是 一 个 错误 观 
点 。 造 成 这 种 误解 的 原因 ， 是 以 太 网 一 旦 与 TCP/IP 结 合 ， 便 沦落 为 
TCP/P 协 议 的 链 路 层 ， 其 第 三 层 地 址 被 以 太 网 的 耻 所 映射 掉 了 ， 所 以 
掩盖 了 其 第 三 层 的 元 素 ) 。 


由 于 以 太 网 的 天 生 弱 点 ， 使 它 不 得 不 选择 与 TCP/IP 协 议 合 作 ， 求 
助 TCP/IP 协 议 向 上 层 应 用 程序 提供 可 靠 传输 保障 。 由 于 主动 权 完全 党 
握 在 TCP/IP 手 中 ， 所 以 TCP/IP 向 以 太 网 提出 了 一 个 非常 过 分 的 要 求 ， 
即 以 太 网 要 想 占 有 市 场 一 席 之 地 ， 就 必须 将 MAC 地 址 隐藏 掉 ， 对 外 统 
统 用 TCP/P 家 族 的 新 一 代 地 址 : IP 地 址 。 以 太 网 委 曲 求全 ， 不 得 不 同 
意 这 个 要 求 。 


其 实 ，TCP/IP 提 出 这 个 要 求 不 是 故意 难为 以 太 网 。 因 为 除了 以 太 
网 之 外 ， 还 有 很 多 其 他 类 型 的 联网 万 式 。 而 以 TCP/IP 在 业界 的 权威 
性 ， 其 他 网 络 都 求助 于 TCP/IP 来 将 它们 融入 市 场 以 分 一 杯 赣 。 而 几乎 
每 种 联网 方式 都 有 自己 的 编 址 和 寻 址 方式 ， 面 对 这 么 多 种 地 址 ， 
TCP/P 只 好 快刀 斩 乱 麻 ， 将 这 些 五 花 八 门 的 地 址 ， 统 统 映射 到 卫 地 址 
上 ， 对 外 统一 以 IP 地 址 作为 编 址 方式 。 


下 面 简单 介绍 一 下 ARP 协 议 。 


既然 TCP/IP 宣 称 要 将 所 有 类 型 的 地 址 全 部 统一 到 IP 地 址 ， 那 么 也 
就 意味 着 ， 网 络 中 的 每 个 节点 ， 都 必须 配备 一 个 IP 地 址 ， 节 点 之 间 相 
互通 信 的 时 候 ， 也 要 使 用 IP 地 址 。 但 是 ， 数 据 帧 最 终 是 通过 底层 的 网 
络 传输 设备 来 转发 的 ， 如 以 太 网 交换 机 。 而 以 太 网 交换 机 是 不 理解 IP 
地 址 的 ， 它 只 能 分 析 数 据 帧 中 特定 偏 移 处 的 MAC 地 址 ， 从 而 做 出 转发 
动作 。 所 以 ， 必 须 有 一 种 机 制 ， 来 将 卫 地 址 映射 成 底层 MAC 地 址 。 


ARP 协 议 就 是 专门 用 来 处 理 一 种 地 址 与 男 一 种 地 址 之 间 相 互 映 射 
的 一 种 机 制 。ARP 协 议 运 行 在 每 个 网 络 设备 上 ， 将 一 种 地 址 映射 成 底 
层 网 络 设备 所 使 用 的 另 一 种 地 址 。 


对 于 ARP 协 议 ， 本 书 不 再 作 具 体 描 述 。 
11.4.2 ”了 了 的 另外 一 个 作用 


IP 层 还 有 一 个 作用 ， 就 是 适 配 上 下 层 ， 给 链 路 层 和 传输 层 提 供 适 
配 。 适 配 了 什么 ， 怎 么 适 配 的 呢 ? 我 们 知道 链 路 层 有 MTU 的 概念 ， 也 
就 是 链 路 最 大 传输 单元 ， 即 每 帧 所 允许 包含 的 最 大 字 节 数 。 


提示 : 第 7 章 中 描述 过 ， 链 路 层 就 类 似 于 司机 和 交通 规则 ， 
要 对 货车 的 载重 、 车 型 大 小 有 要 求 ， 如 这 条 路 承受 不 了 多 重 
的 车 ， 每 辆 车 不 能 拉 超 过 多 高 的 货物 等 。 如 果 客 户 给 的 货物 
太 大 、 太 重 ， 不 能 一 次 运 过 去 ， 那 么 只 能 把 货物 分 割 、 分 次 
运送 ， 到 达 目 的 地 后 ， 再 组 装 起 来 。 这 个 动作 由 IP 层 程序 来 
做 。 也 就 是 IP 根 据 链 路 的 MTU 值 来 分 割 货物 ， 然 后 给 每 个 分 
割 的 货物 块 贴 上 源 和 目的 IP 地 址 、 顺 序号 ， 以 便 在 货物 块 到 
达 目 的 地 后 ， 利 用 顺序 号 来 重新 合并 成 完整 的 一 件 货 物 。 


货物 被 分 割 成 块 后 都 需要 被 路 由 转发 一 次 ， 然 而 路 由 器 每 次 选择 
的 路 径 不 一 定 都 一 样 ， 而 且 每 个 块 都 需要 由 司机 运送 ， 司 机 驾驶 水 
平 、 速 度 不 同 ( 链 路 层 ) ， 就 难免 会 有 些 先 到 、 有 些 后 到 ， 所 以 到 达 
目的 地 后 很 有 可 能 乱 序 。 此 时 就 要 用 到 顺序 号 了 ， 这 个 号 码 是 根据 货 
物 被 分 割 处 相对 整个 货物 起 点 的 距离 (Offset， 偏 移 量 ) 而 制定 的 。 根 
据 这 个 号 ， 等 所 有 货物 块 到 达 目 的 之 后 ， 对 方 的 IP 程 序 就 会 根据 这 个 
号 码 将 零散 的 块 组 闭 起 来 。 


强调 : 每 个 货物 块 都 携带 IP 头 部 ， 但 是 只 有 第 一 块 携 带 TCP 
或 者 UDP 头 部 ， 因 为 传输 层 头 部 是 在 应 用 数据 之 前 的 ，IP 分 
割 的 时 候 ， 一 定 会 把 传输 层 头 部 分 割 在 第 一 块 货物 中 。 


11.4.3” ”TCP/IP 协议 中 的 TCP 和 UDP 


TCP/P 协 议 其 实 包 含 了 两 个 亚 层 ， 卫 是 第 一 个 亚 层 ， 也 就 是 用 来 
统一 底层 网 络 地 址 和 寻 址 的 亚 层 。 第 二 个 亚 层 ， 就 是 TCP 或 者 UDP， 
在 逻辑 上 它们 位 于 IP 之 上 。 


TCP 的 功能 ， 就 是 维护 复杂 的 状态 机 ， 保 障 发 送 方 发 出 的 每 个 数 
据 包 ， 都 会 被 最 终 传送 到 接收 方 ， 如 果 发 生 严 重 错 误 ， 还 会 向 上 层 应 
用 反馈 出 错 信息 ， 从 而 保证 应 用 层 逻 辑 的 无 误 和 一 致 性 。 


而 UDP 的 功能 ， 则 可 以 理解 为 是 TCP/IP 对 以 太 网 的 一 种 透 传 ， 即 
UDP 是 一 个 没有 传输 保障 功能 的 亚 层 ， 除 了 UDP 可 以 提供 比 以 太 网 更 
方便 的 调用 方式 外 ， 其 他 方面 没有 什么 本 质 区 别 。 也 许 是 因为 TCP/IP 
协议 觉得 TCP 的 逻辑 太 过 复杂 ， 所 以 提供 了 一 种 绕 过 TCP 复 杂 逻 辑 而 
又 比 以 太 网 更 加 方便 调用 的 方式 ， 即 UDP。 


TCP/IP 协 议 向 上 层 应 用 程序 提供 的 调用 接口 称 为 Socket 接 口 ， 即 
“插座 ”接口 。 这 也 体现 了 TCP/IP 想 让 应 用 程序 更 为 方便 地 使 用 网 络 ， 
就 像 将 插头 插入 供电 插座 而 接 入 电网 一 样 使 用 计算 机 网 络 。 


基于 TCP/IP 有 很 多 应 用 层 协 议 ， 这 些 协议 必须 依赖 TCP/IP 协 议 ， 
比如 : Ping、Trace、SNMP、Telnet、SMTP、FTP、HTTP 等 。 这 些 应 
用 程序 ， 加 上 它们 所 依赖 的 P、TCP 和 UDP， 然 后 加 上 物理 层 链 路 层 
(以 太 网 等 ) ， 一 并 形成 了 TCP/IP 协 议 簇 。 


1。TCP 协 议 


第 7 章 中 说 过 ，TCP 就 是 一 个 押运 员 的 角色 ， 也 就 是 由 它 把 货物 区 
给 IP 做 调度 的 。 货 物 最 初 是 由 应 用 程序 来 生成 的 ， 应 用 程序 又 调用 
Socket 接 口 来 向 接收 方 发 送 这 些 货物 。 应 用 程序 通知 TCP/IP 去 特定 的 
内 存 区 域 将 数据 拷贝 到 Socket 的 缓冲 区 ， 然 后 TCP 再 从 缓冲 区 将 数据 
通过 IP 层 的 分 片 后 ， 从 底层 网 络 适 配器 发 送 到 网 络 对 端 。 


TCP 通 过 MSS (Max Segment Size) 来 调整 每 次 转 给 IP 层 的 数据 大 
小 。 而 MSS 的 值 完全 取决 于 底层 链 路 的 MTU 值 。 为 了 避免 IP 分 片 ， 
MSS 总 是 等 于 MTU 值 减 掉 IP 头 ， 再 减 掉 TCP 头 之 后 的 值 。 这 样 TCP 发 
送 给 了 的 数据 ， 耿 加 入 卫 头 之 后 ， 恰 好 就 等 于 底层 链 路 的 MTU 值 ， 使 
得 IP 不 需要 分 片 。 


强调 : 既然 货物 的 大 小 要 匹配 MTU， 那 为 什么 不 直接 让 TCP 
把 分 割 好 的 货物 给 IP 呢 ? 


TCP 其 实 很 想 这 么 做 ， 但 是 它 很 难 做 到 ， 因 为 TCP 是 个 端 到 端的 
协议 ， 也 就 是 说 ， 只 有 通信 的 最 终端 点 维护 着 TCP 状 态 信息 ， 途 经 的 
各 个 其 他 设备 一 概 不 知道 。 如 果 两 个 端点 所 处 的 局 域 网 都 是 以 太 网 ， 
但 是 途经 一 段 串 口 链 路 ， 假 设 串口 MITU 为 576B ， 以 太 网 MTU 为 
1500B， 那 么 双方 在 TCP 握 手 的 时 候 会 互相 通告 自己 的 MSS， 因 为 是 端 
到 端 协议 ， 不 关心 途经 的 设备 和 链 路 ， 那 么 它们 都 认为 自己 和 对 方 都 
处 在 以 太 网 中 ， 所 以 互相 都 通告 自己 的 MSS 值 为 1460B (最 大 分 段 大 
小 ， 等 于 出 口 MTU 减 去 IP 头 和 TCP 头 的 开销 ) 。 


这 样 ，TCP 给 IP 的 货物 大 小 就 是 : 1460+TCP 头 三 1480B， 然 后 加 
上 IP 头 传输 出 去 。 一 旦 这 个 数据 包 到 达 了 串口 链 路 ， 则 串口 链 路 两 端 


的 IP 层 必须 根据 串口 链 路 的 MTU， 对 〈1480+ 串 行 链 路 协议 头 ) 字 节 
的 数据 包 进 行 分 片 ， 将 数据 包 分 成 多 个 576B 的 数据 帧 〈 最 后 一 帧 大 小 
可 能 小 于 576B) ， 从 而 在 串口 链 路 上 传输 。 所 以 TCP 的 MSS， 在 广 域 
网 传输 时 基本 派 不 上 用 场 。 不 过 ， 有 机 制 可 以 探测 到 途经 链 路 上 的 最 
小 MTU 值 ，TCP 参 考 这 个 链 路 最 小 MTU 值 所 得 出 的 MSS 值 ， 这 时 是 很 
有 价值 的 。 


在 Windows 系 统 中 ， 每 块 网 卡 的 MTU 大 小 其 实 是 可 调 的 ， 但 是 只 
能 调节 到 比 网 卡 所 连接 到 的 以 太 网 交换 设备 所 允许 的 最 小 MTU 值 还 小 \ 
才 可 以 ， 如 果 调 节 到 大 于 这 个 值 ， 则 会 造成 数据 丢失 以 及 不 可 知 的 莫 
名 错误 。Windows 中 是 通过 注册 表 中 以 下 的 键 值 来 调节 MTU 大 小 的 : 


HKEY_LOCAL MACHINE\SYSTEM\ControlSet003\Services\TCP/IP\Paramet 
ers\Interfaces\{ 接 口 编号 }\MTU 


图 11-4 是 一 个 TCP 握 手 过 程 中 ， 发 起 连接 端 在 TCP 头 的 option 字 段 
中 给 出 了 本 地 TCP 的 最 大 MSS 值 (本 地 网 络 适配器 最 大 MTU 值 减 去 
40B) 。 本 例 中 由 于 MTU 值 被 配置 成 了 1300B 而 不 是 默认 的 1500B， 所 
以 造成 TCP 通 告 MSS 值 为 1260B。 


图 11-4 ” ”TCP 握手 过 程 中 的 一 个 包 


TCP 将 上 层 应 用 的 数据 完全 当 作 字 节 流 ， 不 对 其 进行 定 界 处 理 。 
TCP 认 为 上 层 应 用 数据 就 是 一 连 串 的 字 节 ， 它 不 认识 字 节 的 具体 意 
义 ， 却 可 以 任意 分 割 这 些 字 节 ， 封 装 成 货物 进行 传送 ， 但 是 必须 保证 
数据 的 排列 顺序 。 


比如 ， 上 层 应 用 要 传输 123456789 这 9 个 数字 ，TCP 可 以 一 次 发 送 

这 9 个 字 节 的 内 容 ， 也 可 以 每 次 发 送 3 个 字 节 ， 分 3 次 发 完 ， 或 者 ， 上 层 

到 货 仑 中 1、2、3 三 个 数据 ，TCP 有 可 能 将 这 3 个 数据 打包 一 次 发 送 

(nagel 算 法 ) ，TCP 的 这 些 动作 ， 上 层 都 是 不 知道 的 。 但 是 ， 对 于 

123456789 这 9 个 数字 ， 如 果 接 收 端 先 收 到 1、2、3 这 三 个 数字 ，4 人 一 9 还 

没有 被 接收 到 ， 而 当 只 有 应 用 程序 完全 接收 到 这 9 个 数字 才 会 认为 数据 
有 意义 时 ， 应 该 怎么 办 呢 ? 


要 解决 这 个 问题 ， 就 得 完全 靠 上 层 应 用 程序 。 比 如 ， 可 以 在 一 个 
消息 头 部 增加 一 个 定 长 字段 ， 表 示 这 个 消息 的 长 度 ， 比 如 在 123456789 
之 前 增加 一 个 (9) ， 变 成 (9) 123456789， 那 么 程序 一 旦 接收 到 
(9) ， 就 能 判断 出 接 下 来 要 连续 接收 9 个 字 节 才 有 意义 ， 如 果 某 时 刻 
只 接收 到 了 1、2、3， 应 用 程序 便 会 将 数据 缓存 起 来 ， 然 后 等 待 后 面 的 
6 个 数字 。 


如 果 TCP 从 (9) 处 分 割 了 数据 流 ， 怎 么 办 ? 比如 分 割 成 < 〈” 和 
“9) 123456789” 两 段 数据 ， 那 么 此 时 接收 方 应 用 程序 接收 到 “(” 这 个 
字符 ， 就 会 不 理解 其 意义 ， 这 样 就 要 求 应 用 程序 必须 有 缓存 ， 把 TCP 
交 上 来 的 数据 流放 到 缓存 中 ， 然 后 自行 合并 成 有 意义 的 数据 后 再 作 处 
尾 5 


TCP 把 上 层 的 数据 看 作 一 些 无 关联 逻辑 的 数据 流 ， 它 不 会 感知 到 
消息 与 消息 之 间 的 定 界 符 。 消 息 和 消息 之 间 的 界限 需要 完全 由 应 用 程 
序 自行 分 析 。 接 收 端 和 发 送 端的 TCP 都 保存 一 个 缓冲 区 ( 货 仓 ) ， 发 
送 和 接收 的 数据 都 存放 在 货 仓 中 ， 接 收 方 TCP 货 仓 中 的 数据 ， 每 次 被 
应 用 程序 一 次 性 取出 到 应 用 程序 自己 的 缓冲 区 ， 应 用 程序 再 从 应 用 缓 
冲 中 将 数据 流连 接 成 有 意义 的 数据 进行 处 理 。 


一 句 话 ，TCP 是 把 上 层 数 据 “ 分 段 *， 卫 是 把 TCP 分 好 的 段 再 “分 片 ” 
(如 果 这 个 段 大 于 MTU) ，IP 到 达 目 的 之 后 会 把 每 个 分 片 合并 成 一 个 
TCP 的 “分 段 *， 提 交 给 TCP， 然 后 TCP 就 直接 存放 到 货 仑 ， 顺 序 排 放 ， 
不 管 上 层 消息 间 的 分 界 。 


2。UDP 协 议 


UDP 和 TCP 不 同 ，TCP 是 孙悟空 ， 那 么 UDP 就 是 猪八戒 。UDP 只 
是 被 动 地 起 到 一 个 PP 和 上 三 层 之 间 的 接口 作用 ，UDP 没 有 传输 保障 机 
制 ， 出 错 后 不 会 重 传 ， 不 需要 保持 重 传 缓冲 和 复杂 的 定时 器 、 状 态 机 
等 机 制 ， 而 且 UDP 也 不 会 像 TCP 那 样 把 数据 流 按照 MSS 分 段 ，UDP 统 
统 不 理会 。 用 户 传 给 UDP 多 大 的 数据 ， 它 就 一 次 性 发 送出 去 ， 适 配 
MTU 的 工作 完全 由 IP 来 做 。 


UDP 没有 握手 机 制 ， 想 发 就 发 ， 发 完 就 不 管 了 。 正 因为 UDP 这 人 么 
简单 ， 所 以 UDP 头 部 只 有 8 字 节 长 ， 包 括 目 的 和 源 端口 号 、UDP 数 据 包 
长 度 、UDP 校 验 和 。 而 且 UDP 相 对 TCP 效 率 高 了 很 多 。 所 以 它 适 合 
在 实时 性 要 求 很 高 ， 但 是 可 靠 性 要 求 不 高 的 时 候 ， 比 如 实时 视频 流 、 


音频 流 服务 等 。 
3。 端口 号 


计算 机 操作 系统 上 ， 运 行 着 N 个 程序 ， 也 可 以 说 是 N 个 进程 。 如 果 
程序 之 间 需 要 相互 通信 ， 就 需要 用 号 码 来 标识 各 个 程序 ， 也 就 有 了 进 
程 号 的 概念 。 只 要 知道 一 个 程序 的 进程 号 ， 就 可 以 用 这 个 区 分 其 他 程 
序 。 


同一 台 计 算 机 上 程序 之 间 的 通信 ， 一 般 是 在 内 存 中 直接 通信 的 。 
如 果 两 台 计 算 机 上 的 两 个 程序 之 间 需 要 通信 ， 虽 然 也 可 以 通过 高 速 网 
络 将 两 台 计 算 机 的 内 存 共享 ， 但 是 这 种 网 络 的 成 本 很 高 。 而 普通 网 络 
能 做 到 的 ， 只 能 用 另外 一 种 方式 ， 即 先 将 消息 通过 网 络 发 送 到 另 一 个 
计算 机 ， 然 后 让 接收 到 消息 的 计算 机 来 选择 把 这 个 消息 发 给 其 上 运行 
的 对 应 的 程序 。 


要 这 样 做 ,接收 方 的 操作 系统 中 的 TCP/IP 协 议 就 一 定 需要 知道 某 
个 数据 包 应 该 放 入 哪个 应 用 程序 的 缓冲 区 ， 因 为 同一 时 刻 可 能 有 多 个 
应 用 调用 Socket 进 行 数 据 收发 操作 。 为 了 区 分 开 正 在 调用 Socket 的 不 同 
应 用 程序 ，TCP/IP 协 议 规 定 了 端口 号 的 概念 。 任 何 一 个 应 用 程序 在 调 
用 Socket 的 时 候 ， 必 须 声明 连接 目的 计算 机 上 TCP/AP 协 议 的 那个 端口 


11.5” TCP/IP 和 以 太 网 的 关系 


强调 : 很 多 人 把 TCP/IP 和 以 太 网 硬性 关联 起 来 ， 认 为 TCP/IP 
就 是 以 太 网 ， 或 者 以 太 网 就 是 TCP/IP ， 这 种 思想 是 完全 错误 
的 。 


TCP/IP 是 一 套 协 议 体 系 ， 以 太 网 也 是 一 套 协议 体系 ， 它 们 之 间 是 
相互 利用 的 关系 ， 而 不 是 相互 依存 的 关系 。 


TCP/IP 协 议 并 不 像 以 太 网 一 样 有 其 底层 专门 的 硬件 ， 但 是 它 可 以 
租用 一 切合 适 的 硬件 来 为 它 充当 物理 层 和 链 路 层 的 角色 。 除 了 以 太 网 
交换 机 ，TCP/IP 甚 至 可 以 用 无 线 电波 、 红 外 线 、USB、COM 串 口 、 
ATM 等 作为 其 物理 层 和 链 路 层 。 


以 太 网 给 TCP/IP 充 当 了 链 路 层 ， 不 一 定 代 表 它 只 能 作用 于 链 路 
层 。 以 太 网 有 自己 的 网 络 层 编 址 和 寻 址 机 制 ， 它 有 网 络 层 的 元 素 。 各 
种 联网 协议 都 有 自己 的 层次 ， 都 在 OSI 模型 中 有 自己 的 定义 ， 只 不 过 
TCP/P 协 议 在 网 络 层 和 传输 层 的 功能 应 用 得 太 广 泛 了 ， 所 以 OSI 的 第 
三 层 和 第 四 层 ， 几 乎 就 是 被 TCP/IP 协 议 给 统治 了 ， 其 他 协议 虽然 也 占 
有 一 席 之 地 ， 但 是 相 比 TCP/IP 的 光辉 就 暗淡 了 许多 。 另 外 ，TCP/IP 没 
有 统治 链 路 层 和 物理 层 ， 在 这 两 层 中 ， 就 是 其 他 协议 体系 的 天 下 ， 所 
以 TCP/IP 只 能 “租用 ”其 他 底层 协议 (比如 以 太 网 ) ， 来 完成 OSI 开放 系 
统 互联 的 任务 。 


这 就 是 PoP， 意 即 Protocol over Protocol。 PoP 的 思想 ， 到 处 可 见 ， 
因为 没有 人 可 以 统治 OSI 的 全 部 7 层 ， 毕 竟 需 要 大 家 相互 合作 。 


提示 : 关于 PoP 的 具体 分 析 ， 在 本 书后 面 的 章节 中 会 讲 到 。 


第 12 章 ”异军突起 一 存储 网 络 的 
新 军 IP SAN 


四 工 CP/IP 
昌 以 太 网 
四 SAN 
PoP 


TCP/P 协 议 可 谓 出 尽 了 风头 ， 不 仅 统治 了 Internet， 融 连 局 域 网 通 
信 ， 人 们 也 愿意 使 用 高 开销 的 TCP/PP 协 议 ， 可 算是 给 足 了 它 面子 。 


TCP/IP 的 买卖 越 做 越 大 ， 吞 并 收购 ， 不 断 涉 足 新 领域 ， 甚 至 连 家 
用 电器 都 想 接 入 IP 网 络 。 而 偏偏 有 一 位 惯 是 坚持 不 给 TCP/IP 面 子 ， 这 
就 是 大 名 见 见 的 FC 大 侠 。 十 几 年 来 ，TCP/P 在 江湖 上 可 谓 是 叱 吨 风 
云 、 前 呼 后 拥 、 一 呼 百 应 ， 听 惯 了 蔡 维 话 ， 看 惯 了 鞠躬 人 。 但 是 唯 独 
FC 大 侠 从 来 没 正 眼 看 过 它 一 次 ，TCP/IP 心 里 窝 火 啊 ! 


12.1 ” 横 眉 冷 天 


FC 大 侠 既 然 敢 和 TCP/IP 叫 板 ， 肯 定 有 自己 的 拿手 本 领 。 


TCP/IP 与 FC 


首先 ，FC 在 家 底 儿 上 就 占 了 上 风 ，FC 是 正 儿 八 经 的 世家 ， 四 世 同 
堂 (OSI 下 四 层 都 有 定义 ) 。 而 TCP/IP 就 两 磋 人 (网 络 层 和 传输 
层 ) ， 好 不 容易 整 了 个 后 代 还 是 收养 的 (租用 以 太 网 等 其 他 底层 传输 
网 络 ) 。 


其 次 ，FC 目 前 普遍 能 跑 出 每 秒 4Gb/s 的 速度 ， 以 太 网 每 秒 100Mbys 
的 速度 算 正 常 ，1Gb/s 的 速度 算 超常 发 挥 ，10Gb/s 的 速度 还 正在 修炼 之 
中 。 


再 次 ，TCP/IP 办 事 拖 泥 市 水 ， 笨 重 不 堪 。 瞧 瞧 TCP/IP 的 那个 大 头 
(TCP 和 IP 头 开销 合 起 来 要 40B) ， 下 雨 都 能 当 伞 用 。FC 的 脑袋 只 有 
24B。 以 太 网 交换 机 MTU 一 般 为 1500B，FC 交 换 机 则 超过 2000B， 传 输 
效率 上 也 高 过 以 太 网 。 


正 由 于 这 些 原因 ， 服 务 器 和 存储 都 愿意 走 FC 的 道 儿 。 


老 T (TCP/IP) 心里 一 琢磨 ， 虽 然 俺 家 业 不 如 FC 大 ， 跑 得 不 如 它 
快 ， 长 得 也 比 它 胖 ， 但 俺 也 不 是 一 无 是 处 啊 ! 


首先 ， 俐 广 结 天 下 恨 友 ， 江 湖 各 处 都 有 俺 的 分 号 。 


其 次 ， 俺 便宜 ， 给 钱 就 让 走 。 且 俺 的 好 兄弟 以 太 网 ， 几 乎 有 网 络 
的 地 方 ， 一定 少不了 它 。 


再 次 ， 那 FC 也 不 是 神仙 ， 走 它 的 道 毛病 太 多 ， 兼 容 性 差 ， 扩 展 性 
差 ， 而且 费用 太 高 。 就 任 这 三 点 ， 不 信 斗 不 过 FC。 


老 T 陷 入 了 久久 的 沉思 之 中 .…… 
12.2” 自 叹 不 如 一 一 为 何不 是 以 太 网 +TCP/IP 


以 太 网 可 寻 址 容量 很 大 ， 甚 至 比 IP 的 地 址 容量 都 要 大 ， 是 IP 的 2 16 
音 。 而 其 地 址 是 定 长 的 ， 且 使 用 专用 电路 完成 交换 动作 。 以 太 网 除了 
双 绞 线 之 外 ， 还 可 以 用 光纤 进行 传输 。 最 重要 的 一 点 就 是 以 太 网 非常 
廉价 、 部 署 简单 。 一 个 普通 16 口 100Mb 以 太 网 交换 机 ， 只 需要 一 两 百 


元 左右 。 而 一 个 16 口 的 FC 交 换 机 得 上 万 元 ， 还 没有 算 上 适 配 光 纤 的 
SFP 适 配器 的 费用 。 


但 是 ， 以 太 网 与 FC 网 络 比 起 来 ， 也 有 其 先天 不 足 之 处 。 


第 一 ， 速 度 方面 ， 以 太 网 目前 只 普及 到 1Gb/s 的 速度 ， 虽 然 10GbyAs 
以 太 网 络 已 经 开发 出 了 成 品 ， 但 是 离 完 全 普及 还 需要 一 段 时 间 。 而 FC 
已 经 普及 到 了 4Gb/s 的 速度 ， 且 8Gb/s 和 10Gb/s 速 度 的 FC 接口 标准 也 正 
在 制定 当中 。 


第 二 ， 以 太 网 是 一 个 不 可 靠 的 网 络 ， 它 不 是 一 个 端 到 端的 协议 ， 
不 管 源 和 目的 的 状态 ， 只 是 一 味 地 向 接口 上 塞 数 据 ， 这 也 是 下 层 协议 
的 普遍 特点 。 即 使 对 方 缓冲 将 满 ， 以 太 网 还 是 照样 往 链 路 上 塞 数据 ， 
而 不 会 有 所 减 慢 。 一 旦 接收 方 缓存 充满 ， 随 后 的 数据 帧 就 会 被 自动 丢 
弃 而 不 会 向 上 层 通 告 。 所 以 ， 以 太 网 必须 依靠 一 种 提供 可 靠 传输 机 制 
的 上 层 协 议 才能 达到 可 靠 传输 。 


强调 : Disk SAN 是 唯一 一 个 没有 被 以 太 网 攻克 的 领域 。 最 大 
的 原因 其 实 就 是 因为 以 太 网 的 速度 相对 FC 来 说 慢 了 太 多 。 


以 太 网 仿佛 总 是 慢 了 一 步 。FC 速 率 普及 到 1Gb/s 的 时 候 ， 以 太 网 
才刚 刚 普及 到 10Mb/s 的 速率 ， 而 且 还 是 HUB 总 线 式 以 太 网 。 而 当 FC 普 
及 到 2Gb/s 速 率 的 时 候 ， 以 太 网 也 刚刚 普及 到 100Mb/s。 直 到 目前 ， 以 
太 网 才 普 及 到 1Gb/s 速 率 ， 而 FC 已 经 普及 到 4Gb/s 了 。 


以 太 网 即使 是 依靠 了 TCP/P 协 议 提 供 的 传输 保障 机 制 ， 也 难 敌 FC 
协议 。 总 之 ， 目 前 来 说 ，FC 协 议 在 性 能 方面 处 处 比 TCP/IP+ 以 太 网 
5 时 o 


12.3 ”天 生 我 才 必 有 用 一 一 攻陷 Disk SAN 阵 地 


老 T 深 知 ， 自 己 再 怎么 修炼 ， 也 不 可 能 在 速度 和 性 能 上 与 FC 正面 
交锋 。 在 江湖 中 摸 的 滚 打 了 这 么 多 年 ， 老 谋 深 算 的 老 T 决 定 避 开 自 己 
的 这 些 短处 不 谈 ， 发 扬 自己 的 长 处 ， 将 Disk SAN (相对 于 NAS SAN) 
这 个 阵地 攻陷 。 


俺 老 T 不 管 是 论 品 相 还 是 论 才 能 ， 都 不 输 给 FC。 既 然 SCSI 能 嫁 给 
FC， 它 就 没有 理由 对 俺 不 动心 。 老 T 开 始 做 白 日 梦 ， 懂 悍 着 与 SCSI 成 
杀 后 的 种 种 。 


老 T 经 过 一 段 时 间 的 摸索 和 实验 ， 终 于 设计 出 了 一 套 新 协议 系 
统 ， 称 其 为 SCSI， 即 Intermet Small Computer System Interface。 即 在 这 
种 协议 中 ，SCSI 语 言 甚至 可 以 通过 Internet 来 传递 ， 也 就 是 承载 于 
TCP/IP 之 上 。 


由 此 可 见 其 扩展 性 是 非常 高 的 。 只 要 IP 可 达 ， 则 两 个 节点 之 间 就 
可 以 通过 iSCSI 通 信 。 也 就 是 说 ， 位 于 中 国 的 一 台 主 机 ， 可 以 通过 
iSCSI 协议 从 Iternet 访 问 国外 的 存储 空间 。 既 然 iSCSI 协 议 是 利用 
TCP/IP 协 议 来 传输 SCSI 语 言 指 令 ， 那 么 在 通信 的 双方 就 一 定 需要 先 建 
立 起 TCP 的 连接 。 与 FC 协议 类 似 ，iSCSI 将 发 起 通信 的 一 方 称 为 
Initiator， 将 被 连接 端 称 为 Target。 一 般 来 说 ，Initiator 新 均 为 主机 设 
备 ，Target 端 均 为 提供 存储 空间 的 设备 ， 比 如 磁盘 阵列 。 


老 工 拿 着 设计 监 图 找到 了 SCSI 协 议 ， 并 且 成 功 取得 了 SCSI 的 芳 
心 。 于 2004 年 4 月 份 完 婚 ， 并 且 领 到 了 结婚 证 ， 编 号 为 RFC3720。 


两 人 并 肩 携手 ， 成 功 游说 了 一 批 磁盘 阵列 生产 厂商 在 其 产品 上 尝 
试 着 实现 iSCSI 协议 。 


提示 : 正如 本 书 第 10 章 中 所 说 的 ， 既 然 SCSI 语 言及 数据 可 以 
用 FC 协议 传递 ， 文 件 系 统 语言 可 以 用 以 太 网 传递 ， 那 么 SCSI 
语言 当然 也 可 以 用 以 太 网 传递 。 


iSCSI 既 然 要 利用 TCP/IP 来 传输 SCSI 协 议 指令 和 数据 ， 那 么 就 必须 
将 自己 作为 调用 TCP/IP 这 个 传输 管道 的 一 个 应 用 来 看 待 。 大 家 都 知道 
在 浏览 器 中 输入 “http://1.1.1.1” 或 者 “http:/1.1.1.1:80”， 就 表示 让 浏览 
对 IP 地 址 为 1.1.1.1 的 这 台 服 务 器 上 的 TCP/IP 传 输 管道 的 80 号 端口 发 起 
http 请 求 ， 也 就 是 浏览 网 页 。 同 样 ， 如 果 是 telnet 这 个 应 用 ， 那 就 要 连 
接 对 方 的 23 端 口 。 所 谓 “ 端 口 ”， 就 是 被 TCP/IP 协 议 用 来 区 分 每 个 从 管 
道中 传 出 去 或 者 收 进来 的 数据 包 ， 到 底 是 哪个 上 层 应 用 的 ， 哪 个 应 用 
在 “监听 ” 某 个 端口 ， 那 么 TCP/TP 就 将 对 应 的 数据 包 (数据 包 中 含有 端 
口号 信息 ) 发 送 到 这 个 应 用 对 应 的 缓冲 区 ， 正 因为 TCP/IP 是 个 公用 传 
输 通 道 ， 谁 都 可 以 利用 它 来 可 靠 地 传输 数据 到 网 络 另 一 端 ， 所 以 才 会 
用 “端口 号 ”来 区 分 不 同 的 发 起 数据 传输 的 应 用 。 


同样 ，iSCSI 也 要 监听 3326 这 个 端口 号 。SCSI 指 令 和 数据 ， 作 为 
“客人 ”， 需 要 被 TCP/IP 这 架 “ 飞 机 ”运载 到 目的 地 ，SCSI 本 身 并 不 关心 
也 不 想 去 关心 诸如 从 哪个 登 机 口 (端口 号 ) 登 机 、 行 李 托 运 、 安 检 、 
海关 交涉 等 一 系列 问题 ， 于 是 需要 有 一 个 代理 或 者 说 引导 者 来 完成 这 
些 动作 ， 这 个 角色 就 是 iSCSI Initiator 和 iSCSI Targeto 


早期 的 SCSI 协 议 体 系 其 实 从 物理 层 到 应 用 层 都 有 定义 的 ， 网 络 层 
也 有 定义 ， 比 如 一 条 总 线 最 大 16 个 节点 ， 每 个 节点 有 Target 模 式 和 
Initiator 模式 ， 但 是 后 期 SCSIT 体 系 的 下 四 层 被 其 他 协议 取代 ， 
iSCSI+TCP/IP+ 以 太 网 相当 于 取代 了 下 四 层 ， 所 以 SCSI 上 三 层 不 需要 
自己 去 发 现 网 络 里 的 节点 和 Target 了 ， 这 些 都 由 iSCSI 这 个 代理 去 完 
成 。 


首先 iSCSI Target 端 运行 在 存储 系统 一 侧 或 者 说 想 要 共享 自己 的 磁 
盘 空间 让 别人 访问 的 那 一 人 出， 其 作用 是 接收 iSCSI Initiator 端 传输 过 来 
的 SCSI 协 议 指令 和 数据 ， 并 将 这 些 指令 和 数据 转交 给 自己 这 一 侧 的 
SCSI 协 议 栈 (其 实 是 Class Driver 或 者 SCSI Middle Layer) 处 理 。iSCSI 
Initiator 端 运行 在 想 要 获得 存储 空间 的 主机 一 侧 ， 其 目的 是 向 iSCSI 
Target 端 发 起 连接 ， 并 传输 SCSI 指 令 和 数据 。 在 iSCSI Initiator 端 程序 中 
需要 配置 所 要 连接 的 iSCSI Target 端 的 了 地址 〈 或 者 使 用 一 种 叫做 iSNS 
的 服务 动态 自动 配置 来 发 现 iSCSI Target) ，iSCSI Initiator 会 主动 向 这 
些 IP 地 址 的 3326 端 口号 发 起 iSCSI Login 过 程 (注意 这 个 动作 不 是 SCSI 
协议 定义 的 ， 完 全 是 iSCSI 这 个 代理 程序 自己 定义 和 发 起 ) 。Login 过 
程 的 交互 细节 此 处 不 做 细 表 ，iSCSI Target 端 响应 Login 之 后 ， 双 方 在 
iSCSI 层 就 连通 了 。iSCSI 连 通 之 后 ，Initiator 会 主动 向 Target 发 起 一 个 
SCSI Report Lun 指 令 ，Target 便 向 Initiator 报 告 所 有 的 Lun 信 息 ， 拿 到 
Lun 列 表 之 后 ，Initiator 端 主动 发 起 SCSI Inquery Lun 指 令 查 询 每 个 Lun 
的 属性 ， 比 如 设备 类 型 (磁盘 、 人 磁带、 光驱 、 打 印 机 等 等 ) 和 厂商 之 
类 ， 然 后 Initiator 端 便 向 OS 内 核 注 册 这 些 Lun (这 里 要 注意 一 下 ， 这 两 
条 SCSI 指 令 是 Initiator 固 化 的 ， 不 需要 经 过 其 上 层 的 SCSI 层 ) 。OS 内 
核 便 针 对 每 个 Lun 加 载 其 各 自 的 驱动 (Windows 下 就 是 Class Driver， 
Linux 下 就 是 Block Driver/Tape Driver 等 ) ， 在 对 应 的 /dev/ 下 生成 各 自 
的 设备 。 所 以 ，iSCSI Initiator 其 实 是 一 个 虚拟 的 Port Driver， 其 通过 调 
用 TCP/IP，TCP/IP 再 继续 调用 底层 网 卡 的 Port Driver 实 现 数据 发 送 。 


FC 也 是 一 个 网 络 ， 也 是 替代 了 传统 SCSI 协 议 栈 的 下 四 层 ，FC 也 
不 是 为 了 专门 承载 SCSI 协 议 才 被 发 明 的 ， 那 么 利用 FC 网 络 发 送 SCSI 协 
议 的 那个 应 用 程序 或 者 说 角色 是 什么 ? 就 是 俗称 FCP 的 一 个 协议 ， 相 
当 于 FC 体系 下 的 一 个 应 用 ， 也 就 类 似 TCP/IP 体 系 下 的 FTP、Telnet 等 。 
FTP 要 发 起 连接 传 文件 ， 首 先 要 向 对 方 的 TCP 端 口号 21 发 起 连接 ， 同 


样 ， 利 用 FC 传 输 SCSI 指 令 的 FCP， 同 样 也 需要 向 对 方 FC Target 端 某 个 
特定 端口 号 发 起 连接 ，FC Target 端 的 某 个 程序 正在 监听 这 个 端口 的 一 
切 动作 。 那 为 何 主机 端 不 需要 安装 FCP Initiator 程 序 呢 ? 其实 FCP 的 
Initiator 程 序 就 是 集成 在 了 FC 适 配 卡 的 驱动 里 了 ， 因 为 FC 的 HBA 卡 目 
前 来 讲 专门 分 配给 存储 用 ， 所 以 直接 集成 到 驱动 里 ， 不 需要 额外 安 
装 ， 而 以 太 网 则 不 同 ， 厂 商 不 可 能 自 带 iSCSI Initiator 或 者 Target 程 序 ， 
所 以 一 般 都 是 独立 开发 独立 安装 。 另 外 ，FC 协 议 也 像 TCP/IP 协 议 一 样 
有 类 似 “ 端 口号 ”的 概念 ， 只 不 过 没有 像 TCP/ 耻 这 样 被 广为人知 罢了 ， 
所 以 用 FC 承载 任何 上 层 应 用 都 是 可 以 的 ， 当 然 ， 需 要 你 自己 去 开发 
了 。 同 样 ，SAS 网 络 里 也 是 这 样 一 套 运作 流程 ， 利 用 SAS 网 络 承 载 
SCSI 协 议 ， 需 要 SSP 发 起 端 和 目标 端 ， 同 样 ， 也 被 集成 到 了 驱动 里 。 


12.4 iSCSI 交互 过 程 简 析 


以 下 所 有 实例 均 为 Windows XP 操 作 系 统 环 境 ， 抓 包 软 件 为 
WireShark 0.99。 


12.4.1 ”实例 一 : 初始 化 磁盘 过 程 


12-1 一 图 12-6 所 示 的 Trace 结果 是 在 Windows XP 中 ， 初 始 化 一 块 
通过 iSCSI 协议 提交 上 来 的 LUN 磁 盘 的 过 程 中 抓 取 的 。 在 Windows 初 始 
化 一 块 新 磁盘 的 过 程 中 ， 会 对 磁盘 进行 查询 以 及 修改 其 MBR。 下 面 就 
来 分 析 一 下 具体 的 动作 。 


12-1 中 包含 了 Framel~~Frame8。 
图 12-1 初始 化 磁盘 的 过 程 


关键 帧 分 析 


Framel 人 8: ISCSI Initiator 端 (主机 端 ) 首先 向 LUN (ISCSI 
Target) 发 起 Read Capacity 指 令 来 读 取 此 LUN 的 容量 信息 。 在 Target 返 
回 的 数据 中 ， 可 以 看 到 这 个 LUN 共 包含 的 LBA 数 为 112454 个 ， 总 容量 
为 54MB (112454x512:1024:*1024) 。 主 机 连续 对 Target 发 出 了 4 次 
Read Capacity 指 令 ， 这 也 是 程序 上 的 设计 ， 可 能 是 为 了 充分 保证 读 取 
到 的 容量 是 准确 无 误 的 。 


图 12-2 包 含 了 Frame9 忆 -Frame10。 


图 12-2 Test Unit Ready 


Frame9~10; 主机 在 读 取 完 Target 端 的 容量 信息 之 后 ， 便 发 起 了 
一 个 Test Unit Ready 指 令 来 探寻 Target 闯 是 否 处 于 可 工作 状态 或 已 经 准 
备 就 绪 。 第 10 帧 是 Target 对 主机 的 响应 。 


12-3 包 含 了 Framell~~Frame13。 


图 12-3 Mode Sense 


Framell 人 13: 主机 向 Target 发 出 了 Mode Sense 指 令 ， 用 来 查询 
Target 在 iSCSI 处 理 逻 辑 以 及 物理 上 的 相关 参数 。Target 在 第 12 帧 中 返回 
了 结果 。 


Frame14 为 TCP 底 层 的 ACK， 不 必 深 究 。 
12-4 中 包含 了 Frame15~~Frame16。 


图 12-4” 读 取 LBAO0 


Frame15 人 16: 主机 读 取 Target 的 第 一 个 LBA， 即 编号 为 全 0 的 
LBA， 这 个 LBA 也 就 是 MBR 扇 区 。 从 数据 内 容 中 可 以 看 出 ， 新 磁盘 的 
这 个 扇 区 的 内 容 是 全 0。 


图 12-5 中 是 Frame17。 
图 12-5 写 入 MBR 


Frame17: 主机 向 Target 的 0 写 LBA 写 入 了 数据 ， 也 就 是 将 一 些 必 
要 信息 写 入 了 MBR。 


图 12-6 中 包含 了 Frame18 一 Frame57。 
图 12-6 ”多 种 指令 再 次 读 写 


Framel8 人 57: 在 写 入 MBR 之 后 ， 主 机 又 接连 多 次 发 出 Read 
LBA0、Read Capacity、Write LBA0、 Test Unit Ready 指 令 。 在 最 后 一 
个 Test Unit Ready 指 令 发 出 并 获得 返回 数据 之 后 ， 磁 盘 初始 化 完毕 。 此 
时 没有 数据 包 交 互 了 。 


对 磁盘 分 区 、 格 式 化 等 操作 过 程 ， 这 里 就 简单 地 介绍 这 么 多 。 有 
兴趣 的 读者 可 以 自行 实验 。 


12.4.2 ”实例 二 : 新 建 一 个 文本 文档 


在 图 12-7 所 示 的 10.128.134.107 这 台 主 机 通过 TCPMP 网 络 与 
10.128.133.60 那 台 磁 盘 阵 列 通信 ， 并 在 磁盘 阵列 的 一 个 LUN 中 建立 了 
一 个 新 文本 文件 。 图 12-7 所 示 为 主机 与 磁盘 阵列 交互 数据 的 过 程 。 


图 12-7 一 次 写 IO 


前 7 个 数据 帧 所 包含 的 Payload 字 节 数 为 8240。 这 8240 个 字 节 ， 就 
是 主机 向 磁盘 阵列 所 发 送 的 一 次 写 IO。 协 议 分 析 软 件 自行 判断 了 数据 
帧 中 的 协议 ， 并 定 界 分 析 了 前 7 个 数据 帧 为 一 次 iSCSI 的 写 动 作 。 这 
8240 个 字 节 ， 其 实 就 是 iSCSI 协议 模块 通过 一 次 Socket 调 用 TCP/ 了 协议 
向 外 发 送 的 字 节 ， 而 TCP 根 据 MSS 值 ， 又 将 8240B 的 数据 分 割 成 了 7 个 
数据 包 传送 出 去 。 这 8240B 中 包含 一 个 48B 长 的 iSCSI 头 ， 以 及 剩余 音 
分 最 终 都 需要 被 写 入 LUN 的 数据 。 我 们 可 以 计算 一 下 ，8240B 减 去 
48B， 等 于 8192B， 恰 好 是 16 个 磁盘 扇 区 (16x512B) 的 大 小 。 也 就 是 
说 ， 这 次 传输 其 实 就 是 主机 向 这 个 LUN 的 16 个 连续 扇 区 写 入 了 数据 。 
图 12-8 中 也 显示 了 相关 字段 的 值 ， 确 实 为 16。 


图 12-8 ”此 IO 块 大 小 为 16 个 LBA 


如 图 12-8 在 主机 向 存储 设备 传送 的 SCSI 命 令 中 ，Opcode 字 上 段 给 
了 这 个 命令 的 操作 代码 ，0x2A 表 示 写 ， 如 果 为 读 ， 则 对 应 的 值 为 
0x28。 同 时 也 给 出 了 要 写 入 的 初始 LBA 为 〈 也 就 是 扇 区 号 ) 198484 和 
Transfer Length 为 16。 也 就 是 说 ， 主 机 在 这 条 命令 中 通知 存储 设备 ， 将 
随后 传送 的 数据 写 入 从 198484 号 LBA 开 始 的 随后 16 个 扇 区 中 。 


存储 设备 上 的 TCP 程 序 返回 给 主机 3 个 ACK 应 答 开 销 数据 包 后 ， 在 
第 11 帧 中 ， 将 iSCSI 协议 自身 的 会 话 层 应 答 返 回 给 主机 ， 证 明 SCSI 命 令 
已 经 执行 成 功 ， 如 图 12-9 所 示 。 


图 12-9 ”成 功 返回 


我 们 来 计算 一 下 主机 向 存储 设备 发 送 了 16 个 局 区 的 数据 ， 其 所 耗 
费 的 开销 大 致 为 多 少 。 


开销 1: iSCSI 头 部 。iSCSI 头 部 长 48B， 每 次 IO 都 只 耗费 48B。 


开销 2: TCP/IP 头 部 以 及 ACK 开 销 。 在 MSS 值 与 MTU 值 适 配 的 情 
况 下 ， 每 个 数据 帧 均 会 包含 40B 的 开销 ; MSS 值 大 于 MTU 值 的 情况 
下 ， 了 会 将 数据 包 拆 分 ， 第 一 个 拆 分 包 耗 费 40B 开 销 ， 随 后 的 拆 分 包 
每 个 只 耗费 20B 开 销 。ACK 包 的 数量 视窗 口 大 小 以 及 两 端 协议 状态 而 
定 ， 数 量 不 定 。 每 个 纯 ACK 包 耗费 60B 开 销 。 


开销 3: 以 太 网 帧 头 部 开销 。 每 个 以 太 网 帧 耗费 14B 开 销 。 


根据 以 上 描述 ， 上 述 IO 共 耗费 的 开销 为 606B。 所 以 ， 大 致 估算 出 
的 开销 比例 为 606/ (606+8192) 二 6%。 当 然 这 个 估算 是 不 符合 统计 学 
原理 的 ， 在 这 里 只 是 大 致 估算 一 下 而 已 。 


紧 接 着 ， 主 机 又 向 存储 设备 发 出 了 写 入 请 求 ， 这 次 写 入 的 则 是 8 个 
局 区， 如 图 12-10 所 示 。 


图 12-10” 写 请 求 


猜测 : 第 一 次 主机 向 LUN 写 入 了 16 个 扇 区 的 内 容 ， 是 这 个 新 

是 针对 这 个 文件 的 元 数据 。 当 然 在 此 只 能 做 一 个 大 致 的 猜 
测 。 若 想 追 究 到 底 也 并 不 难 ， 但 是 我 们 在 此 就 不 做 过 多 分 析 
了 。 


如 图 12-11 所 示 是 在 向 某 LUN 复 制 一 个 大 文件 时 抓 取 的 数据 包 。 主 
机 每 次 IO 请 求 写 入 的 扇 区 数 变 成 了 128， 也 就 是 64KB 的 数据 。 从 数据 
包 内 容 中 ， 可 以 看 出 这 个 文件 好 像 是 一 个 视频 文件 ， 而 且 是 一 部 流行 
的 美国 电视 剧 。 


图 12-11 复制 一 个 大 文件 


由 于 Socket 的 缓冲 区 一 般 为 64KB， 所 以 上 层 程序 每 次 调用 发 送 给 
Socket 最 大 的 数据 长 度 也 被 限制 在 64KB。 由 此 就 可 以 计算 出 图 12-11 中 
的 这 个 IO 将 数据 写 入 了 LBA305768~LBA305895 这 128 个 扇 区 中 。 如 
果 此 时 还 需要 接着 写 入 新 数据 而 同时 LBA305895 之 后 的 扇 区 还 是 空 内 
状态 的 话 ， 文 件 系统 便 会 继续 向 其 后 的 扇 区 继续 写 入 。 所 以 ， 图 12-12 
中 所 示 的 IO 向 LBA305896~LBA306023 这 16 个 遍 区 写 入 了 64KB 的 数 
据 。 如 果 文 件 依然 没有 写 完 ， 则 继续 按照 这 个 逻辑 写 下 去 。 


图 12-12 ”连续 的 64KB 写 入 
12.4.3 ”实例 三 : 文件 系统 位 图 


图 12-13 一 图 12-15 所 示 的 Trace 结果 是 在 通过 主机 上 的 文件 系统 ， 
将 500MB 的 数据 从 一 个 写 满 数据 的 1GB iSCSILUN 中 删除 的 过 程 中 所 
抓 取 的 。 


图 12-13 ”删除 500MB 的 数据 
图 12-13 为 删除 500MB 数 据 时 抓 取 的 数据 包 。 


由 于 文件 系统 从 磁盘 上 删除 数据 的 过 程 中 ， 只 会 修改 相关 的 链 
表 ， 从 元 数据 中 抹 掉 相应 的 记录 ， 而 不 会 去 抹 掉 或 者 覆盖 被 删除 的 文 
件 原来 所 对 应 的 扇 区 上 的 任何 数据 ， 所 以 虽然 删除 了 500MB 的 数据 ， 
但 是 真正 的 IO 数据 远 小 于 500MB。 本 例 中 ， 这 个 过 程 只 交互 了 163 个 
数据 包 。 


在 前 51 个 数据 包 中 ， 所 有 IO 均 为 写 操 作 ， 每 个 大 小 均 为 8 个 扇 区 
(4096B， 被 分 成 三 个 数据 帧 ) 。 可 以 判定 这 些 IO 其 实 都 是 在 更 新 文 
件 系 统 元 数据 。 


从 第 52 人 ~ 第 80 个 数据 包 为 一 个 80 扇 区 的 写 IO， 如 图 12-14 所 示 。 
图 12-14 ”文件 系统 位 图 (一 ) 


分 析 这 个 IO 的 实际 内 容 ， 发 现 其 包含 了 很 多 的 0xff， 即 二 进 制 的 
11111111。 ee 就 是 本 书 前 文中 提 到 过 的 文件 系统 
位 图 ( 见 5.7.4 节 ) 。 位 图 是 一 个 元 数据 文件 ， 其 中 用 每 个 位 来 表示 对 
a 是 否 正 在 被 某 个 
文件 所 占用 。 由 于 本 例 中 ，LUN 上 依然 留 有 一 半 的 数据 ， 所 以 依然 有 
一 半 的 簇 被 文件 占用 着 。 这 些 簇 也 就 是 图 中 被 标明 为 0xff 字 节 所 对 应 
的 簇 。 被 标明 0x00 的 字 节 则 对 应 着 磁盘 上 未 被 文件 占用 的 空闲 块 
( 艇 ) ， 但 不 是 说 这 些 空 内 块 中 “没有 数据 ”或 者 “数据 为 全 0”"。 对 于 一 
块 疡 新 的 磁盘 ， 记 区 中 的 数据 可 能 为 全 0， 但 是 对 于 一 区 全 全 有， 村 

盘 ， 扁 区 中 会 保留 很 多 以 前 被 删除 文件 的 “尸体 ”"。 了 这些“ 尸体 ”会 被 
随后 的 对 这 个 扇 区 的 写 IO 数 据 所 覆盖 。 


图 12-15 所 示 的 数据 是 在 将 那个 LUN 中 剩余 的 数据 全 部 删除 的 过 程 
中 所 抓 取 的 。 


图 12-15 ”文件 系统 位 图 (二 ) 


可 以 看 出 ，LBA1044425 以 及 随后 (包括 其 自身 ) 的 56 个 局 区 为 存 
放 位 图 的 扇 区 《当然 这 只 是 一 部 分 ， 还 可 能 有 其 他 扇 区 也 用 来 存放 位 
图 ) 。 由 于 删除 文件 导致 LUN 上 的 空闲 块 增加 ， 所 以 文件 系统 必须 修 
改 位 图 映射 表 ， 这 就 产生 了 图 12-15 中 第 246 个 数据 包 所 对 应 的 写 IO 操 
作 。 通 过 数据 包 内 容 可 以 看 出 ， 位 图 中 几乎 所 有 字 节 都 为 0x00。 这 就 
说 明 此 时 LUN 上 已 经 几乎 都 是 空 闪 块 了 。 


读者 可 以 自行 操作 并 分 析 一 下 iSCSI 以 及 文件 系统 的 逻辑 。 但 是 要 
注意 一 点 ， 由 于 主机 上 的 文件 系统 是 有 缓存 的 ， 当 向 LUN 做 了 一 次 操 
作 之 后 ， 会 被 文件 系统 缓存 一 段 时 间 ( 几 秒 或 者 十 几 秒 都 有 可 能 ) ， 
然后 才 批量 Flush 到 硬盘 (LUN) 上 。 所 以 此 时 一 定 要 保持 网 卡 抓 包 软 
件 继续 执行 抓 取 ， 直 到 十 几 秒 钟 之 后 ， 流 量 面板 中 没有 新 的 数据 包 被 
抓 取 到 ， 此 时 方 可 停止 抓 取 ， 获 得 Trace 数据 。 


12.5 iSCSI 磁盘 阵列 


当年 FC 闲 革 命 的 时 候 ， 可 谓 是 友和 码 烈 烈 ， 气 壮 山 河 。 当 时 ， 那 场 
革命 对 磁盘 阵列 架构 的 改变 真是 太 彻底 了 ， 所 以 至 今 人 们 仍然 记忆 犹 
新 。 而 TCP/IP 想 在 已 经 被 FC 革命 过 的 江湖 上 表亲 出 点 动静 来 ， 可 就 不 
是 那么 容易 了 。 毕竟 TCP/IP 所 依靠 的 以 太 网 相对 于 FC 来 说 ， 都 属于 包 
交换 网 络 ， 而 且 很 多 概念 都 类 似 甚至 相同 。 很 多 盘 阵 厂商 并 不 看 好 
TCP/AP 的 介入 。 但 是 最 终 还 是 有 一 批 喜欢 标新立异 、 敢 于 创新 的 三 
商 ， 举 起 大 旗 来 支持 TCP/IP。 


图 12-16 便 是 一 个 典型 的 iSCSI 磁盘 阵列 的 基本 架构 。 可 以 看 到 ， 
其 前 端 IO 设备 就 是 普通 的 以 太 网 卡 。TCP/P 以 及 iSCSI 逻辑 均 运行 在 主 
内 存 中 。 后 端的 磁盘 可 以 以 任何 方式 接 入 总 线 ， 甚 至 可 以 是 独立 的 磁 
盘 阵 列 。 人 磁盘 经 过 VM 虚拟 化 层 之 后 ， 通 过 前 端 接口 供 主 机 访问 。 
iSCSI 盘 阵 与 FC 盘 阵 结构 类 似 ， 只 不 过 前 端 接口 成 了 以 太 网 口 而 已 。 
NetApp 的 FAS 系 列 产品 在 同一 个 控制 器 上 实现 了 多 种 协议 的 接口 ， 包 
括 iSCSI、FCP、CIFS、NFS 以 及 其 他 的 一 些 基于 TCP/IP 的 数据 访问 协 
议 。 


图 12-16 iSCSI 盘 阵 架构 示意 图 


注意 : VM 意 为 Volume Manager，Virtualization Managero 


我 们 可 以 发 现 ， 这 人 台 盘 阵 的 架构 与 PC 无 异 。 的 确 ， 不 管 是 主机 还 
是 磁盘 阵列 ， 它 们 都 是 由 计算 机 系统 的 老 三 样 一 CPU、 内存、 外 设 
组 成 的 。 其 所 实现 的 功能 ， 关 键 是 靠 所 运行 的 软件 。 主 机 上 的 老 三 样 
运行 的 是 处 理 业务 逻辑 的 应 用 程序 ， 而 运行 在 盘 阵 老 三 样 上 的 则 是 专 
门 处 理 通 过 不 同 网 络 协 议 传输 进来 ， 或 者 出 去 的 SCSI 指 令 以 及 优化 磁 
盘 读 写 的 程序 。 从 本 质 上 来 说 ， 它 们 二 者 是 相同 的 ， 只 不 过 是 分 工 不 
同 而 已 。 


提示 : 正 因为 它们 本 是 同根 生 ， 所 以 相 煎 又 何 太 急 呢 ! PC 只 
要 运行 了 盘 阵 上 的 软件 ， 就 是 一 台 盘 阵 ， 相反， 人 盘 阵 如 果 运 
行 了 应 用 程序 ， 则 就 可 以 当成 一 台 主 机 来 使 用 。 


目前 ， 几 乎 各 种 操作 系统 都 已 经 有 了 iSCSI Initiator 软 件 。 有 些 操 
作 系 统 ， 比 如 Windows、Linux 等 还 有 了 iSCSI Target 软 件 。 它 们 安装 了 
Target 软 件 ， 也 就 变 成 了 盘 阵 ， 只 不 过 在 性 能 、 功 能 和 容量 上 没有 专业 
盘 阵 强悍 。 


目前 ，TCP/P 只 是 占领 了 盘 阵 前 端 接口 的 部 分 阵地 。 而 对 于 后 端 
磁盘 接口 的 进攻 ， 也 不 是 没有 设计 和 尝试 过 。 当 年 FC 可 是 一 举 拿 下 了 
盘 阵 的 前 端 和 后 端 。 而 如 今 老 T 能 有 FC 的 那个 本 事 么 ”确实 有 些 三 家 
的 盘 阵 将 TCP/IP 协 议 作 为 后 端 磁 盘 到 适配器 之 间 的 传输 协议 ， 但 是 这 
样 的 设计 似乎 并 没有 得 到 认可 。 这 个 结果 也 是 可 以 预知 的 ，TCP/IP 之 
所 以 可 以 与 FC 竞争 ， 就 是 因为 其 优 展 的 扩展 性 ， 而 不 是 因为 它 的 速 
度 。 后 端 需要 的 首先 是 性 能 ， 而 不 是 扩展 性 。 所 以 ， 后 端 还 是 乖 季 地 
交 给 FC 才 是 明智 的 选择 。 


12.6 IP SAN 


后 来 ， 人 们 索性 将 iSCSI 为 代表 的 以 TCP/IP 作 为 传输 方式 的 网 络 存 
储 系 统称 做 IP SAN， 即 基于 IP 的 存储 区 域 网 络 。 值 得 说 明 的 是 ，IP 
SAN 并 不 一 定 要 用 以 太 网 作为 链 路 层 ， 可 以 用 任何 支持 IP 的 链 路 层 ， 
比如 ATM (IPoA) 、PPP、HDLC， 甚 至 是 Fibre Channel 也 可 以 作为 IP 
的 链 路 层 。 


这 样 ， 就 使 得 IP SAN 的 可 扩展 性 变 成 了 无 限 ， 它 可 以 扩展 到 世界 
上 任何 一 个 有 Internet 网 络 接 入 的 地 方 。 这 也 是 Internet Small Computer 
System Interface 名 称 的 由 来 。 


iSCSI 的 方便 和 灵活 性 逐渐 显现 出 了 优势 。 的 确 ， 现 在 还 有 哪 台 主 
机 上 不 市 以 太 网 适配器 的 ? 还 有 哪 台 主机 上 不 运行 TCP/IP 协 议 的 呢 ? 
就 连 大 型 机 设备 都 有 上 自己 的 前 置 TCP/IP 处 理 机 了 。 


FC 网 络 虽 然 比 并 行 SCSI 总 线 的 扩展 性 高 了 很 多 ， 但 是 相对 于 
TCP/IP 的 扩展 性 ，FC 就 是 小 巫 见 大 了 不 了 。 


iSCSI 与 NAS 的 区 别 如 下 。 


虽然 iSCSI 与 NAS 都 是 利用 TCP/IP+ 以 太 网 来 实现 的 ， 但 是 二 者 所 
传输 的 语言 是 大 相 径 庭 的 。NAS 传 输 的 是 文件 系统 语言 ， 而 iSCSI 传输 
的 是 SCSI 指 令 语 言 。NAS 设 备 上 必须 运行 一 种 或 者 多 种 文件 系统 逻 
辑 ， 才 能 称 为 NAS; 而 iSCSI Target 设 备 上 不 需要 运行 任何 文件 系统 逻 
辑 ( 盘 阵 自身 操作 系统 文件 管理 除外 ) 。 


在 相同 的 条 件 下 ，iSCSI 与 NAS 在 速度 与 性 能 方面 相差 不 大 。 


12.7 ”增强 以 太 网 和 TCP/IP 的 性 能 


老 T 对 IP SAN 可 谓 是 投入 了 一 腔 热血 。 它 想 尽 一 切 办 法 要 提高 
TCP/IP 的 性 能 ， 以 便 与 FC 抗衡 。 


1. Checksum Offload (CO) 


计算 每 个 TCP 包 的 校 验 数据 是 一 件 极 其 枯燥 乏味 和 耗费 资源 的 工 
作 。 由 于 TCP/IP 程 序 均 需 要 运行 在 主机 操作 系统 中 ， 所 以 计算 校 验 数 
据 的 任务 当然 要 落 在 主机 CPU 身上 。CPU 不 得 不 拿 出 额外 的 指令 周期 
来 计算 每 个 TCP 包 的 校 验 数 据 。 这 对 于 CPU 处 理 能 力 比较 弱 的 主机 来 
说 ， 性 能 影响 是 不 可 忽略 的 。 


为 了 将 CPU 解脱 出 来 ， 一 种 称 为 Checksum Offload 的 技术 被 开发 出 
来 。 这 种 技术 将 计算 校 验 数据 的 工作 完全 转移 到 了 网 卡 的 硬件 上 ， 对 
于 向 外 发 送 的 TCP 包 ，CPU 可 以 不 经 校 验 直接 传送 给 网 卡 ， 由 网 卡 心 
片 来 做 校 验 ; 同样 ， 对 于 接收 到 的 数据 包 ， 在 没 提 交 到 主机 内 存 之 
前 ， 就 已 经 做 好 了 校 验 匹配 。 图 12-17 就 是 Checksum Offload 功 能 的 一 
个 图 示 。 


图 12-17 网 卡 的 Checksum Offload 功能 
2. Large Send Offload (LSO) 


TCP 需 要 根据 底层 链 路 的 MTU 值 来 适 配 其 每 次 发 送 的 数据 大 小 。 
如 果 上 层 传递 过 来 的 数据 大 于 其 允许 的 最 大 分 段 长 度 (MSS 值 ) ， 则 
TCP 会 将 这 些 数 据 分 成 若干 个 数据 包 发 送出 去 ， 这 就 是 所 谓 的 Large 
Send。 这 项 工作 目前 也 可 以 被 转移 到 网 卡 上 来 完成 。 


3. TCP/IP Offload (TO ) 


TCP/IP Offload 则 干脆 将 TCP/IP 整 个 程序 都 放 到 网 卡 硬 件 蕊 片上 来 
运行 。 这 种 特殊 的 以 太 网 卡 称 为 TOE 卡 ， 即 TCP/IP Offload Engine 
Card。 图 12-18 是 TOE 卡 在 存储 盘 阵 上 的 应 用 及 架构 图 。 


图 12-18 ”使 用 TOE 卡 的 iSCSI 盘 阵 层 次 架构 示意 图 
4. Security Offload (SO) 


Security Offload 不 仅 将 TCP/PP 协 议 从 主机 上 oOffload 了 下 来 ， 它 还 
可 以 在 硬件 上 直接 实现 IPSEC 相 关 的 协议 ， 将 对 数据 包 的 加 解密 过 程 
也 从 主机 上 Offload 下 来 。 


5. iSCSI Offload (IO) 


iSCSI Offload 将 TCP/IP+iSCSI 的 整套 逻辑 都 放 到 网 络 适 配 卡 上 来 
运行 。 由 于 iSCSI 的 上 层 是 SCSI， 所 以 一 张 iSCSI 卡 对 于 主机 来 说 ， 会 
表现 为 一 张 SCSI 卡 。 不 同 的 是 ， 这 张 虚拟 的 SCSI 卡 可 以 设置 其 自己 独 
立 的 IP 地 址 以 及 其 他 TCP/IP 和 iSCSI 的 参数 。 图 12-19 所 示 为 iSCSI 硬 卡 
在 存储 阵列 上 的 应 用 及 架构 图 。 


图 12-19 ”使 用 iSCSI Offload 卡 的 iSCSI 盘 阵 架构 示意 图 
md 于 = 
12.8 ”FC SAN 节 节 败 退 


1. 成 本 问题 


说 来 有 点 惊讶 ， 部 署 FC SAN 的 成 本 是 部 署 IP SAN 的 10 倍 甚至 十 
几 倍 。 以 太 网 卡 和 以 太 网 交换 机 相 比 FC 卡 与 FC 交 换 机 便宜 了 很 多 。 所 
以 ， 对 于 对 性 能 要 求 不 是 很 苛刻 的 用 户 来 说 ， 部 署 IP SAN 无 疑 是 性 价 
比 最 高 的 方法 。 


2。 可 扩展 性 问题 


FC 是 一 个 专用 网 络 。 虽 然 FC 当 初 是 作为 像 以 太 网 一 样 的 通用 的 网 
络 传输 技术 被 设计 出 来 ， 但 是 目前 ， 其 专门 被 用 作 存 储 网 络 ， 也 算是 
命 该 如 此 。FC 长 期 被 束缚 在 这 样 一 个 狭小 的 环境 内 ， 不 仅 造 成 了 其 不 
思 进 取 的 性 格 ， 而 且 也 造成 了 其 成 本 的 居 高 不 下 ， 所 以 FC 很 难 被 扩展 
出 去 。 


3。 易 用 性 问题 


曲 高 则 和 嘉 。 既 然 FC 这 么 不 开放 ， 那 么 就 注定 难 用 。 部 署 一 个 FC 
存储 网 络 比 部 署 一 个 IP 存 储 网 络 要 复杂 ， 对 技术 人 员 的 要 求 也 比较 


4. 兼容 性 问题 


由 于 FC 极其 不 开放 ， 即 使 FC 有 相关 的 标准 ， 但 不 同 的 生产 三 家 生 
产 出 的 FC 设备 ， 有 时 候 并 不 一 定 会 完全 兼容 ， 总 会 出 现 一 些 莫名 其 妙 
的 问题 。 相 比 来 说 ，TCP/IP 由 于 已 经 在 完全 开放 的 环境 中 摸 抱 滚 打 了 
很 长 的 时 间 ， 所 有 已 经 被 发 现 的 bug 也 都 被 修复 了 。 


12.9 iSCSI 配置 应 用 实例 


本 实例 用 一 台 NetApp FAS3050 系 列 磁 盘 阵 列 充当 iSCSI 的 Target 设 
备 ， 用 一 台 运 行 于 Windows XP 操作 系统 的 PC 充当 iSCSI Initiator 端 ， 
PC 上 的 iSCSI Initiator 软 件 为 微软 的 MS iSCSI Initiator 2.07 版 本 。 本 例 
中 将 描述 如 何在 存储 设备 上 一 步 步 地 创建 LUN， 然 后 映射 给 主机 使 
用 。 


12.9.1 第 一 步 ; 在 存储 设备 上 创建 LUN 
1. 创建 Aggregate 


所 谓 Aggregate 是 指 RaidGroup 的 组 合 ， 一 个 Aggr (Aggregate) 可 
以 包含 多 个 RG (Raid Group) 。 如 图 12-20 所 示 ， 这 人 台 盘 阵 在 其 后 端的 
0a 和 0b 个 FC 通 道 下 各 连接 了 两 台 扩 展柜 《Shelf1 和 Shelf2) ， 每 台 扩 展 
柜 包含 14 块 硬盘 ， 这 样 每 个 通道 包含 了 28 块 硬盘 。 


图 12-20 系统 硬盘 列表 


图 12-21 所 示 的 是 系统 中 目前 还 没有 被 分 配 到 RG 中 的 磁盘 ， 标 为 
Spare， 共 16 块 。 


图 12-21 ” Spare 硬盘 列表 


使 用 “aggr create” 命 令 创 建 一 个 aggr， 如 图 12-22 所 示 。“-r 6” 参 数 
表示 每 个 RG 最 大 允许 包含 6 块 磁盘 ， 如 果 超 过 6 块 ， 则 自动 形成 男 一 个 
RG;“-t raid_dp” 参 数 表 示 RG 的 RAID 类 型 为 RAIDDP (这 种 RAID 类 型 
本 书 不 做 描述 ， 具 体 可 以 在 Internet 上 搜索 ) ;12 表示 这 个 aggr 包 含 12 
块 盘 。 计 算 一 下 这 样 正好 可 以 形成 两 个 RG， 每 个 RG6 块 盘 。“aggrtest” 
为 这 个 aggr 的 名 字 。 


图 12-22 ”创建 aggr 
创建 好 的 aggr 中 有 两 个 分 别 包 含 6 块 盘 的 RG， 如 图 12-23 所 示 。 
图 12-23 ”aggrtest 中 包含 两 个 RG 


刚 创 建 好 的 aggr 名 为 aggrtest， 大 小 为 955GB ， 其 中 给 快照 预 留 的 
空间 为 47GB ， 实 际 可 用 在 线 存 储 用 户 数据 的 空间 为 908GB ， 如 图 12- 
24 所 示 。 


图 12-24 ”aggr 的 空间 分 布 
2 在 aggr 中 创建 Vol 


Vol， 即 卷 ， 是 凌驾 于 aggr 之 上 的 一 层 虚 拟 化 产物 ， 目 的 是 为 了 更 
加 灵活 地 取 用 aggr 所 提供 的 存储 空间 。Vol 可 以 任意 创建 删除 ， 任 意 增 
加 或 者 减 小 容量 。 


如 图 12-25 所 示 ， 在 aggrtest 中 创建 了 一 个 名 为 voltest， 然 后 将 
offline 删 除 。 这 个 过 程 非常 简单 ， 命 令 发 出 之 后 立即 生效 。 


图 12-25 ”创建 /删除 一 个 Vol 


在 aggrtest 上 创建 两 个 卷 : iSCSI1 和 iSCSI2 ， 大 小 均 为 300GB ， 如 
图 12-26 所 示 。 


图 12-26 ”创建 两 个 新 卷 


3。 在 Vol 中 创建 LUN 


LUN 是 最 终 提 交 给 主机 使 用 的 一 块 存 储 空 间 ，NetApp 将 LUN 容 纳 
于 Vol 的 空间 之 下 ， 并 且 LUN 也 可 以 任意 增 、 删 、 扩 、 缩 。 


在 每 个 Vol 中 分 别 创 建 一 个 大 小 为 200GB 的 LUN ， 如 图 12-27 所 
未 o 


图 12-27 创建 LUN 
4. 创建 Igroup 并 了 映射 LUN 


所 谓 Igroup， 是 用 来 管理 LUN 一 主机 映射 关系 的 。 本 书 前 文中 描 
述 过 这 种 灵活 的 映射 关系 。Igroup 就 像 一 个 桥梁 ， 主 机 和 LUN 如 果 都 
映射 到 某 个 Igoup， 那 么 这 人 台 主 机 就 可 以 访问 这 些 LUN。 


如 图 12-28 所 示 ， 创 建 一 个 名 为 IG 的 iSCSI 类 型 的 Igroup， 并 将 它 映 
射 到 了 一 个 主机 端的 iSCSI Initiator 的 IQN 地 址 。 接 着 ， 将 两 个 LUN 都 
映射 到 了 这 个 Igroup 中 。 


图 12-28 创建 Igroup 并 映射 LUN 和 主机 
12.9.2 ”第 二 步 : 在 主机 端 挂 载 LUN 
1。 确认 主机 端的 IQN 名 称 


确认 主机 端 iSCSI Initiator 的 IQN 名 称 是 否 与 Igroup 中 所 配置 的 一 
致 ， 如 图 12-29 所 示 。 


图 12-29 ”IQN 名 称 


2。 添 加 iSCSI Target 端 地 址 


添加 iSCSI Target 端 地 址 ， 发 现 其 上 的 LUN， 如 图 12-30 和 图 12-31 
所 示 。 图 12-32 显 示 已 经 发 现 iSCSI 目 标 ， 但 处 于 未 激活 状态 。 


图 12-30 ”添加 iSCSI Target 端 地 址 


图 12-31 ”添加 完成 图 12-32 ”未 激活 状态 的 Targe 


3。 激 活 iSCSI 目 标 端 ， 发 现 LUN 
单 击 图 12-32 中 的 Log On 按钮 ， 如 图 12-33 所 示 。 
图 12-33 ”激活 iSCSI 目标 


单 击 OK 按钮 后 ， 可 以 在 图 12-34 中 看 到 ， 目 标 已 经 连接 ， 此 时 
LUN 会 被 主机 识别 到 。 


图 12-34 ”处 于 激活 状态 的 iSCSI 目标 
4。 使 用 LUN 


如 图 12-35 所 示 ， 在 主机 的 磁盘 管理 器 中 会 发 现 两 块 未 初始 化 的 磁 
盘 ， 其 对 应 的 是 存储 设备 上 的 两 个 LUN。 


图 12-35 ”新 识别 到 的 两 个 LUN 
初始 化 之 后 格式 化 这 两 块 磁盘 (LUN) ， 如 图 12-36 所 示 。 
图 12-36 “初始 化 之 后 格式 化 磁盘 


如 图 12-37 和 图 12-38 所 示 ， 这 两 块 磁盘 已 经 可 以 正常 使 用 了 。 


图 12-37 磁盘 状况 正常 图 12-38 “我 的 电脑 ”显示 的 磁盘 


12.10 iSCSI 卡 Boot 配 置 示例 


上 文 提 过 iSCSI 卡 ， 即 向 操作 系统 表现 为 一 块 SCSI 卡 ， 底 层 却 用 IP 
网 络 来 传输 SCSI 协 议和 数据 。 本 节 介绍 如 何 配 置 系 统 从 iSCSI 启 动 。 在 
阅读 本 节 之 前 最 好 先 阅 读 9.9 节 ， 本 节 介 绍 的 内 容 与 FC Boot 过 程 类 
似 。 


如 图 12-39 所 示 ， 系 统 加 电 后 进入 iSCSI 卡 的 Optional ROM 配 置 界 
面 。 首 先 配 置 iSCSI Initiator 端 的 信息 ， 比 如 IP 地 址 、 网 关 地 址 等 。 配 
置 完 后 进入 Target 端 配置 界面 。 


图 12-39 ”配置 iSCSI Initiator 端 信息 


配置 Target 端 的 IP 地 址 和 IQN 名 ， 如 图 12-40 所 示 。 配 置 完毕 后 退 
出 。 在 系统 主 Bios 中 配置 已 经 识别 到 的 iSCSI LUN 作 为 第 一 启动 盘 ， 如 
图 12-41 所 示 。 


图 12-40 ”配置 iSCSI Target 端 信息 I 
图 12-41 ” 主 Bios 中 配置 第 一 启动 盘 I 
图 12-42 所 示 为 Intel Pro 1000/PT iSCSI 卡 的 配置 界面 。 


图 12-42 ”Intel Pro 1000/PT iSCSI 卡 的 配置 界面 


当 iSCSI 卡 配置 完成 之 后 ， 系 统 重启 的 过 程 中 会 出 现 类 似 图 12-43 
所 示 的 界面 。 


图 12-43 ”配置 完毕 系统 重启 之 后 的 界面 


12.11 10Gb 以 太 网 的 威力 初 显 


2010 年 3 月 ，Microsoft 与 Intel 合 作 进 行 了 一 项 在 10Gb/s 以 太 网 之 上 
基于 iSCSI 协议 的 IOPS 及 吞吐 量 测 试 。 测 试 中 硬件 使 用 基于 Intel Xeon 
processor 5580 CPU 的 服务 器 ， 以 及 基于 Intel 82599 10 Gigabit Ethernet 
Controller 的 10Gb/s 以 太 网 适配器 ; 操作 系统 可 以 用 Windows Server 
2008 R2， 以 及 Microsoft iSCSI Initiator 软 件 ; 存储 端 使 用 StarWind 公 司 
的 iSCSI Target 软 件 ， 交 换 机 使 用 Cisco Nexus 5020 10Gb/s 以 太 网 交换 
机 。 整 个 系统 中 使 用 10 台 iSCSI Target Server 和 1 台 iSCSI Client，Client 
使 用 单 10Gb/s 以 太 网 口 连接 交换 机 。 在 512Byte IO Size 和 连续 IO 条 件 
下 ， 获 得 了 双向 总 共 超 过 100 万 的 IOPS 值 。 如 图 12-44 所 示 分 别 为 IJOPS 
和 吞吐 量 (双向 ) 。 


图 12-44 ”10Gb/s 以 太 网 的 IOPS 和 吞吐 量 


当然 ， 连 续 小 块 IO 是 最 能 够 获得 高 IOPS 的 IO 方式 ， 并 且 测 试 使 用 
的 硬件 和 软件 都 是 做 了 充分 优化 的 ， 比 如 Intel”82599 适 配器 开启 了 众 
多 的 Offload， 包 括 Checksum、Large Send 等 ， 以 及 针对 Intel Xeon5000 
系列 CPU 的 一 些 额 外 优化 ， 比 如 在 中 断 和 DMA 方 面 。 


这 个 测试 的 目的 是 为 了 饱和 链 路 的 IOPS ， 证 明了 10Gb/s 以 太 网 
+ 软 iSCSI Initiator 在 经 过 优化 设置 之 后 ， 完 全 有 能 力 饱 和 底层 链 路 的 
IOPS 和 带宽 。 目 前 业界 对 TCP/IP+ 以 太 网 组 合 的 协议 效率 有 很 多 质 
疑 ， 质 疑 其 效率 非常 低 ， 有 人 甚至 说 效率 只 有 50% ， 这 完全 是 无 稽 之 


谈 。 


随 着 整个 网 络 骨 干 速度 的 提升 ， 以 太 网 取代 不 开放 的 FC 平 台 ， 是 
迟早 的 事情 。 


12.12 “小 结 


IP SAN 出 现 之 后 ，FC SAN 的 统治 地 位 被 大 大 地 动 播 了 。FC 目 前 
唯一 可 以 用 来 与 IP SAN 抗 衡 的 武器 ， 就 是 其 高 速度 。 但 是 这 个 武器 的 
震慑 力也 在 降低 。 我 们 可 以 发 现 ， 以 太 网 的 速度 每 次 革新 都 是 以 10 倍 
速 为 单位 ， 从 10Mb/s 到 100Mb/s、1Gb/s，10Gb/s 速 率 的 以 太 网 也 已 经 
发 布 了 。 而 FC 每 次 革新 均 以 2 倍速 为 单位 ， 从 一 开始 的 1Gb/s、2Gb/s， 
到 目前 正在 被 广泛 使 用 的 4Gb/s 速 率 ， 而 FC 的 下 一 个 速率 级 别 为 8Gb/s 

(或 者 10Gb/s) ， 而 且 这 个 标准 还 正在 制定 当中 。 以 太 网 已 经 在 计划 
上 抢先 了 FC 一 步 。 不 知道 在 10Gb/s 时 代 ，FC 还 能 不 能 守住 它 那 仅 有 的 


说 明 : 现在 已 经 出 现 了 HyperSCSI 以 及 ATA over Ethernet 这 两 
种 欲 抛弃 略 显 低 效 的 TCP/P 协 议 而 另 立 门 派 的 协议 ， 但 是 由 
于 各 种 原因 ， 尚 未 得 到 推广 。 


第 13 章 ”握手 言 和 一 一 IP 与 FC 融 
合 的 结果 


mFC 

mn IP 

@ 协议 之 间 的 相互 作用 
g 协议 融合 


话说 FC 和 IP 各 占 一 方 ， 谁 也 不 让 谁 ， 互 相 竞 争 了 数 年 ， 两 者 各 立 
门派 ， 势 不 两 立 。 但 是 “ 夫 天 下 之 势 ， 分 久 必 合 ， 合 久 必 分 ”。 


数 年 来 ， 两 者 在 市 场 上 竞争 得 可 谓 你 死 我 活 。FC 仅 仅 拿 着 FC 
SAN 的 速度 和 稳定 性 来 炮 户 IP SAN， 而 IP 也 不 甘 示 弱 ， 处 处 举 着 可 扩 
展 性 和 成 本 的 大 旗 ， 声 讨 FC SAN， 闪 得 江湖 上 风 风 雨 雨 。FC 和 凭借 着 
它 的 速度 优势 ， 占 据 了 高 端 市 场 ， 而 IP 则 以 成 本 优势 在 低 端 市 场 占据 
了 一 席 之 地 。 然 而 两 人 谁 都 想 一 统 天 下 ， 把 对 方 彻底 驱逐 出 市 场 ， 但 
是 ， 相 持 了 数 年 ， 谁 也 没 能 把 谁 干 掉 ， 两 人 都 累 了 。 这 么 多 年 的 互相 
攻击 ， 谁 也 没有 取得 丝毫 胜利 ，FC 还 是 稳固 地 占据 高 端 市 场 ，IP 依然 
驰 戏 低 端 。 


终于 有 一 天 ，FC 和 IP 决定 握手 言 和 ， 不 再 投入 无 谓 的 人 力 、 物 
力 、 财 力 来 和 对 方 竞 争 。 与 其 大 肆 攻 击 对 方 ， 不 如 多 用 点 精力 来 提升 
和 发 展 自身 的 技术 ， 同 时 学 习 对 方 的 技术 ， 取 长 补 短 ， 方 为 正道 啊 ! 


FC 和 IP 彻夜 长 谈 ， 终 于 取得 了 一 致 的 见解 ， 决 定 双 方 各 取 所 长 ， 共 同 
为 江湖 做 贡献 。 


首先 ，FC 决 定 由 IP 入 股 自己 的 公司 ， 给 FC SAN 提 供 更 高 的 扩展 
性 架构 解决 方案 ; 同时 ，FC 也 入 股 IP 的 公司 ， 给 IP 提供 研发 经 费 ， 用 
于 其 研发 出 基于 以 太 网 的 、 新 型 的 、 适 合 存储 区 域 网 络 的 专用 协议 体 


13.1 _FC 的 窘境 


入 股 FC 公 司 之 后 ，IP 便 开 始 研究 如 何 将 FC 协 议 体 系 转 向 可 扩展 
的 、 开 放 的 结构 。 说 到 可 扩展 且 开 放 的 网 络 传输 协议 ， 一 定 非 TCP/IP 
莫 属 。 可 是 FC 和 TCP/PP 是 两 套 富 不 相干 的 协议 体系 ， 如 果 将 FC 全 部 转 
为 TCP/IP， 那 央 不 是 叛变 成 IP SAN 了 么 ? 但 是 如 果 丝 毫 不 变 ， 那 只 能 
是 FC SAN， 还 是 不 具备 开放 和 扩展 性 。 


1. FC 的 扩展 性 问题 


FC 为 什么 扩展 性 差 ? 就 是 因为 如 果 通 信 汉 方 距离 太 远 的 话 ， 需 要 
自己 架设 光缆 ， 或 者 租用 电信 的 专线 光缆 ， 这 两 者 成 本 都 很 高 。 如 果 
租用 电信 和 部门 的 专线 光 绕 ， 则 FC 最 低速 度 为 1Gb/s， 且 租用 电信 部 门 
的 1Gb/s 带 宽 的 专线 光 绕 ， 其 费用 不 是 一 般 机 构 能 承担 的 。 


提示 : 目前 电信 提供 的 专线 接 入 ， 其 骨干 网 一 般 采 用 PDH 或 
者 SDH 协 议 传输 ， 到 终端 用 户 所 能 承受 的 速率 为 2Mb/s 的 El 
线路 。 当 然 也 可 以 直接 从 高 速 骨干 网 直接 分 离 出 相对 高 速 的 
线路 ， 比 如 OC3、0OC48 等 ， 但 是 费用 还 是 过 于 高 昂 ， 令 人 无 
法 承受 。 


E1 线 路 有 自己 的 编码 格式 ， 不 能 将 电信 部 门 接 入 的 光纤 直接 插 到 
FC 设 备 上 ， 因 为 两 端的 编码 方式 不 同 ， 不 能 和 局 端的 设备 建立 连接 ， 
所 以 需要 增加 一 个 协议 转换 设备 (准确 来 说 是 协议 隧道 封装 设备 ) ， 
将 E1 协 议 解 封 沪 ， 转 换 成 协 转 设备 后 面 的 协议 人 逻辑， 比如 V35 串 口 、 
以 太 网 等 其 他 协议 。 目 前 已 经 存在 FC over Sonet、FC over ATM 等 协 转 
设备 了 ， 不 过 这 些 专线 的 扩展 性 仍然 不 强 ， 而 且 这 种 方案 以 及 对 应 的 
设备 也 非常 昂贵 和 稀少 。 


目前 看 来 ， 如 果 要 扩展 FC 网 络 ， 让 相隔 很 远 的 两 地 之 间 用 上 FC 协 
议 ， 最 好 的 办 法 融 是 目 己 架设 专用 光 绕 。 可 是 目 己 架设 光线 也 只 能 在 
目 己 可 控 的 艺 围 内 ， 比 如 一 个 大 广 区 之 内 ， 但 是 如 果 是 在 市 内 ， 或 者 
两 个 城市 、 两 个 省 之 间 ， 私 自 架 设 光 缆 是 绝对 被 茶 止 的 。 


2. 解决 方案 


怎么 办 ? 首先， 要 走出 去 ， 就 一 定 要 租用 电信 部 门 的 线路 。 电 信 
提供 了 两 种 线路 : 一 种 是 接 到 Internet 的 线路 ， 也 就 是 接 入 电信 部 门 的 
Internet 运 营 网 络 ， 通 信 的 双方 都 接 入 ， 并 且 使 用 TCP/PP 通 信 ; 另 一 种 
就 是 光 费 专线， 也 就 是 通信 的 双方 都 接 入 电信 部 门 的 专用 传输 骨干 网 
络 ， 这 条 专线 端 到 端的 带宽 由 接 入 提供 商 保证 ， 只 要 两 端的 设备 支 
持 ， 其 上 可 以 运行 任何 上 层 协议 。 上 层 帧 会 被 底层 封装 协议 (比如 E1 
等 ) 再 成 帧 传送 到 电信 部 门 骨干 传输 网 络 中 。 


虽然 Internet 接 入 可 以 获得 100Mb/s 或 者 1000Mb/s 的 速率 ， 但 是 这 
只 是 本 地 带宽 (从 本 地 到 局 端 设备 之 间 的 链 路 带宽 ， 端 到 端的 融 
宽 ， 以 现在 的 电信 部 门 TCP/P 网 络 环境 ， 除 非 购买 接 入 商 的 QOS 或 者 
MPLS TE 服 务 ， 否 则 没有 人 能 够 保证 两 点 间 的 通路 带宽 (速率 ) 。 


提示 : 如 果 两 地 之 间 相 距 很 近 ， 那 么 不 妨 考虑 Internet 链 路 。 
因为 如 果 两 地 同时 接 入 相同 城市 的 ISP 网 络 ， 数 据 包 被 路 由 的 
跳 数 就 不 会 很 高 ， 甚 至 有 可 能 只 经 过 1 跳 或 者 2 跳 便 可 以 被 对 
方 收 到 。 更 有 甚 者， 同城 的 两 地 可 能 连接 在 局 端的 同一 台 设 
备 上 。 这 样 可 获得 的 带宽 速率 就 会 非常 可 观 ， 就 可 以 像 在 内 
网 通信 一 样 利用 VPN 来 让 两 个 站 点 之 间 联 通 。 但 要 澄清 一 
点 ， 由 于 Internet 链 路 不 能 时 刻 保障 稳定 的 带宽 ， 所 以 这 种 方 
法 只 适合 对 数据 传输 实时 性 要 求 不 高 ， 但 同时 又 要 求 高 带宽 
的 情况 。 


而 专用 线路 虽然 保证 了 带宽 ， 但 是 只 能 承受 E1 等 低速 专线 ， 且 价 
格 相 对 Internet 接 入 要 贵 很 多 。 而 且 目 前 只 有 V35 一 E1 封 装 解 封 设备 和 
E1 一 以 太 网 封装 解 封 设备 ， 并 没有 E1 一 FC 封 装 解 封 设备 。 而 V35 串 口 
和 以 太 网 这 两 种 二 层 协议 ， 都 普遍 被 用 来 承载 卫 协 议 ， 所 以 目前 来 
说 ，E1 一 般 用 来 承载 了 作为 网 络 层 协议 。 有 些 路 由 器 自 带 E1 封 装 解 去 
模块 ， 可 以 不 用 外 接 协 转 ， 直 接连 接 从 光端机 分 离 出 来 的 一 路 或 者 几 
路 G703 或 者 BNC 接 头 ， 直 接 编 码 与 解码 El 协议 。 但 是 这 些 也 都 是 IP 路 
由 器 ， 和 FC 丝毫 没有 关系 。 


可 以 看 出 ，FC 如 果 脱 离 了 “后 端 专 用 ”这 四 个 字 到 开放 领域 ， 显然 
是 无 法 生存 的 。 而 IP SAN， 则 软 硬 通 吃 ， 只 要 有 IP 的 地 方 ， 不 管 其 下 
层 是 什么 链 路 协议 ， 就 可 以 部 署 IP SAN。 这 就 是 为 何 称 TCP/IP 为 协议 
中 的 秦始皇 的 原因 : 秦始皇 统一 了 货币 ， 到 哪里 都 通用 ， 同 样 ， 
TCP/IP 也 统一 了 下 层 凌乱 的 各 种 协议 。 


13.2 ”协议 融合 的 迫切 性 


说 到 这 里 ， 租 用 Intemet 线 路 ， 只 能 承载 IP， 而 租用 点 对 点 专线 ， 
也 普遍 用 来 承载 IP， 可 能 感觉 FC 的 扩展 似乎 就 是 死路 一 条 了 。 但 是 ， 
IP 想 起 了 ISCSI， 当 初 自己 不 就 是 把 SCSI 协 议 给 封装 到 了 TCP/IP 协 议 中 
来 传输 ， 才 扩展 了 SCSI 协 议 么 ?也 就 是 说 如 果 将 一 种 协议 封装 到 另 一 
种 协议 中 传输 ， 就 可 以 使 用 另 一 种 协议 带 来 相应 的 好 处 了 。 不 妨 就 这 
么 假设 一 下 ，FC 不 可 扩展 ，TCP/IP 扩 展 性 很 强 ， 那 么 如 果 把 FC 协议 封 
装 到 TCP/IP 协 议 中 来 传输 ， 是 不 是 也 可 以 获得 TCP/IP 的 扩展 性 呢 ? 这 
个 想法 比较 大 胆 ， 因 为 FC 本 身 也 是 作为 一 种 可 以 传输 其 他 协议 的 协 
议 ，FC 甚 至 可 以 承载 IP， 作 为 IP 的 链 路 层 ， 那 么 为 什么 现在 却 反 过 头 
来 需要 用 IP 来 承载 呢 ? 


提示 : Protocol over Protocol，PoP ， 即 一 种 协议 被 打包 封装 
或 者 映射 到 另 一 种 协议 之 上 。 这 种 思想 在 网 络 协议 领域 中 经 
单 使 用 。 我 们 姑且 称 其 为 “协议 融合 "”， 认 为 其 已 经 可 以 形成 
一 个 独立 的 科目 。 


要 谈 协 议 融 合 ， 还 得 从 以 太 网 和 TCP/P 说 起 。 
1. 以 太 网 和 TCP/IP 一 一 不 能 不 说 的 故事 


前 面 已 经 详细 介绍 了 以 太 网 和 TCP/IP 协 议 。 我 们 知道 ， 以 太 网 是 
一 个 网 络 通信 协议 。 


提示 : 记得 某 人 曾经 说 过 一 句 话 : “网络 就 是 水 晶 头 。” 这 句 
话 比 较 有 意思 ， 它 反映 出 说 这 句 话 的 人 对 网 络 的 不 了 解 ， 但 
是 也 证 明 他 平时 所 见 到 的 网 络 ， 确 实 只 有 水 晶 头 ， 且 以 太 网 
普遍 使 用 水 晶 头 ， 这 样 “ 网 络 就 是 水 晶 头 ”这 句 话 ， 也 不 是 那 


么 可 笑 了 。 它 从 某 种 角度 也 反映 出 了 以 太 网 在 当今 的 普及 程 
度 。 


前 面 讲 到 以 太 网 是 可 以 寻 址 的 ， 也 就 是 说 它 涉及 了 OSI 第 三 层 网 
络 层 的 内 容 。 大 家 都 连接 到 一 个 以 太 网 环境 中 ， 不 需要 任何 其 他 上 层 
协议 ， 就 可 以 区 分 开 对 方 ， 进 行 通信 。 既 然 这 样 ， 为 什么 连 新 闻 联 播 
的 主持 人 都 知道 Internet 是 利用 TCP/PP 协 议 而 不 是 以 太 网 来 通信 呢 ? 为 
何 我 们 总 是 说 以 太 网 十 TCP/PP 协 议 二 元 组 ， 而 不 是 仅仅 说 以 太 网 ， 或 
者 TCP/IP 协 议 ? 


因为 以 太 网 和 TCP/IP 协 议 是 逻辑 上 分 开 的 ， 它 们 各 自 是 不 同 的 协 
议 体系 ， 那 么 为 什么 总 是 把 它们 组 合 起 来 说 呢 ? 它们 之 间 有 什么 割舍 


不 断 的 恩 恩怨 怨 呢 ? 这 其 中 原因 ， 还 要 从 IP 讲 起 。 
2。IP 本 位 


前 面 也 说 过 了 ， 卫 就 是 一 个 身份 标志 ， 是 用 来 与 其 他 人 区 别 的 一 
个 ID。 以 太 网 协议 中 规定 的 MAC 地 址 ， 从 原理 上 讲 ， 就 足够 用 来 区 分 
网 络 中 各 个 节点 了 。 但 是 前 面 也 分 析 过 ， 完 全 靠 MAC 来 寻 址 的 缺点 : 
一 是 MAC 地 址 太 长 ，48b， 用 于 路 由 寻 址 时 效率 太 低 ; 二 是 世界 上 并 
不 是 每 个 环境 中 都 用 以 太 网 来 建立 网 络 ， 除 了 以 太 网 ， 还 有 其 他 各 种 
方式 的 网 络 系统 ， 各 自 有 各 自 的 寻 址 方式 ， 如 果 要 让 所 有 类 型 的 网 络 
之 间 无 障碍 的 相互 通信 ， 就 需要 一 个 秦始皇 来 统一 天 下 的 货币 。 


IP 就 是 这 个 被 选中 的 货币 。 不 管 以 太 网 ， 或 者 串口 协议 ,或 者 
FDDI 等 类 的 局 域 网 方式 ， 我 们 最 终 都 要 让 其 之 间 相 互通 信 ， 才 能 形成 


Interneto 


提示 : 如 果 你 是 秦始皇 ， 你 会 怎么 来 处 理 各 国 众多 的 货 

呢 ? 虽然 秦始皇 最 终 将 其 他 货币 回收 废除 了 ， 但 是 IP 却 不 能 
在 短 时 间 内 将 所 有 网 络 形式 都 废除 ， 而 用 以 太 网 统一 ， 因 为 
现在 已 经 不 是 一 个 人 说 了 算 的 时 代 了 。 秦 始 皇 可 以 在 各 个 使 
用 不 同 货币 的 地 方 设立 一 个 专门 的 兑换 机 构 ， 只 要 到 了 这 个 
地 方 ， 就 部 换 成 这 里 使 用 的 货币 。 


同样 ， 我 们 也 给 每 个 网 络 设立 一 个 网 络 地 址 兑换 设备 ， 也 就 是 协 
议 ， 将 统一 的 下地 址 兑换 成 这 个 网 络 的 自用 私有 地 址 ， 用 这 种 方式 实 
现 各 种 类 型 网 络 的 相互 联通 。 网 络 中 的 兑换 机 制 ， 是 通过 ARP 协 议 实 
现 的 ，ARP 协 议 可 以 将 一 种 网 络 地 址 映射 成 另 一 种 网 络 地 址 。 每 种 网 
络 要 想 用 IP 来 统一 ， 都 必须 运行 各 自 的 ARP 协 议 ， 比 如 以 太 网 中 的 
ARP 协 议 ， 帧 中 继 网 络 中 的 ARP 协 议 等 。 


对 于 以 太 网 来 说 ，IP 就 是 统一 货币 ，MAC 就 是 以 太 网 货币 。 另 
外 ， 还 有 各 种 各 样 其 他 类 型 的 货币 ， 比 如 主机 名 (Hostname) 、 域 名 
等 。 大 家 在 访问 网 站 的 时 候 ， 其 实 就 是 和 提供 网 站 服务 的 服务 器 来 建 
立 通信 ， 获 取 它 的 网 页 和 其 他 服务 ， 在 下 浏览 器 中 输入 这 个 网 站 的 域 
名 之 后 ，DNS 兑 换 程序 会 自动 向 DNS 服务 器 查询 ， 获 得 这 个 域名 所 对 
应 的 IP 地 址 ， 然 后 用 IP 地 址 与 服务 器 通信 。 


数据 包 带 着 IP 地 址 到 了 服务 器 所 在 的 局 域 网 之 后 ， 会 通过 局 域 网 
的 路 由 器 发 出 ARP 请 求 ， 来 把 IP 地 址 再 喝 换 成 服务 器 所 在 局 域 网 络 的 
地 址 。 如 果 服 务 器 所 在 的 局 域 网 是 以 太 网 ， 则 对 应 成 MAC 地 址 ， 然 后 
通过 以 太 网 交换 设备 ， 找 到 这 个 MAC 地 址 所 在 的 交换 机 端口 ， 将 数据 
包 发 向 这 个 端口 ， 从 而 被 服务 器 收 到 。 


为 什么 要 经 过 多 次 兑换 呢 ? 首先 把 IP 转 换 成 域名 ， 是 为 了 方便 记 
忆 ， 不 必 记 忆 那 些 复杂 的 IP 地 址 ;， 其 次 把 MAC 转 换 为 IP， 是 为 了 天 下 
统一 ， 相互 流通 。 


其 实 如 果 所 有 人 都 用 以 太 网 联网 ， 那 么 就 可 以 完全 抛弃 卫 这 一 层 
寻 址 了 ， 但 是 实际 是 不 可 能 的 ， 以 太 网 现在 还 没有 一 统 天 下 ， 而 且 就 
算 一 统 天 下 了 ， 人 们 也 似乎 不 愿意 抛弃 卫 ， 就 像 在 同一 个 局 域 网 内 ， 
还 是 用 IP 来 直接 通信 ， 而 不 是 直接 用 MAC。TCP/IP 实 在 是 被 使 用 的 已 
经 太 普 遍 了 ， 以 至 于 就 算 牺 牲 一 点 性 能 ， 局 域 网 内 通信 也 普遍 使 用 
IP。 而 实际 上 上， 以太 局 域 网 内 部 通信 的 话 ，NetBEUI 协 议 的 性 能 比 
TCP/IP 协 议 要 高 许多 。 


其 实 整个 Internet 不 仅仅 都 是 以 太 网 ， 以 太 网 适合 局 域 网 联网 通 
信 ， 但 是 不 适合 广域网 情况 ， 广 域 网 的 联网 协议 ， 比 如 PPP、HDLC、 
Frame Relay、x25、AIM 等 ， 也 像 以 太 网 一 样 各 有 各 的 寻 址 体系 。 在 
一 个 Intemet 上 有 这 么 多 种 不 同 地 址 的 网 络 ， 它 们 之 间 若 要 相互 融合 、 
寻 址 ， 就 必须 在 各 种 地 址 之 间 ， 相 互 翻译 、 转 换 、 了 映射 ， 数 据 包 每 经 
过 一 种 网 络 ， 就 转换 一 次 ， 这 样 非 常 麻 烦 。 了 地址 的 出 现 使 得 所 有 联 
网 的 节点 ， 不 管用 的 是 以 太 网 ， 还 是 Frame Relay， 统 统 都 分 配 一 个 了 
地 址 给 每 个 节点 ， 对 外 最 终 以 IP 地 址 作为 寻 址 地 址 ， 而 将 IP 地 址 再 映 
射 到 自己 所 在 网 络 的 所 使 用 的 地 址 上 ， 比 如 IP 映 射 到 以 太 网 的 MAC， 
或 者 IP 映 射 到 Frame Relay 的 DLCI、 了 映射 到 ATM 的 地 址 等 。 


用 来 进行 地 址 映射 的 程序 ， 称 为 Address Resolution Protocol， 即 
ARP。 很 多 人 听 到 ARP， 就 认为 是 以 太 网 ， 其 实 这 也 是 错误 的 ，ARP 
不 仅仅 代表 以 太 网 中 的 耻 地 址 和 MAC 地 址 的 映射 ， 它 代表 任何 种 类 地 
址 之 间 的 映射 对 应 关系 ， 从 这 一 点 来 说 ，DNS 协 议 也 应 该 归 入 广义 的 
ARP 协 议 中 。 


IP 统 治 了 OSI 的 第 三 层 ， 将 原来 占据 第 三 层 的 凌乱 地 址 种 类 统一 
了 。 了 映射 到 (承载 于 ) 以 太 网 的 耻 ， 称 为 IPoE (IPoE 也 就 是 “基于 以 太 
网 的 TCP/IP”) ; 映射 到 帧 中 继 的 IP ， 称 为 [poFR; 映射 到 ATM 的 IP， 
称 为 IPoA 等 。 从 此 一 种 新 的 概念 诞生 了 : PoP ， 即 Protocol over 
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3。 IP 缺 乏 传 输 保障 功能 


IP 统 一 了 天 下 还 不 够 ， 因 为 IP 最 大 的 作用 就 是 寻 址 和 路 由 以 及 适 
配 链 路 层 MTU， 它 并 不 提供 其 他 功能 ， 而 作为 一 个 健全 的 网 络 传 输 协 
议 ， 必 须 具 有 传输 保障 功能 。 而 以 太 网 是 一 个 面向 无 连接 的 网 络 ， 它 
不 保障 数据 一 定 会 传送 的 对 方 ， 是 一 个 不 负责 任 的 网 络 ， 不 管 目的 端 
口 有 没有 收 到 ， 源 端口 只 管 向 外 发 送 。 而 Frame Relay 协 议 ， 其 前 身 
x25 协 议 ， 是 一 个 有 着 很 好 传输 保障 功能 的 协议 ， 在 TCP/PP 没 有 出 现 之 
前 ，x25 的 传输 保障 机 制 做 得 非常 到 位 ， 因 为 x25 的 设计 初衷 ， 就 是 为 
了 运行 到 极其 不 稳定 的 链 路 上 。 而 随 着 链 路 质量 的 不 断 提高 ，x25 的 做 
法 显得 越 来 越 因 嘻 废 食 了 ， 所 以 其 改良 版 本 Frame Relay， 就 逐渐 替代 
了 x25，FR 抛 弃 了 x25 中 很 多 无 谓 的 传输 保障 机 制 ， 而 仪 仅 留 下 一 些 流 
控 机 制 。 相 对 于 以 太 网 的 不 负责 任 ，FR 起 码 在 链 路 层面 ， 实 现 了 比较 
好 的 流 控 措 施 。 


但 是 ， 不 管 是 以 太 网 ， 还 是 FR， 都 没有 实现 端 到 端的 传输 保障 。 
端 到 端 ， 是 相对 于 “过 路 ”来 说 的 。 过 路 是 指 在 两 个 终端 之 间 通 信 路 径 
上 的 网 络 设备 之 间 的 路 径 。 链 路 层 的 传输 保障 就 是 一 种 过 路 保障 ， 因 
为 链 路 层 只 保证 相连 的 两 个 设备 之 间 传 送 效 据 正 单 无误， 但 是 不 能 保 
障 通信 最 终端 接收 和 发 送 的 数据 正常 无 误 。 因 为 在 一 个 典型 的 包 交 换 


网 络 中 ， 数 据 包 一 般 都 是 一 跳 一 跳 地 被 传送 的 ， 每 一 跳 两 端的 设备 用 
证 路 层 协议 进行 传输 保障 。 


但 是 最 终 目 的 是 要 让 通信 的 最 终 两 端 无 误 地 收 到 数据 ， 才 能 算 作 
真正 的 传输 保障 ， 即 端 到 端的 保障 。 而 FR 协议 所 做 的 ， 只 是 在 过 路 的 
时 候 保 障 链 路 正确 传输 。 如 果 链 路 正确 传输 给 了 终端 ， 而 终端 到 最 终 
上 层 的 某 个 环节 出 错 了 ， 那 么 数据 同样 也 是 错误 的 ， 所 以 ， 要 实现 端 
到 端的 传输 保障 ， 一 定 要 在 最 终 传输 终端 上 运行 一 个 侦 错 和 纠 错 i 
辑 ， 用 来 发 现 链 路 层 所 发 现 不 了 的 错误 。 图 13-1 为 新 到 端 保障 与 过 路 
保障 的 示意 图 。 


图 13-1 过 路 保障 与 端 到 端的 保障 运行 中 卫 及 其 下 层 链 路 层 协 议 


4. TCP 保 驾 护 航 


为 了 实现 这 个 目的 ，TCP 出 现 了 。TCP 作 为 一 个 程序 运行 在 通信 
的 两 个 终点 ， 不 管 两 点 之 间 用 什么 样 的 链 路 连接 ， 经 过 了 多 少 网 络 设 
备 ，TCP 程 序 始终 运行 在 通信 终端 上 ， 监 控 终 端 最 终 发 送 和 接收 到 的 
数据 包 的 顺序 、 缓 存 区 、 校 验 等 信息 ， 检 查 是 否 出 现 丢 包 、 阻 塞 等 事 
件 ， 一 旦 发 现 错误 ， 立 刻 纠 正 重 发 数据 包 。 

TCP 不 是 运行 在 通信 路 径 上 的 ， 而 是 运行 在 通信 终点 的 两 端 设 备 
上 。 即 使 过 路 链 路 保障 机 制 再 健全 ，TCP 也 是 有 必要 的 ， 因 为 数据 包 
只 有 被 终端 正确 接收 到 ， 才 能 算 真 正 的 传输 保障 。 


所 以 ， 在 了 了 之 上 ， 又 姿 加 了 一 层 TCP 逻 辑 ， 用 来 保障 端 到 端的 无 
误 传 输 。 而 FR 等 链 路 层 协议 的 保障 机 制 ， 只 能 保障 本 段 链 路 传输 无 


误 ， 不 能 保障 端 到 端的 正确 收发 ， 所 以 只 能 沦 为 数据 链 路 层 协 议 的 角 
色 了 ， 用 来 承载 IP 和 TCP。 


我 们 可 以 体会 到 ， 协 议 之 间 也 是 在 互相 利用 ， 互 相 排挤 、 知 并 及 
融合 ， 以 适应 不 同 的 应 用 环境 ， 因 为 不 可 能 为 每 一 种 应 用 环境 都 设计 
一 种 协议 ， 协 议 之 间 互 相 利 用 、 融 合 ， 才 是 最 好 的 解决 办 法 。 


5。 最 佳 拍 档 _TCP/IP 和 以 太 网 


现在 可 以 回答 上 面 没 有 找到 答案 的 那个 问题 了 ， 为 什么 以 太 网 偏 
要 和 TCP/IP 组 合成 一 对 呢 ? 因为 以 太 网 使 用 得 太 广泛 了 ， 而 OSI 的 第 
三 层 、 第 四 层 ， 也 几乎 被 IP、TCP 给 统一 了 ， 所 以 以 太 网 十 TCP/IP， 
当然 就 成 了 一 对 好 搭档 了 。 


虽然 一 个 协议 可 能 实现 OSI 的 所 有 7 个 层次 ， 但 是 如 果 它 要 和 其 他 
协议 合作 ， 那 么 就 要 有 个 分 工 ， 而 不 能 越权 ， 比 如 IPoA、ATM 只 要 传 
输 IP 包 到 目的 就 可 以 ， 而 不 管 数据 是 否 出 错 、 乱 序 等 ， 虽 然 ATM 可 能 
有 这 个 功能 。 以 太 网 虽然 自己 可 以 寻 址 ， 但 是 它 还 是 配合 IP， 进 行 IP 
到 MAC 的 鼎 射 ， 统 一 使 用 IP 寻 址 ， 它 默默 无 闻 ， 所 有 光辉 都 被 TCP/IP 
所 披挂 。 


13.3 ”网 络 通 信 协 议 的 四 级 结构 


网 络 通信 协议 ， 一 般 可 以 分 成 Payload 层 、 信 息 表示 层 、 交 互 逻辑 
层 和 寻 址 层 。 其 中 最 重要 的 是 交互 逻辑 层 ， 它 是 一 个 协议 的 灵魂 。 


1。Payload 层 


Payload 是 协议 所 承载 的 与 本 协议 逻辑 无 天 的 最 终 数据 ， 是 通信 终 
端 通过 本 协议 最 终 需要 传送 给 对 方 的 数据 。Payload 也 就 是 协议 所 运输 
的 货物 。Payload 层 中 的 数据 ， 既 可 以 是 最 终 应 用 产生 的 数据 ， 也 可 以 
是 另 一 种 协议 的 信息 表示 层 十 Payload 数 据 。 如 果 Payload 封 装 的 是 最 终 
应 用 产生 的 数据 ， 则 表示 这 个 协议 是 直接 被 上 层 应 用 程序 来 调用 ， 从 
而 完成 程序 之 间 的 远程 网 络 通信 的 。 


如 果 Payload 封 装 的 是 另 一 种 协议 的 信息 表示 层 十 Payload 数 据 ， 那 
么 就 证 明 这 个 协议 此 时 正在 承载 那个 协议 。 比 如 协议 A 封装 了 协议 B 的 
信息 表示 层 十 Payload， 则 就 可 以 说 协议 A 封装 了 协议 B， 或 者 协议 A 承 
载 了 协议 B， 或 者 说 协议 B is over 协议 A (BoA) 。 我 们 后 面 会 描述 一 
种 协议 被 Map (上 映射) 到 另 一 种 协议 ， 而 不 是 被 封装 ， 这 种 融合 方式 
称 为 AmB， 是 彻底 的 协议 转换 ， 而 不 是 仅仅 做 隧道 封装 。 


2。 信 息 表 示 层 


信息 表示 层 就 是 附加 在 Payload 数 据 之 外 的 一 段 数 据 ， 也 称 作 协议 
开销 ， 因 为 这 段 数 据 和 最 终 应 用 程序 无 关 ， 是 运行 在 通信 双方 的 通信 
协议 用 来 交互 各 自 的 状态 ， 从 而 使 双方 做 出 正确 动作 的 一 段 重要 数 
据 。 这 段 数 据 可 以 想象 成 提货 单 或 者 信封 。 信 封 封装 了 信纸 ， 信 封 上 
的 地 址 、 姓 名 等 信息 ， 就 是 信息 表示 层 ， 它 可 以 让 对 方 检测 到 当前 通 
信 所 处 的 状态 。 


3。 交 互 逻 辑 层 


这 一 层 其 实 就 是 运行 在 通信 双方 协议 系统 上 的 动作 程序 代码 逻 
辑 ， 它 根据 对 方 传送 过 来 的 信息 表示 层 数 据 来 做 出 相应 的 动作 逻辑 ， 
再 生成 自己 的 信息 表示 层 发 送 给 对 方 ， 然 后 对 方 再 做 相同 的 处 理 判 断 


动作 ， 就 这 样 完成 通信 双方 之 间 的 正确 动作 。 交 互 逻辑 层 其 实 就 是 协 
议 的 设计 思想 。 交 互 逻 辑 层 对 于 每 种 协议 都 不 相同 ， 但 是 很 多 都 类 
似 ， 可 以 说 网 络 通信 协议 基本 思想 是 类 似 的 ， 因 为 它们 所 实现 的 目的 
都 是 一 样 的 ， 就 是 将 数据 通过 网 络 传输 到 目的 地 。 


正 因 为 如 此 ， 各 种 协议 的 交互 逻辑 层 才 可 以 相互 融会 贯通 ， 将 一 
种 协议 的 逻辑 ， 映 射 翻译 到 另 一 种 协议 的 逻辑 ， 从 而 将 各 种 协议 的 优 
点 结合 起 来 ， 完 成 目标 。 协 议 人 逻辑 层 一 般 都 是 运行 在 通信 双方 两 端 
的 ， 但 是 像 了 路 由 协议 等 ， 通 信 双 方 经 过 的 路 径 上 的 所 有 设备 ， 也 都 
需要 运行 ， 因 为 IP 包 是 一 跳 一 跳 被 接收 并 且 转 发 的 。 


4。 寻 址 层 


它 是 帮助 协议 来 找到 需要 通信 的 目标 的 一 套 编 址 和 寻 址 机 制 。 比 
如 IP 地 址 、MAC 地 址 、DLCI 地 址 、 电 话 号 码 等 。 如 果 是 点 对 点 传输 协 
议 ， 则 可 以 忽略 此 层 ， 因 为 不 需要 寻 址 。 而 且 不 同 协议 之 间 的 寻 址 
层 ， 可 以 互相 映射 翻译 。 


以 上 的 这 四 层 ， 是 任何 一 个 网 络 通信 协议 所 必须 具备 的 ， 不 管 多 
么 简单 或 者 多 么 复杂 的 协议 。 


5. 通信 协议 的 相似 性 


相似 性 是 通信 协议 之 间 相 互 融合 的 一 个 条 件 。 而 协议 之 间 相 互 融 
合 的 另 一 个 促成 因素 ， 就 是 协议 使 用 广泛 程度 不 同 ， 有 时 如 果 要 完成 
一 个 目标 ， 不 得 不 借用 某 种 协议 。 


就 像 TCP/PP 协 议 ，TCP/P 协 议 占 领 了 全 球 Internet 的 领地 。 如 果 有 
一 种 协议 想 跨 越 地 域 或 国家 来 进行 通信 ， 但 是 自己 又 无 能 为 力 ， 因 为 
它 首先 没有 专门 为 它 准 备 的 物理 线路 ， 其 次 它 的 设计 ， 也 不 适合 大 范 
围 、 长 距离 的 广域网 环境 ， 那 么 它 只 能 来 租用 TCP/IP 协 议 ， 将 自己 封 
装 到 卫 包 中 传送 。 能 适合 mternet 规 模 的 网 络 通信 协议 ， 唯 TCP/PP 莫 
属 ! 而 其 他 协议 想 要 完成 Internet 范 围 的 通信 ， 就 不 得 不 借助 TCP/IP， 
搭 TCP/IP 的 车 ， 让 TCP/IP 来 承载 它们 。 它 们 是 怎么 搭 上 TCP/IP 的 快车 
呢 ? 


我 们 不 妨 类 比 一 下 。 在 整理 本 章 的 时 候 ， 恰 着 大 连 刚刚 开通 了 一 
艘 新 的 火车 箱 滚 装 船 。 我 想 用 这 个 例子 来 比喻 协议 融合 ， 再 适合 不 过 
了 。 从 山东 烟台 到 大 连 ， 最 近 的 路 径 就 是 走 渤海 湾 水 路 ， 如 果 搭 乘 陆 
路 火车 ， 则 需要 绕 一 大 圈 ， 所 以 很 多 货运 汽车 ， 甚 至 火车 ， 都 选择 乘 
船 到 大 连 ， 下 船 后 ， 和 车厢 用 火车 头 拉 走 ， 这 样 ， 在 增加 很 少 成 本 的 条 
件 下 ， 节 约 了 大 量 时 间 。 协 议 融 合同 样 遵循 这 个 原则 ， 只 要 能 使 总 体 
拥有 成 本 降低 ， 性 价 比 提高 ， 任 何 协议 都 可 以 融合 。 


13.4 ”协议 融合 的 三 种 方式 


协议 和 协议 之 间 的 相互 作用 ， 有 三 种 基本 的 思想 。 


第 一 种 是 调用 (Use) ， 也 就 是 一 种 协议 完全 利用 另 一 种 协 
议 。 

第 二 种 是 隧道 封装 (Tunnel) ， 一 种 协议 将 另 一 种 协议 的 完整 
数据 包 全 打包 隧道 封装 到 新 协议 数据 包 中 。 

第 三 种 是 映射 (Map) ， 人 也 就 是 一 种 协议 对 另 一 种 协议 进行 映 
射 翻译 ， 只 将 原来 协议 的 Payload 层 数据 提取 出 来 ， 重 新 打包 到 
新 协议 数据 包 中 。 


1。 调用 关系 


所 谓 调 用 ， 也 就 是 一 种 协议 自身 没有 某 些 功能 ， 需 要 使 用 另 一 种 
协议 提供 的 功能 。 比 如 TCP 调 用 IP， 因 为 TCP 没 有 和 寻 址 功能 ， 所 以 它 
利用 IP 来 寻 址 。 而 IP 又 可 以 调用 以 太 网 ， 因 为 IP 只 有 和 寻 址 功能 ， 它 没 
有 链 路 传输 的 功能 ， 所 以 它 利 用 以 太 网 提供 的 链 路 传输 (交换 机 、 
Hub 等 ) 。 卫 调用 PPP 来 传输 等 ， 也 就 是 上 层 协 议 为 了 达到 通信 目的 ， 
使 用 另 一 种 协议 为 其 服务 。 这 种 关系 严格 来 说 ， 不 算是 融合 。 


2。 隧 道 关系 


隧道 封装 ， 顾 名 思 义 ， 就 是 将 一 种 协议 的 完整 数据 包 (包括 
Payload 和 协议 开销 ) 作为 另 一 种 协议 的 Payload 来 进行 封装 ， 打 包 传输 
到 目 内 池 。 然 万 解 开外 司 协 议 的 天 各 信息 > 人才 四 由 部 补 到 溢 志 承 载 的 协 

议 完 整数 据 包 ， 再 提交 给 内 层 协 议 处 理 逻 辑 模块 进行 处 理 。 也 就 是 
人 
西 ， 到 底 想 要 干什么 ， 只 要 将 数据 包 统 统 打 包 发 出 去 。Tunnel 的 出 
现 ， 往 往 是 由 于 被 Tunnel 的 协议 虽然 和 外 层 协 议 都 在 某 一 方面 具有 相 
似 甚至 相同 的 功能 ， 但 是 在 某 些 特定 的 条 件 下 ， 被 Tunnel 协 议 不 比 外 
层 协 议 表 现 得 优秀 ， 不 适合 某 种 特定 的 环境 ， 而 这 种 环境 ， 恰 恰 被 外 
层 协 议 所 适合 。 这 就 像 用 船 来 装 火车 箱 一 样 。Tunnel 的 另 一 个 目的 是 
伪 冯 内 层 协 议 。 


3。 了 映射 关系 


Map 是 比 Tunnel 更 复杂 、 更 彻底 的 协议 融合 方式 。 所 谓 Map， 也 就 
是 上 映射， 就 是 将 内 层 协 议 的 部 分 或 者 全 部 逻辑 ， 映 射 翻译 到 外 层 协 议 


对 应 的 功能 相似 的 逻辑 上 ， 而 不 是 仪 仅 做 简单 的 封装 。Map 相 对 于 
Tunnel， 是 内 外 层 协议 的 一 种 最 彻底 的 融合 ， 它 将 两 种 协议 的 优点 ， 
融合 得 天 衣 无 缝 。 内 层 协 议 的 Payload 层 在 Map 动 作 中 是 不 会 改动 的 ， 
因为 Payload 层 的 数据 只 有 两 端 通信 的 应 用 程序 才能 理解 。 


13.5 Tunnel 和 Map 融 合 方式 各 论 


例如 火车 、 汽 车 是 两 种 运输 工具 ， 它 们 看 似 有 太 多 的 不 同 ， 但 是 
它们 的 功能 都 是 相同 的 ， 都 是 将 货物 运送 到 目的 地 。 而 火车 需要 在 铁 
道上 跑 ， 但 汽车 需要 在 公路 上 跑 (物理 层 不 同 ， 链 路 层 不 同 ) ; 火车 
因为 铁轨 很 平滑 ， 需 要 用 钢铁 轮子 ， 而 汽车 因为 公路 很 匡 艇 ， 需 要 用 
充气 轮胎 ; 火车 不 需要 红绿灯 来 制约 ， 而 汽车 在 公路 跑 上 ， 会 有 很 多 
红绿灯 来 制约 它 ; 火车 由 于 跑 在 专用 的 铁轨 上 ， 所 以 它 能 达到 很 高 的 
时 速 ， 而 汽车 由 于 在 共享 的 公路 上 跑 ， 它 能 ， 但 是 不 敢 达 到 太 高 的 时 
速 ; 火车 只 能 按照 它 的 轨道 来 运行 ， 而 汽车 几乎 随处 可 去 .……. 


以 上 列举 出 了 火车 和 汽车 的 种 种 特点 ， 相 应 地 飞机、 轮船 、 火 箭 
等 都 可 以 拿 来 对 比 ， 这 些 特点 就 像 各 种 通信 协议 自身 的 特点 一 样 。 同 
样 都 是 运输 货物 ， 但 是 它们 都 适应 了 不 同 的 需要 。 只 不 过 网 络 通信 协 
议 运 输 的 不 是 货物 ， 而 是 一 串 0 和 1， 是 高 低 变 化 的 电 平 ， 是 数据 ， 是 
信息 。 不 同 的 通信 协议 同样 也 是 为 了 满足 不 同 的 情况 、 不 同 的 需求 。 
TCP/IP 协 议 满足 了 Intemet 范 围 的 网 络 通 信 ; FC 协议 满足 了 后 端 存 储 的 
专用 高 速 公路 这 个 环境 ， 二 者 都 各 自 占 有 自己 的 领地 ， 谁 也 取代 不 了 
谁 。 就 像 铁路 不 可 能 为 了 和 民航 竞争 ， 而 把 轨道 往 天 上 修 ， 航 空 公司 
也 不 可 能 为 了 和 陆运 公司 竞争 ， 而 让 飞机 跑 在 公路 上 。 


TCP/IP 适 合 整 个 Internet 范 围 的 通信 ， 而 SCSI 协 议 不 适合 ， 所 以 如 
果 SCSI 协 议 需要 跨越 大 荡 围 通信 ， 就 要 将 其 承载 天 TCP/IP 上 ， 也 就 形 


成 了 iSCSI 协议 ， 然 而 TCP/ 耻 根本 就 不 关心 什么 是 SCSI， 更 不 知道 
SCSI 是 怎样 一 种 作用 逻辑 ， 它 只 是 负责 封装 并 传输 。 同 样 ， 因 为 以 太 
网 是 个 面向 无 连接 的 网 络 ， 没 有 握手 过 程 ， 也 没有 必要 有 终端 认证 机 
制 、 没 有 NCP 机 制 (PPP 协 议 中 用 来 协商 上 层 协 议 参 数 的 机 制 ) ， 而 
PPP 却 有 这 些 机 制 ， 它 非常 适合 ISP 用 来 对 接 入 终端 进行 认证 和 管理 ， 
但 是 PPP 的 使 用 程度 远 远 不 如 以 太 网 广泛 ， 怎 么 办 ? 融合 吧 ! 于 是 形 
成 了 PPPoE 协 议 。 


13.5.1 _ Tunnel 方式 


ISCSI 和 PPPoE 这 两 个 协议 ， 是 典型 的 Tunnel 模 式 。 前 面 已 经 给 
Tunnel 下 过 定义 了 。 首 先 一 种 PoP 的 模式 被 定义 为 Tunnel 的 前 提 ， 就 是 
这 两 种 协议 对 某 一 特定 的 功能 均 有 自己 的 实现 。 如 果 一 种 协议 在 某 方 
面 的 功能 ， 另 一 种 协议 没有 实现 ， 那 么 另 一 种 协议 就 是 * 调 用 ” 那 种 协 
议 ， 而 不 是 被 Tunnel 到 那 种 协议 。 比 如 ，IPoE 就 是 典型 的 调用 ， 而 不 
是 Tunnel 或 者 Map， 因 为 IP 没 有 链 路 层 功 能 。 


注意 : IP 与 Ethernet 之 间 的 编 址 逻辑 是 映射 关系 而 不 是 使 用 关 
系 ， 即 IP 地 址 与 MAC 地 址 的 相互 映射 。 


用 iSCSI 来 分 析 ，TCP/P 可 以 实现 寻 址 和 传输 保障 ，SCSI 协 议 也 可 
以 实现 寻 址 和 传输 保障 ， 所 以 它们 具备 了 这 个 前 提 ; 同样 ，PPPoE 也 
是 一 种 Tunnel 方 式 的 融合 协议 ， 因 为 PPP 和 Ethernet 都 是 链 路 层 协 议 。 


1。VPN 的 引入 


Tunnel 的 另 一 个 作用 ， 就 是 伪装 。 有 时 候 虽 然 两 种 协议 实现 的 功 
能 、 适 用 环境 都 相同 ， 但 还 是 将 其 中 一 种 Tunnel 到 另 一 种 之 上 ， 这 是 


为 什么 呢 ? 有 些 情况 确实 需要 这 种 实现 方式 。 比 如 IP 协 议 中 的 GRE， 
通用 路 由 封装 ， 就 是 这 样 一 种 协议 。 它 将 IP 协 议 承 载 到 IP 协 议 本 身 之 
上 ， 自 己 承载 自己 ， 再 封装 一 层 ， 这 样 就 可 以 使 得 一 些 不 能 在 公 网 路 
由 的 人 P 包 ， 封 装 到 可 以 在 公 网 路 由 的 IP 包 之 中 ， 到 达 目 的 地 后 再 解 开 
封装 ， 露 出 原来 的 IP 包 ， 再 次 路 由 。 这 就 是 伪装 。 


利用 这 种 思想 ， 人 们 设计 出 了 VPN， 即 Virtual Private Network， 
用 来 将 相隔 千里 的 两 个 内 部 网 络 ， 通 过 Internet 连 接 起 来 ， 两 端 就 像 在 
一 个 内 网 一 样 ， 经 过 Internet 的 时 候 ， 使 用 公 网 地 址 封装 内 网 的 也 包 。 
这 是 最 简单 的 VPN。 人 在 这 基础 上 ， 又 可 以 对 IP 包 进行 加 密 、 反 修改 
等 ， 形 成 IPSec 体系 ， 将 其 和 原始 的 VPN 结 合 ， 形 成 了 带 加 密 和 反 修 改 
的 IPSec VPN， 真 正 使 得 这 种 PoP 穿 越 外 层 协 议 的 时 候 ， 能 够 保障 数据 
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2。 例 解 Tunnel 


下 面 再 举 个 例子 来 说 明 ， 到 底 什么 是 Tunnel。 


邮政 系统 ， 目 前 已 经 是 举步维艰 。21 世 纪 之 前 ， 网 络 还 不 很 普 
及 ， 除 了 电话 、 电 报 ， 写 信 似 乎 是 大 家 长 距离 通信 的 唯一 选择 。 寄 信 
人 将 自己 的 信件 (数据 ，Payload) 装 入 信封 (协议 信息 表示 层 数 据 
段 ) ， 填 好 收 信人 地 址 、 邮 编 、 名 称 (通信 协议 的 信息 表示 层 、 寻 址 
层 ) 等 ， 交 给 邮局 (网 络 交 换 路 由 设备 ) ， 由 邮局 进行 层 层 路 由 转 
发 ， 最 终 到 达 目 的 地 。 


IP 网 络 和 邮政 系统 极其 相似 。 而 为 什么 邮政 系统 目前 已 经 陷入 了 
困境 呢 ? 原因 就 是 竞争 。 


进入 21 世 纪 之 后 ， 物 流 业 快 速 兴 起 ， 它 们 借助 公路 、 水 路 、 航 
路 、 铁 路 等 “ 链 路 层 "， 加 上 自己 的 一 套 流程 体系 (协议 交互 逻辑 ) ， 
充分 利用 这 些 资源 达到 物流 目的 。 以 前 只 有 邮政 一 种 方式 ， 而 现在 出 
现 了 许多 的 物流 公司 ， 每 个 公司 都 有 自己 不 同 的 物流 体系 ， 但 是 基本 
思想 大 同 小 异 ， 都 是 要 将 用 尸 的 货物 运送 到 目的 地 。 


21 世 纪 ， 虽 然 网 络 已 经 很 发 达 ， 但 是 网 络 只 能 走 信息 流 ， 走 不 了 
实物 流 。 所 以 物流 公司 还 是 能 占据 一 定 市 场 。 


提示 : 我 们 来 看 看 21 世 纪 ， 用 户 是 怎么 来 寄 出 一 封 信件 或 者 
包 裴 的。 同样 寄 出 一 封 信 ， 如 果 还 是 用 古老 的 协议 ， 比 如 信 
封 十 80 分 邮票 的 形式 ， 还 是 可 以 的 ， 大 街 上 现在 还 有 邮 简 。 
但 是 很 多 快递 公司 也 提供 信件 包 囊 服务， 只 不 过 他 们 用 的 信 
封 ， 比 普通 信封 大 、 结 实 ， 而 且 他 们 信封 上 的 标签 ， 所 包含 
的 信息 更 加 具体 和 丰富 ， 比 如 增加 了 收 件 人 电话 、 发 件 日 
期 、 受 理 人 签字 、 委 托 人 签字 等 。 邮 政信 封 具有 的 ， 快 递 信 
封 都 具有 。 


这 样 就 可 以 看 出 这 两 种 协议 的 不 同 之 处 了 。 用 户 可 以 把 信件 封装 
到 邮政 普通 信封 直接 发 送 ， 也 可 以 封装 到 快递 公司 信封 中 发 送 ， 也 就 
是 选用 其 中 一 种 协议 。 


那么 如 果 用 户 先 把 信件 (最 终 数据 ) 封装 到 普通 信封 中 ， 填 好 信 
封 头 信 息 (协议 信息 表示 层 和 寻 址 层 ) ， 然 后 将 封装 好 的 普通 信封 ， 
再 封装 到 快递 公司 的 信封 中 ， 并 再 次 填 一 份 快递 公司 的 信封 头 信息 ; 
快递 公司 按照 这 些 信息 ， 将 信件 送 到 目的 地 ， 目 的 收 到 之 后 ， 解 开外 
层 信封 ， 然 后 解读 内 层 信封 的 信息 头 ， 再 次 转发 ， 或 者 直接 打开 。 刚 
才 换 述 的 这 种 情况 ， 就 是 一 个 典型 的 协议 Tunnel 方 式 的 相互 作用 ， 把 


邮政 协议 Tunnel 到 快递 公司 的 协议 ， 这 种 Tunnel 的 目的 ， 就 是 为 了 获 
得 快速 、 优 质 的 服务 ， 因 为 普通 邮政 协议 提供 不 了 快速 高 效 的 服务 


思考 : 我 们 再 来 看 这 种 情况 ， 比 如 快递 公司 A， 在 北京 没 
目 己 的 送 货 机 构 ， 但 是 青鸟 有 人 需要 同 北 京 送 代 ， 怎 么 办 ? 


此 时 当然 要 考虑 借助 在 北京 有 送 货 机 构 的 快递 公司 B， 让 他 们 代 
送 ， 将 信件 封装 到 快递 公司 A 的 信封 ， 然 后 再 将 A 的 信封 装 入 快递 公司 
B 的 信封 ， 让 快递 公司 B 做 转发 ， 到 目的 地 之 后 ，B 的 送 货 员 剥 开外 层 
信封 ， 最 终 用 户 会 收 到 一 个 快递 公司 A 的 信封 ， 客 户 就 认为 是 快递 公 
司 A 全 程 护 送 过 来 的 ， 其 实 不 是 。 这 样 就 很 好 地 伪装 了 信件 。 这 是 
Tunnel 的 另 一 个 目的 。 


13.5.2” Map 方式 


说 完了 Tunnel， 我 们 再 来 说 说 Map。Map 就 是 将 一 ee 
翻译 映射 成 另 一 种 协议 的 逻辑 ，Payload 数 据 完全 不 变 ， 达 到 两 种 协议 
部 分 或 者 完全 融合 。 


还 是 快递 公司 的 例子 。 两 个 快递 公司 〈 两 种 协议 ) ， 快 递 公司 A 
在 青岛 没有 目 己 的 送 货 机 构 ， 但 是 B 有 。 所 以 A 和 B 达 成 协议 ，A 将 青 
岛 地 区 的 送 货 外 包 给 B， 凡 是 A 公司 在 青岛 的 业务 ， 都 由 B 来 运送 ， 但 
是 表面 上 必 这 种 方式 目前 实际 已 经 广泛 使 用 。 起 初 
的 做 法 是 : 先 将 客户 信件 装 入 A 信封 ， 然 后 再 封装 一 层 B 人 信封 ， 带 着 A 
言 封 来 转发 ， 起 就 是 Tinnels 2 B 公 司 嫌 这 种 方法 浪费 成 本 ， 因 为 
额外 携带 了 一 个 A 信封 ， 这 增加 了 信件 的 重量 和 信封 成 本 。 所 以 B 公 司 
琢磨 出 一 套 方法 : 


先 让 B 公 司 的 取 件 人 了 解 寄 件 人 所 要 提供 的 信息 ， 此 时 取 件 人 担 
当 A 公 司 的 角色 ， 用 户 认 为 取 件 人 是 A 公 司 的 ， 用 户 按 照 A 公 司 的 协 
议 ， 将 信封 头 信息 告诉 取 件 人 ; 然后 取 件 人 此 时 并 没有 将 信件 装 入 A 
公司 信封 ， 而 是 直接 闭 入 了 B 公 司 信封 ， 但 是 在 填写 B 公 司 信封 头 的 时 
候 ， 取 件 人 将 用 户 提供 的 针对 A 公司 特有 的 信封 头 信 息 ， 转 换 翻译 成 B 
公司 特有 的 信封 头 信息 ; 经 过 B 公 司 转发 ， 到 达 目 的 地 之 后 ， 送 货 员 
再 次 将 B 公 司 的 信封 头 信 息 ， 转 换 翻译 成 A 公司 所 特有 的 信封 头 信息 。 


这 样 ， 两 端的 用 户 ， 同 样 也 丝毫 感觉 不 出 中 间 环 节 其 实 是 B 公 司 
完成 的 。 但 是 这 种 方式 相对 于 Tunnel] 方 式 的 确 节约 了 B 公 司 的 成 本 ， 使 
得 开销 变 小 了 ， 提 高 了 转发 效率 。 这 种 方式 的 协议 之 间 的 相互 作用 ， 
就 是 Map。 


1。IP 和 以 太 网 之 间 的 寻 址 关系 Map 


最 简单 的 Map 融 是 IP 和 以 太 网 之 间 的 寻 址 关系 Map。 卫 地址 必须 映 
射 到 MAC 地 址 ， 才 能 享受 以 太 网 的 服务 。 正 如 IP 和 以 太 网 之 间 的 Use 
十 Map 关 系 一 样 ， 实 际 上 ， 各 种 协议 之 间 的 相互 作用 ， 不 可 能 只 是 其 
中 一 种 作用 方式 : 寻 址 体系 之 间 一 定 需要 Map ( 同 种 协议 自身 Tunnel 
的 情况 除外 ) ， 交 互 逻辑 层 可 以 Tunnel， 也 可 以 Map，Payload 一 定 需 
要 Tunnel。 所 以 针对 协议 不 同 的 层次 ， 都 有 相对 应 的 相互 作用 方式 。 


2. 协议 交互 逻辑 的 Map 
协议 交互 逻辑 的 Map， 比 寻 址 层 的 Map 要 复杂 得 多 。 寻 址 层 的 Map 


只 要 维护 一 张 映射 表 就 可 以 ， 交 互 逻辑 的 Map 则 需要 维护 一 个 代码 转 
换 人 逻辑 模块 。 


两 种 协议 的 状态 机 的 互相 融合 作用 是 很 复杂 的 。 比 如 TCP 的 流 控 
机 制 和 FC 协 议 的 流 控 机 制 之 间 的 Map ，TCP 是 靠 窗 口 机 制 实现 端 到 端 
的 流 控 ，FC 靠 Buffer to Buffer (过 路 流 控 ) 和 End to End 〈 端 到 端 流 
控 ) 两 种 机 制 实现 流 控 。 如 果 把 FC 协 议 承 载 到 ITCP/P 协 议 之 上 ， 那 么 
就 会 出 现 Tunnel 模 式 和 Map 模 式 ， 当 然 Tunnel 中 也 可 能 需要 Map ，Map 
中 也 同样 需要 一 定 的 Tunnel 成 分 。 


我 们 不 妨 称 作 : 以 Tunnel 为 主 的 模式 和 以 Map 为 主 的 模式 。 


如 果 是 Tunnel 为 主 的 模式 ， 那 么 TCP/IP 根 本 不 管 FC 协 议 的 交互 逻 
辑 是 怎样 的 ，TCP 仅 仅 把 FC 当 成 Payload 来 封装 并 传送 。 


而 Map 模 式 中 ， 进 行 Map 操 作 的 设备 或 者 软件 ， 就 需要 既 了 解 
TCP/P 协 议 的 交互 逻辑 ， 又 了 解 FC 协 议 的 交互 逻辑 ， 因 为 只 有 了 解 了 
双方 的 逻辑 ， 才 有 可 能 进行 Map。 比 如 ，FC 协 议 发 出 了 一 个 信号 ， 说 
本 方 缓存 将 满 ， 请 降低 发 送 速度 。Map 设 备 收 到 这 个 信号 之 后 ， 就 会 
Map 成 TCP/IP 可 识别 的 信号 ， 即 本 方 处 理 受 阻 ， 窗 口 减 小 至 某 某 数 
值 ， 这 就 是 FC 协议 到 TCP/IP 协 议 关 于 流 探 机制 Map 的 一 个 方法 。 


如 果 在 Tunnel 模 式 中 ，FC 协 议 发 出 的 这 个 流 控 信号 ， 则 会 被 
TCP/IP 给 Tunnel 传 送 到 对 方 ， 然 后 再 由 对 方 的 FC 协议 模块 来 根据 这 个 
言 号 来 判断 流 控 机 制 应 该 做 出 的 动作 ， 动 态 调整 发 送 速 率 。 


注意 : 这 个 信号 是 直接 原封 不 动 地 被 传送 到 FC 协议 的 对 端 处 
理 机 上 处 理 ， 而 不 是 像 Map 模 式 中 在 本 地 就 终结 了 FC 逻辑 。 
Tunnel 模 式 中 ，TCP/IP 不 参与 任何 FC 协议 内 部 的 逻辑 。 


除了 FC 流 控 逻辑 的 上 映射， 其 他 Flogin 登 录 机 制 、 连 接 机 制 等 映 
射 ， 也 都 有 自己 的 实现 。 比 如 ，FC 发 起 一 个 Plogin 过 程 ， 那 么 Map 设 


备 可 以 Map 到 TCP/IP 的 一 个 握手 过 程 等 。 


提示 : Tunnel 和 Map 这 两 种 模式 ， 在 第 8 章 还 有 一 个 将 FC AL 
的 环 接 入 FC Fabric 中 的 例子 。 


13.6 ”FC 与 IP 协 议 之 间 的 融合 


哗啦 ...... ， 早 晨 的 微风 把 IP 吹 醒 。 原 来 IP 做 了 一 场 美梦 。 根 据 梦 
中 的 指示 ，IP 鬼 使 神 差 地 将 FC 协议 映射 到 了 IP 上 。 并 做 了 两 种 模式 ， 
一 种 是 以 Tunnel 为 主 的 模式 ， 称 做 FCIP; 另 一 种 是 以 Map 为 主 的 模 
式 ， 称 做 IFCP。 


在 FCIP 模 式 中 ， 通 信 的 双方 各 增加 一 个 FCIP 网 关 ， 任 何 FC 协 议 的 
逻辑 ， 哪 怕 是 一 个 小 小 的 ACK 帧 ， 都 需要 封装 到 TCP/IP 协 议 中 传输 。 
两 端的 FC 协议 处 理 机 不 会 感知 到 中 间 TCP/IP 的 存在 ， 它 们 认为 对 方 就 
是 一 个 纯粹 的 FC 设备 。 


在 IFCP 模 式 中 ， 通 信 的 双方 各 增加 一 个 IFCP 网 关 ， 作 为 协议 转换 
设备 使 用 。IFCP GW 将 FC 协议 终止 在 本 地 ， 提 取 Payload 数 据 ， 对 外 以 
TCP/ 了 设备 的 形式 出 现 并 传输 数据 ， 到 达 对 方 之 后 ， 对 方 的 IFCP GW 
再 从 IP 包 中 提取 出 Payload， 然 后 将 其 封装 到 FC 帧 中 ， 对 其 内 部 以 FC 
设备 的 形式 出 现 。 通 信和 双方 中 间 的 TCP/IP 协 议 ， 将 大 部 分 或 者 全 部 FC 
的 逻辑 都 映射 成 TCP/IP 的 逻辑 。 


比如 每 当 一 个 FC 设备 需要 和 远 端的 FC 设备 通信 ， 发 起 Plogin， 那 
么 IFCP GW 就 向 对 方 建立 一 条 TCP 连 接 ， 用 多 条 TCP 连 接 和 不 同 的 IP 
地 址 来 区 分 不 同 的 FC 设备 。 上 此外， 还 需要 保存 一 个 TCP 端 口 或 者 IP 地 
址 对 FC 设备 24b 的 Fabric 地 址 的 映射 表 。 如 果 两 端的 FC 设备 的 ID 有 冲 


突 ， 这 个 映射 表 还 需要 考虑 NAT， 将 地 址 翻译 成 其 他 ID。 相 对 于 
IFCP，FCIP 协 议 则 不 能 识别 FC 的 逻辑 ， 因 为 它 只 是 Tunnel， 如 果 两 端 
Fabric 中 有 ID 冲突 的 ， 那 么 也 只 能 冲突 着 了 。 


至 此 ，FC 协 议 终 于 可 以 享受 TCP/IP 带 来 的 扩展 性 了 ，FC 搭 上 了 
TCP/IP 的 车 ， 远 隔 千 里 都 可 以 跑 上 FC 协议 了 。1IP 大 获 成 功 ! IP 和 FC 
从 此 握手 言 和 ! 


伟大 的 SCSI 协 议 


可 以 说 整个 网 络 存储 系统 ， 都 起 源 于 一 个 协议 体系 ， 这 个 协议 体 
系 就 是 SCSI 协 议 。 网 络 存储 的 任何 内 容 ， 最 终 都 是 为 了 将 这 个 协议 体 
系 发 扬 光 大 。 人 们 将 这 个 协议 强行 划分 解体 成 了 多 个 层次 ， 然 后 把 它 
的 最 上 面 的 几 层 ， 与 另 一 个 协议 体系 Fabre Channel 协 议 的 下 几 层 
进行 融合 ， 形 成 了 FCP 协 议 ， 这 种 协议 目前 运行 在 各 个 厂家 的 高 端 磁 
盘 阵列 上 。 曾 经 一 度 时 间 ， 以 太 网 甚至 也 看 好 了 SCSI 协 议 ， 想 与 其 融 
合成 所 谓 的 “ESCSP 协 议 ， 但 结果 没有 成 功 。 以 太 网 失败 之 后 ， 它 的 
好 兄弟 IP 接 着 跟 上 ， 最 终 成 功 地 与 SCSI 协 议 进 行 了 融合 ， 生 成 了 ISCSI 
协议 ， 目 前 也 被 广泛 应 用 于 一 些 低 端 盘 阵 。 


为 何不 是 IATA 或 者 FATA 呢 ? 原因 就 是 因为 SCSI 协 议 体 系 本 身 就 
比 ATA 协 议 体 系 高 效 并 且 功 能 强大 ， 此 外 ，SCSI 的 硬盘 性 能 也 普遍 比 
ATA 硬 盘 转 速 快 ， 性 能 高 ， 用 于 服务 器 系统 ， 所 以 SCSI 当 然 是 首选 
了 。 另 外 ， 一 个 巴掌 拍 不 响 ，SCSI 协 议 本 身 就 想 把 自己 给 < 嫁 ”出 去 ， 
因为 它 很 早 就 已 经 迫不及待 地 将 自己 分 成 了 很 多 层次 ， 来 吸引 其 他 协 
Ws 


协议 融合 的 结果 ， 就 形成 了 目前 形形色色 的 网 络 存储 世界 ， 各 种 
融合 协议 、 各 种 产品 、 各 种 解决 方案 ， 好 不 热闹 ! 而 原本 的 SCSI 协 
议 ， 除 了 一 些 磁带 机 以 及 主机 本 机 硬盘 外 ， 已 经 不 再 使 用 。SCSI 融 合 
入 了 各 种 协议 中 ， 它 无 处 不 在 ， 昌 然 它 的 躯体 已 经 是 七 零 八 沙 ， 但 是 
它 的 精深 思想 ， 以 及 为 技术 而 献身 的 精神 ， 将 在 形形色色 的 技术 中 永 
放 光 辫 ! 


13.7 无 处 不 在 的 协议 融合 


之 所 以 提出 “协议 融合 ”这 个 名 词 ， 而 不 是 “协议 映射 "或 者 “协议 隧 
道 "， 是 因为 “融合 ”这 个 词 更 加 通俗 易 懂 ; 另外 ， 也 更 加 具有 生物 学 色 
彩 。 计 算 机 就 是 人 类 所 创造 的 另 一 种 形式 的 “生物 *"， 人 类 就 是 计算 机 
的 上 帝 。 


1. 协议 融合 和 基因 融合 


分 子 生物 学 家 们 将 不 同 功能 的 基因 段 整合 到 一 起 ， 再 用 核糖 体 蛋 
白 机 器 读 取 其 代码 ， 表 达成 肽 链 ， 然 后 折 区 成 三 维 结构 的 新 功能 蛋白 
质 分 子 ， 比 如 抗 冻 小 麦 、 发 光 的 白鼠 等 。 这 就 是 基因 融合 。 这 个 过 程 
与 协议 融合 类 似 。 


协议 融合 是 无 处 不 在 的 ， 正 如 不 同 快递 公司 之 间 的 合作 一 样 。 甚 
至 连 劳动 合同 方面 都 出 现 了 融合 ， 劳 务 派 遗 公司 与 劳动 者 签订 合同 ， 
然后 将 劳动 者 输送 到 用 工 单 位 工作 ， 用 工 单位 不 必 维 护 人 事 系统 ， 将 
人 事 系统 外 包 给 劳务 派 遗 公司 。 


2. 航空 公司 的 协议 融合 


目前 ， 国 际 上 大 多 数 的 大 型 航空 公司 都 利用 IBM 或 者 Unisys 的 大 
型 机 系统 作为 订 票 和 离 港 系统 的 处 理 机 。 世 界 各 地 的 售票 和 离 港 终端 
都 通过 某 种 网 络 系统 与 大 型 机 连接 并 且 通 信 。 航 空 业 的 大 型 机 与 终端 
通信 协议 也 经 历 了 纯 种 和 融合 阶段 。 


IBM 利 用 ALC 协 议 与 其 终端 通信 ，Unisys 主 机 则 通过 UTS 协 议 与 
其 终端 通信 。 但 是 随 着 IP 网 络 的 成 本 不 断 降 低 ， 质 量 不 断 提 高 ，UTS 
和 ALC 这 两 种 古老 的 纯 种 协议 ， 不 得 不 考虑 将 自己 嫁 给 IP 网 络 ， 从 而 
出 现 了 MATIP 协 议 ， 也 就 是 将 这 些 协 议 承 载 于 IP 之 上 。 Cisco 公 司 也 为 
纹 空 业 专门 开发 了 这 种 融合 协议 ， 称 为 ALPS 协 议 。 然 而 ALPS 最 终 没 
有 成 为 RFC 标 准 ， 而 MATIP 协 议 ， 却 最 终 登 上 了 RFC 宝 座 。MATIP 协 
议 的 文本 可 以 查看 RFC2153。 


13.8 ”交叉 融合 


提示 : 在 本 书写 作 之 时 ，FCoE 这 个 由 FCP 与 以 太 网 结 姻 所 产 
生 的 融合 协议 ， 正 在 被 一 些 厂 商 炒作 得 沸沸扬扬 。FC 协 议 与 
SCSI 协 议 融合 之 后 形成 FCP 协 议 ， 而 FCP 协 议 又 与 Ethernet 融 
合 形成 FCoE 协 议 。 


如 图 13-2 所 示 为 协议 融合 树 。 


从 图 13-2 可 以 看 到 ，FCP 协 议 与 卫 协 议 融 合 的 后 代 是 双胞胎 。 各 种 
协议 之 间 相 互 融合 ， 甚 至 产生 了 交叉 ， 但 是 一 切 融合 都 是 为 了 更 好 地 
适合 市 场 需求 。 


图 13-2 ”协议 融合 树 


提示 : 另外 ， 由 于 IP 网 络 的 大 肆 普 及 ， 众 多 的 协议 动 辆 就 要 
非 IP 不 嫁 ， 而 耻 和 以 太 网 绝对 是 铁 哥 们 儿 ， 所 以 以 太 网 也 借 
PP 的 光 ， 就 赁 着 自己 仅仅 1Gb/s 的 带宽 到 处 招摇 撞 骗 ， 这 不 ， 
成 功 地 把 比 它 多 3Gb/s 带 宽 的 FCP 协 议 给 忽悠 过 来 了 。 不 过 以 
太 网 也 在 潜心 修炼 ， 等 练 成 出 关 之 后 ， 其 10Gb/s 的 速率 ， 将 
会 让 人 望 而 生 蝴 ， 但 愿 那 时 候 以 太 网 统一 天 下 1! 


13.9 ”IFCP 和 FCIP 的 具体 实现 


上 面 说 到 IP 根 据 网 络 通信 协议 之 间 的 相互 作用 ， 成 功 地 将 FC 协议 
和 和 TCP/IP 协 议 进行 了 融合 ， 生 成 了 一 种 FCIP 的 Tunnel 协 议和 一 种 IFCP 
的 Map 协 议 。 


蓝图 有 了 ， 那 么 具体 怎么 来 将 其 实现 呢 ? 我 们 知道 ， 不 管 是 FCIP 
的 简单 Tunnel 模 式 ， 还 是 IFCP 的 复杂 Map 模 式 ， 进 行 这 种 PoP 操 作 的 角 
色 , 一 定 是 一 端面 对 FC 协议 的 网 络 ， 另 一 端面 对 TCP/IP 协 议 的 网 络 。 


1. 协议 转换 器 


同时 面 对 多 种 协议 ， 并 在 多 种 协议 之 间 实 现 相互 融合 、 相 互 转换 
的 设备 ， 就 称 做 协议 转换 器 。 如 果 这 个 转换 器 只 是 起 到 一 个 桥 联 的 作 
用 ， 只 在 一 条 链 路 上 串联 ， 那 么 就 称 其 为 协议 桥接 器 。 如 果 这 种 转换 
器 ， 不 但 要 实现 单条 链 路 上 的 协议 转换 工作 ， 而 且 还 需要 实现 一 些 转 
发 动作 ， 即 在 多 条 链 路 、 多 个 网 络 之 间 互 相 转 发 数据 ， 则 可 以 称 其 为 
协议 路 由 转换 器 。 如 果 某 种 协议 路 由 器 可 以 实现 多 于 两 种 协议 的 网 络 
互联 ， 则 称 其 为 多 协议 路 由 转换 器 ， 因 为 它 能 在 多 种 协议 之 间 互 相 转 
换 并 做 路 由 转发 。 


SAN 要 想 获 得 扩展 性 ， 即 要 想 将 相隔 两 地 很 远 的 两 个 SAN 网 络 通 
过 IFCP 或 者 FCIP 连 接 起 来 ， 就 必须 在 双方 的 SAN 系 统 前 端 各 增加 一 个 
协议 转换 设备 ， 这 个 设备 后 端 连接 各 自 的 SAN， 前 端 连 接 IP 网 络 ， 在 
广域网 络 上 运行 FCIP 或 者 IFCP 协 议 通 信 ， 达 到 协议 转换 的 目的 。 


两 个 独立 的 系统 连接 起 来 ， 就 涉及 了 两 种 情况 。 


第 一 种 : 两 个 系统 连接 之 后 ， 在 逻辑 上 还 是 独立 的 ， 即 一 个 系 
统 不 影响 另 一 个 系统 ， 但 是 它们 之 间 可 以 通过 协议 转换 设备 来 
通信 。 

第 二 种 : 两 个 系统 融合 成 一 个 大 的 系统 ， 逻 辑 上 是 一 体 的， 只 
不 过 相处 两 地 ， 之 间 用 协议 转换 设备 连接 。 就 像 以 太 网 络 一 
样 ， 如 果 用 光 绩 将 两 地 的 两 个 局 域 网 直接 连接 起 来 ， 两 地 的 系 
统 同 在 一 个 广播 域 中 ， 这 样 就 相当 于 把 两 个 系统 融合 起 来 了 。 


但 是 如 果 两 地 各 自 接 一 个 IP 路 由 器 ， 广 域 网 链 路 上 承载 的 是 基于 
广 域 链 路 协议 之 上 的 IP 包 ， 那 么 两 地 的 局 域 网 就 没有 被 融合 ， 只 是 5 
以 相互 通信 而 已 。 


提示 : 有 的 时 候 ， 两 地 的 系统 必须 融合 ， 而 有 的 时 候 ， 不 需 
要 融合 。 是 否 融 合 ， 需 要 看 最 终 的 需求 。 所 以 协议 转换 设备 
也 必须 能 够 处 理 这 两 种 情况 。 对 于 需要 融合 的 情况 ， 协 议 转 
换 设 备 不 需 对 两 端的 SAN 逻 辑 做 任何 附加 处 理 ， 而 只 需要 将 
两 端的 逻辑 Tunnel 或 者 Map 到 广域网 协议 上 就 可 以 了 ; 而 对 
于 不 需要 融合 的 情况 ， 协 议 转 换 设 备 就 需要 对 两 端 系 统 的 逻 
辑 做 一 系列 的 处 理 、 屏 淫 、 虚 拟 和 欺骗 了 。 


2. TCP/IP 和 以 太 网 络 实例 解析 


我 们 不 妨 拿 TCP/IP 和 以 太 网 络 来 做 一 个 例子 。 


假如 一 个 公司 ， 在 a 地 和 b 地 ， 分 别 有 一 个 办 事 处 ， 每 个 办 事 处 有 
一 台 以 太 网 交换 机 ， 上 面 各 连接 了 几 台 终端 。 现 在 为 了 业务 资源 共 
享 ， 公 司 决定 将 两 地 的 网 络 融合 起 来 。 公 司 向 ISP 申 请 了 一 条 2Mb/s 的 
E1 专 线 〈 当 然 也 可 以 申请 Internet 线 路 ， 两 端 都 接 入 Internet， 然 后 做 
L2VPN 或 者 L3VPN) 。 


公司 有 两 种 选择 方案 。 


一 种 是 直接 用 这 条 专线 把 两 地 的 交换 机 连接 起 来 ， 在 这 条 线路 上 
直接 承载 以 太 网 帧 。 


另 一 种 选择 就 是 两 端 各 加 一 个 路 由 器 ， 隅 离 两 边 的 局 域 网 ， 但 是 
保持 它们 之 间 的 通信 。 


这 个 公司 最 终 选择 了 后 一 种 方案 ， 原 因 就 是 为 了 保持 双方 的 独立 
性 ， 同 时 保证 性 能 。 因 为 毕竟 是 两 个 办 事 处 ， 如 果 彻 底 进 行 融合 ， 不 
但 不 安全 ， 也 不 利于 扩展 ， 而 且 容易 造成 广域网 流量 太 大 ， 因 为 彻底 
融合 之 后 ， 以 太 网 广播 就 要 跨 广 域 网 来 互相 传递 ， 这 无 疑 是 浪费 资源 
的 。 在 隔离 的 基础 上 ， 同 样 能 够 保持 双方 无 障碍 的 相互 通信 ， 只 是 不 
能 像 在 一 个 局 域 网 内 那样 直接 利用 MAC 来 点 对 点 通信 。 如 果 a 地 某 个 
节点 需要 和 b 地 某 个 节点 通信 ，a 地 的 这 个 节点 需要 先 把 数据 发 给 a 地 的 
路 由 器 ， 也 就 是 网 关 设 备 ， 然 后 让 网 关 来 转发 给 b 地 。 虽 然 增加 了 一 层 
操作 ， 但 是 这 样 做 的 可 扩展 性 、 可 管理 性 都 增强 了 。 在 路 由 器 上 可 以 
做 访问 控制 、 地 址 转换 、QOS、 策 略 路 由 等 基于 IP 甚 至 TCP 层 次 的 个 
性 化 动作 。 如 果 是 直接 局 域 网 融合 ， 则 这 些 特 性 都 不 能 实现 。 


3。SAN 系 统 实例 解析 


再 来 看 SAN 的 情况 。 还 是 这 个 公司 ，a 地 和 Pb 地 各 有 一 个 SAN 系 
统 。 为 了 实现 存储 资源 直接 共享 ， 公 司 决定 将 这 两 个 AN 联通 起 来 。 
同样 也 存在 两 种 情况 ， 即 彻底 融合 或 者 相对 独立 的 连通 。 


如 果 是 彻底 融合 的 话 ， 那 么 广域网 链 路 就 完全 相当 于 一 条 ISL 链 
， 只 不 过 通信 协议 可 能 是 FCIP 或 者 IFCP 协 议 。 


对 于 FCIP， 任 何 FC 帧 都 将 被 透明 地 传递 。 对 于 IFCP， 一 部 分 FC 
帧 会 被 屏 菩 或 者 MAP。 但 是 这 些 被 屏 浅 或 者 MAP 的 帧 ， 都 是 和 底层 通 
信 有 关 的 ， 而 上 层 逻 辑 性 质 的 帧 ，IFCP 也 需要 透 传 到 对 端 。 


这 些 业 务 逻 辑 性 质 的 帧 ， 比 如 RSCN 帧 ， 用 来 传递 Fabric 网 络 中 的 
重要 变化 信息 给 已 经 注册 了 这 项 服务 的 节点 ; 再 比如 Plogin、 Process 
Login 等 这 些 都 是 业务 逻辑 性 质 的 ， 和 底层 通信 无 关 。 


彻底 融合 之 后 ， 两 个 SAN 系 统 就 融合 为 了 一 个 系统 ， 那 么 这 个 系 
统 就 会 有 一 个 主 交换 机 。 主 交换 机 为 系统 中 其 他 交换 机 分 配 域 ID， 并 
且 两 个 交换 机 之 间 需 要 运行 FSPF 路 由 协议 ， 不 停 地 发 送 一 些 路 由 控制 
帧 ， 再 加 上 主 交 换 机 选举 时 产生 的 帧 ， 主 交换 机 失败 时 ， 整 个 Fabric 
的 重建 过 程 中 每 个 交换 机 发 出 的 各 种 帧 都 需要 经 过 广域网 链 路 进行 传 
过 。 

不 但 这 些 帧 要 占用 广域网 带宽 ， 而 且 一 旦 主 交 换 机 发 生 故 障 ， 那 


么 对 方 的 SAN 系 统 会 进行 Rebuild， 包 括 重 新 选举 主 交换 机 、 重 新 建立 
路 由 表 等 ， 这 个 过 程 中 ，IO 就 会 暂时 中 断 。 


注意 : 由 于 广域网 链 路 速度 相对 慢 ， 稳 定性 相对 差 ， 所 以 一 
旦 这 条 链 路 发 生 不 稳定 的 振荡 ， 那 么 就 会 造成 主 交 换 机 重新 


选举 。 如 果 链 路 频繁 内 断 的 话 ， 那 么 两 端的 SAN 系 统 根本 无 
法 正常 工作 。 


所 以 说 ， 两 地 SAN 系 统 彻底 融合 的 话 ， 一 旦 某 地 的 系统 故障 ， 融 
会 影响 到 另 一 个 系统 的 正常 运行 ， 而 且 要 占用 额外 多 的 宝贵 的 广域网 
资源 。 由 于 访问 存储 资产 对 性 能 和 延迟 要 求 较 高 ， 所 以 彻底 融合 两 个 
SAN， 最 好 只 在 局 域 网 内 进行 ， 交 换 机 间 的 链 路 最 好 是 裸 光缆 或 者 高 
速 链 路 ， 否 则 最 好 采用 另外 一 种 融合 方式 ， 即 逻辑 独立 、 全 局 连通 的 
融合 方式 。 


13.10 局 部 隔离 /全 局 共享 的 存储 网 络 


将 SAN 系 统 彻底 融合 ， 扩 展 性 差 、 管 理性 差 ， 而 且 耗 费 广 域 网 链 
路 资源 。 所 以 这 个 公司 同样 也 选择 了 相对 独立 的 连通 方式 。 下 面 来 看 
一 下 相对 独立 的 融合 到 底 是 个 什么 概念 ， 它 的 作用 机 制 是 怎样 的 。 


“a 地 的 SAN 交 换 机 (E 端 口 ) 一 a 地 协议 转换 器 一 广域网 链 路 一 b 地 
协议 转换 器 一 〈E 端 口 ) b 地 SAN 交 换 机 ”这 种 拓扑 不 管 是 彻底 融合 
还 是 独立 融合 都 一 样 ， 只 不 过 协议 转换 器 在 两 种 方式 下 所 做 的 工作 不 
一 样 。 彻 底 融合 方案 中 ， 协 议 转换 指 Tunnel 或 者 Map 通 信 底 层 的 协议 
逻辑 ， 而 不 管 上 层 业 务 逻 辑 ， 也 就 是 只 要 从 丰 端口 收 到 了 帧 ， 协 转 就 
将 其 Tunnel 或 者 Map 到 IP 协 议 中 发 送 给 对 端 。 而 相对 独立 的 融合 ， 不 但 
要 Tunnel 或 者 Map 底 层 协 议 逻 辑 帧 ， 它 还 要 理解 FC 的 上 层 逻 辑 ， 做 到 
“报喜 不 报 忧 ”。 


独立 融合 /全 局 共享 


所 谓 独 立 融 合 ， 就 是 说 两 端的 SAN 系 统 都 可 以 独立 运作 ， 而 不 依 
靠 另 一 方 ， 或 者 受 另 一 方 的 影响 。 这 样 就 不 能 像 彻 底 融 合 那样 一 端 为 
主 交换 机 ， 一 端 为 非 主 交换 机 ， 而 要 让 两 端 独立 起 来 。 由 于 两 端的 
Fabric 中 都 各 自 只 有 一 台 SAN 交 换 机 ， 所 以 两 端的 SAN 交 换 机 都 是 主 
交换 机 ， 各 自 为 政 。 


既然 这 样 ， 怎 样 和 对 方 的 SAN 进 行 通信 呢 ? 协议 路 由 器 自 有 其 招 
数 。 协 议 路 由 器 与 AN 交换机 之 间 通 过 E 端 口 连 接 ， 它 欺骗 两 端 SAN 
交换 机 ， 让 交换 机 认为 它 正 在 连接 着 另 一 台 交 换 机 ， 而 这 个 由 协议 转 
换 器 虚拟 出 来 的 交换 机 级 别 比 它 低 ， 所 以 它 自己 认为 自己 就 是 主 交 换 
机 。 虚 拟 交 换 机 和 SAN 交 换 机 之 间 运 行 FSPF 路 由 协议 ， 所 以 这 个 虚拟 
交换 机 就 获得 了 SAN 交 换 机 下 面 所 有 连接 的 终端 节点 信息 。 


获得 这 些 信息 之 后 ，a 地 的 协 转 通过 广域网 链 路 将 这 些 信息 通告 给 
b 地 的 协议 转换 器 。b 地 的 协议 转换 器 同样 和 b 地 的 SAN 交 换 机 之 间 运 行 
着 FSPF 路 由 协议 ， 同 样 也 欺骗 了 b 地 交换 机 。b 地 协议 转换 器 收 到 了 a 
地 协议 转换 器 发 来 的 关于 a 地 SAN 交 换 机 上 所 连接 的 所 有 节点 信息 之 
后 ， 就 利用 和 b 的 SAN 交 换 机 之 间 的 FSPF 路 由 协议 ， 将 这 些 节 点 信息 
通告 给 b 地 SAN 交 换 机 ， 所 以 b 交 换 机 就 有 了 a 交换 机 上 节点 的 信息 ， 同 
样 a 交换 机 也 会 拥有 b 交 换 机 上 节点 的 信息 ， 这 样 ，a 和 b 交 : 换 机 之 间 训 
可 以 通信 了 ， 其 实 它 们 都 不 知道 中 途 有 两 个 中 介 在 骗 它们 。 


如 果 其 中 一 个 SAN 系 统 发 生 故 障 ， 那 么 这 个 系统 中 的 协 转 设备 ， 
会 将 这 个 重大 消息 屏蔽 ， 不 告诉 对 端的 SAN 系 统 。 因 为 一 旦 被 对 方 系 
统 得 知 ， 便 会 发 生 Fabric 的 重建 过 程 ， 影 响 本 端 SAN 系 统 的 IO。 有 了 
SAN 路 由 器 ， 远 端 SAN 访 问 的 超时 ， 并 不 会 影响 本 地 SAN 的 访问 。 此 
即 所 谓 “ 报 喜 不 报 忧 ”。 同 样 ， 一 个 SAN 系 统 中 的 诸如 RSCN 等 广播 类 


的 帧 ， 也 会 被 协 转 设备 根据 策略 而 终结 在 本 地 ， 不 会 跨越 广域网 链 路 
通告 给 对 方 。 协 转 设备 还 应 该 具有 访问 控制 功能 。 


这 种 方案 被 称 做 “SAN 路 由 ”， 因 为 它 具 有 与 IP 路 由 类 似 的 功能 和 


架构 。 
13.11 多 协议 混杂 的 存储 网 络 


多 协议 混杂 的 存储 网 络 如 图 13-3 所 示 ， 其 中 的 中 枢 引 擎 是 两 个 互 
相连 接 的 多 协议 路 由 器 。 这 个 多 协议 处 理 机 ， 就 像 一 台 计 算 机 的 
CPU，EFabric 和 以 太 网 络 就 像 计算 机 的 IO 总 线 ， 磁 盘 便 是 计算 机 的 外 
设 和 输入 设备 ， 各 种 存储 控制 器 便 可 以 理解 为 计算 机 上 的 各 种 IO 控制 
器 ， 前 端的 Fabric 和 以 太 网 便 是 前 端的 IO 总 线 ， 主 机 服务 器 则 是 输出 
设备 。 即 磁盘 上 的 数据 ， 经 过 输入 总 线 输入 CPU 进行 运算 ， 然 后 通过 
输出 总 线 ， 输 出 给 主机 服务 器 。 这 又 是 一 个 轮回 ， 不 折 不 扣 的 轮回 ， 
循环 散 套 ， 永 无 止境 。 


图 13-3 ”多 协议 混杂 的 存储 网 络 


图 13-3 所 示 的 拓扑 ， 可 以 说 是 一 个 大 的 统一 的 拓扑 。 存 储 网 络 不 
外 和 平 就 是 图 13-3 中 列 出 的 元 素 。 磁 盘 经 过 一 层 层 的 IN 和 OUT， 一 层 层 
的 虚拟 化 或 者 桥接 透 传 ， 最 终 被 主机 看 作 是 一 个 LUN 或 者 目录 。 不 妨 
将 其 抽象 ， 隐 去 复杂 的 部 分 ， 就 形成 了 图 13-4 的 拓扑 。 


图 13-4 ”一 次 抽象 后 的 系统 架构 
再 抽象 一 下 ， 得 到 如 图 13-5 所 示 的 模型 。 


图 13-5 ”本质 模型 


13.12 IP Over FC 


FC 可 以 为 了 提高 扩展 性 而 与 1P 合 作 ， 同 样 ，IP 也 可 以 Over 到 FC 上 
来 搭 个 快车 过 把 净 。 难 道 可 以 给 每 个 FC 口 设置 一 个 IP 地 址 甚至 多 个 IP 
地 址 ， 然 后 上 层 的 应 用 程序 就 像 使 用 一 块 网 卡 一 样 使 用 FC 卡 么 ? 当然 
可 以 ，FC 本 来 就 是 一 块 网 卡 ， 只 需要 在 链 路 层 之 上 封装 一 层 PoP 逻 辑 
即 可 。 比 如 ， 给 FC 卡 上 的 每 个 接口 配置 一 个 了 地 址 和 掩 码 ， 甚 至 网 
关 ， 然 后 对 目标 IP 地 址 发 起 Ping 操 作 ，OS 接 收 到 Ping 操 作 指 令 后 ， 随 
即 调用 到 ICMP 协 议 层 ， 然 后 下 到 TCP/IP 层 ，TCP/IP 层 的 下 位 就 是 FC 
卡 的 驱动 程序 层 了 ，PoP 人 逻辑 正 是 生效 于 此 层 。 这 个 特殊 的 驱动 程序 
首先 检查 目标 IP 地 址 ， 并 查找 它 所 维护 的 IP-WWPN 地 址 映射 表 (这 张 
表 可 以 手动 编辑 ， 也 可 以 使 用 ARP 协 议 来 自动 发 现 和 维护 ， 基 于 FC 网 
络 的 ARP 协 议 在 IETF 协 议 规范 中 可 以 找到 ) ， 找 出 这 个 IP 地 址 在 网 络 
中 对 应 的 FC 网 络 地 址 ; 找到 之 后 ， 如 果 尚 未 发 起 Plogin 过 程 则 发 起 ， 
否则 直接 将 ICMP 数 据 包 打包 入 FC 帧 传送 到 对 应 的 FC Target。EFC 
Target 收 到 数据 包 之 后 便 依次 向 上 层 传递 ， 当 传递 到 驱动 程序 时 ， 驱 动 
程序 解析 数据 包 中 的 高 层 协 议 并 向 对 应 的 上 层 调 用 程序 ， 即 TCP/IP 发 
送 ，TCP/IP 层 处 理 后 将 其 转发 到 调用 应 用 程序 层 ， 即 1CMP 协 议 层 。 
ICMP 协 议 处 理 之 后 会 做 出 相应 反应 ， 比 如 生成 一 个 Echo Reply 数 据 
包 ， 发 送 到 请 求 端 ， 发 送 过 程 与 之 前 类 似 。 


只 .……. 又 吹 ， 做 梦 呢 吧 ? 我 清醒 着 呢 ， 虽 然 现 在 快 午夜 12 点 了 ， 
但 是 我 依然 保持 文 如 泉涌 。QIlogic 公 司 早已 发 布 了 这 种 IP Over FC 的 驱 
动 程序 。 目 前 ， 其 QLE2464 型 号 的 4 端口 4GB/s 的 FC 适配器 (如 图 13-6 
所 示 ) 在 Windows 系 统 中 已 经 可 以 在 这 款 驱 动 程序 下 实现 IP Over FC 功 
能 ， 安 装 这 个 驱动 之 后 ， 系 统 会 在 网 络 适配器 列表 中 生成 一 个 特殊 的 


网 络 设备 ， 其 使 用 与 普通 以 太 网 卡 类 似 ， 而 且 可 以 对 其 配置 IP 地 址 等 
参数 。 


图 13-6 ”QLE2464 适 配 卡 


有 了 这 样 的 设计 ， 就 可 以 在 FC 的 链 路 层 上 透明 地 使 用 iSCSI 或 者 
NAS 协 议 来 访问 数据 了 。 这 样 做 的 目的 只 有 一 个 : 速度 ! 让 iSCSI 和 
NEFS/CIFS 也 可 以 享用 FC 带 来 的 4GB/s 甚 至 8GB/s 的 速度 ， 搭 上 快车 兜 
风 的 感觉 ， 夹 ! 


话 锋 回转 。FC 为 了 0 到 IP 上 ， 整 出 了 一 对 双胞胎 协议 。 然 而 ， 
IFCP 或 者 FCIP 协 议 都 需要 一 个 外 部 硬件 协议 转换 器 来 实现 ， 为 何不 能 
像 IPoFC 一 样 摘 法 呢 ? FC 虽然 也 可 以 按照 OSI 模 型 分 层 ， 但 是 其 链 路 层 
和 网 络 层 甚 至 更 高 层 一 般 都 是 运行 在 FC 卡 上 的 ， 要 实现 PoP 人 逻辑 ， 被 
承载 协议 逻辑 必须 运行 在 承载 协议 逻辑 的 上 层 。 所 以 要 将 FC 承载 于 IP 
之 上 ， 就 要 求 FC 的 网 络 层 及 以 上 的 所 有 层次 必须 作为 软件 运行 在 主机 
上 而 不 是 FC 卡 上 ， 然 后 主机 再 将 封装 映射 好 的 数据 包 通 过 TCP/IP 及 以 
太 网 卡 发 送出 去 。 目 前 ， 有 一 些 低 端的 FC 卡 的 网 络 层 及 以 上 逻辑 确实 
运行 在 主机 上 ， 也 就 是 运行 于 FC 卡 的 驱动 程序 中 ， 而 FC 适 配 卡 上 的 蕊 
片 只 负责 实现 FC 的 物理 层 和 链 路 层 功 能 (这 种 低 端 软 FC 卡 其 需要 利用 
主机 CPU 来 实现 FC 的 上 层 逻 辑 ， 所 以 CPU 占 用 率 会 比 纯 硬 FC 卡 ， 在 主 
机 CPU 负载 比较 高 的 时 候 ， 就 会 影响 底层 驱动 程序 的 效率 造成 IO 性 能 
受到 一 定 影响 ) 。 如 果 将 FC 卡 变 为 以 太 网 卡 ， 而 保留 原 有 FC 卡 驱动 中 
的 FC 上 层 逻 辑 处 理 层 ， 即 FC 网 络 层 及 以 上 的 处 理 逻 辑 ， 然 后 在 以 太 网 
卡 和 FC 处 理 人 逻辑 之 间 插 入 TCP/IP 协 议 栈 ， 之 上 再 插入 一 层 PoP 人 逻辑 ， 
PoP 人 逻辑 生成 虚拟 的 WWPN 地 址 来 欺骗 上 位 的 FC 处 理 层 ， 利 用 ARP 协 
议 来 获取 和 维护 网 络 中 的 地 址 映射 ， 这 样 做 理论 上 可 以 达到 单纯 的 
FCoIP 的 效果 。 但 是 回头 想 一 想 ， 这 是 没有 任何 意义 的 ! 


仔细 想 一 下 ，FC 为 何 要 O 到 IP 上 呢 ? 就 是 因为 IP 可 扩展 能 力 强 ， 
那么 如 今 我 们 在 一 个 没有 FC 任何 硬件 参与 的 情况 下 ， 强 行 在 TCP/IP 协 
议 之 上 增加 了 一 层 额外 的 与 TCP/IP 功 能 类 似 的 网 络 协议 ， 然 后 再 在 二 
者 之 间 插 入 了 映射 翻译 层 ， 这 不 是 没事 找事 么 ? 没有 FC 硬件 参与 ， 以 太 
网 络 硬件 之 上 的 TCP/IP 之 上 的 软 FC 上 层 逻 辑 ， 这 简直 就 是 一 个 累 比 。 
我 们 直接 用 iSCSI 或 者 NFS/CIFS 不 就 得 了 么 ? 干 嘛 非 要 在 其 上 安插 一 


个 累 芝 呢 ? 


同 为 FCoIP 的 实现 方式 ， 那 为 何 IFCP 和 FCIP 就 不 是 累 歼 呢 ? 因为 
IFCP 和 FCIP 是 为 了 将 一 个 现存 的 、 由 众多 FC 适配器 和 FC 网 络 交 换 设 
备 组 成 的 Fabric 网 络 与 另 一 个 Fabric 相 互 连 通 而 连通 用 的 网 络 传输 协议 
为 IP。 所 以 ， 如 果 想 让 两 个 以 太 网 之 间 互 相连 接 而 互联 通道 使 用 高 速 
的 FC 连接 ， 这 便 是 有 意义 的 。 


哦 ， 那 么 刚才 说 的 I[PoFC， 以 此 类 推 是 不 是 也 可 以 被 定义 为 没有 
任何 意义 了 呢 ? 这 就 需要 从 另 一 个 角度 看 了 。 因 为 TCP/IP 已 经 普遍 使 
用 ， 基 于 TCP/IP 的 存储 协议 也 很 多 ， 比 如 iSCSI、NFS、CIFS、FTP 甚 
至 HTTP 等 ， 而 基于 FC 的 存储 协议 呢 ? 只 有 FCP。 而 为 了 让 这 些 开放 存 
储 协 议 运 行 在 比 以 太 网 更 加 高 速 的 网 络 上 ， 将 它们 0O 到 FC 上 当然 是 有 
意义 的 。 有 人 又 说 了 ， 哦 ..…... 那 么 说 如 果 FC 也 像 TCP/IP 一 样 有 很 多 基 
于 它 的 开放 协议 被 广泛 使 用 ， 那 么 很 有 可 能 也 有 人 开发 单纯 FCoIP 了 
么 ? 这 又 得 从 另外 一 个 角度 考虑 ， 即 使 FC 哪 天 达到 像 TCP/IP 一 样 了 ， 
那么 将 高 速 的 FC 链 路 变 为 当前 的 1Gbps 的 以 太 网 链 路 ， 就 为 了 单纯 的 
FCoIP， 你 干 么 ? 除非 给 它 0 到 10Gbps 的 以 太 网 上 ， 这 也 就 是 FCoE 的 
做 法 了 。 


图 13-7 和 图 13-8 示 出 了 FCoIP 和 IPoFC 的 区 别 |。 


图 13-7 IPoFC 示 意图 图 13-8 ”FCoIP 示 意图 


13.13 FCoEFE 
13.13.1 FCoE 的 由 来 


以 太 网 的 速率 从 1Gb/s 直 接 跳跃 到 10Gb/s， 今 后 还 会 再 跳 到 
40Gb/s、100Gb/s。FC 呢 ， 从 1Gb/s 跳 到 2Gb/s 再 跳 到 4Gb/s 和 8Gb/s， 将 
来 的 规划 还 是 乘 2， 也 就 是 下 一 步 是 16Gb/s。FC 总 是 想 搭 顺 风车 ， 前 
几 年 以 太 网 只 普及 到 1Gb/s， 它 看 好 了 IP 的 扩展 性 ， 结 果 O 了 IP ( IFCP 
和 FCIP 双 胞 胎 ) 。 结 果 这 俩 后 代 不 争气 ， 用 的 很 少 。O 完 了 IP 不 过 
六 ， 看 到 以 太 网 迅速 强大 ， 自 己 却 步履 踏 咒 ， 打 算 直 接 O 到 Ethernet 上 
苟 延 残 喘 ， 也 就 有 了 FCoE。 如 图 13-9 所 示 ， 传 统 FC 底 层 速 率 的 发 展 已 
经 明显 落后 于 以 太 网 了 。 


图 13-9 ” FCoE、FC 的 路 标 对 比 


13.13.2 ”FcoE 的 设计 框架 


然而 ， 并 不 像 你 所 想象 的 那样 ， 比 如 ，iSCSI 直 接 就 是 在 主机 端 操 
作 系 统 中 的 TCP 协 议 栈 之 上 加 一 层 逻 辑 ， 直 接 利 用 现 有 的 IP 网 络 ， 那 
么 FCoE 是 不 是 也 类 似 ， 直 接 在 主机 端 安装 一 个 FCoE 协 议 栈 ， 直 接 将 
其 承载 到 以 太 网 上 呢 ? 如 果真 的 是 这 样 ，FCoE 与 iSCSI 就 没有 什么 本 
质 上 的 大 区 别 了 ， 也 就 无 法 体现 其 价值 所 在 了 。 那 么 FCoE 到 底 是 一 种 
什么 形态 呢 ? 我 们 知道 ， 传 统 FC 环 境 下 在 主机 端 原本 是 靠 一 块 FC 
HBA 来 实现 FC 网 络 接 入 的 ， 全 部 FC 逻辑 都 运行 在 这 块 卡 上 (SCSI 逻 
辑 运 行 在 主机 端 OS 内 核 中 ) ， 这 样 做 可 以 充分 降低 主机 资源 消耗 。 如 
果 现 在 要 将 FC 的 上 层 逻 辑 全 部 拿 来 主机 端 协议 栈 中 运行 ， 那 么 效率 势 


必要 打折 扣 ， 对 主机 CPU 资产 的 消耗 也 必 将 增加 。 那 么 iSCSI 融 不 消耗 
主机 资源 么 ? 当然 消耗 ， 那 为 何 iSCSI 可 以 存在 ， 就 不 允许 FC 的 软 协 
议 栈 存在 呢 ? 要 知道 ，1Gbps 的 以 太 网 环境 下 ，iSCSI 软 协议 栈 不 会 消 
耗 主机 端 太 多 资源 (根据 实测 一 颗 单 核 Intel 至 强 CPU 约 可 承载 300MB/s 
的 大 块 连续 IO 的 iSCSI 流量 ， 此 时 CPU 已 经 满载 ， 如 果 是 IO 密集 型 流 
量 ，CPU 会 更 快 满载 ) ， 但 是 在 10Gbps 以 太 网 的 环境 下 ，iSCSI 软 协议 
栈 对 主机 CPU 的 消耗 就 不 可 同日 而 语 了 ， 有 数据 表明 ，10Gbps 下 的 软 
iSCSI initiator 对 主机 CPU 的 占用 率 在 30% 人 60% 之 间 ， 这 已 经 不 可 容 
忍 了 。 所 以 ，10Gb/s 以 太 网 承载 的 iSCSI 协议 ， 人 迫切 需要 运行 在 硬 
iSCSIHBA 上 ， 这 才 是 可 以 向 企业 级 用 户 所 交付 的 合适 形态 。 至 于 前 
其 似 软 与 Titel 合 作 贡 1 有 IS@SI 自 万 1005 缠 并 后 宁 ( 见 之 前 章节 ) ， 只 

一 个 测试 而 已 ， 恐 怕 其 CPU 利用 率 已 经 达到 很 高 的 程度 了 ， 这 种 测 
试 不 具备 实用 性 价值 ， 况 且 Intel] 是 做 CPU 的 ， 这 种 测试 的 目的 大 家 都 
明白 。 所 以 同样 ，FCoE 也 需要 运行 在 一 块 硬 的 HBA 上 。 


13.13.3” FcoF 卡 


好 ， 明 白 了 这 一 点 ， 我 们 再 往 下 走 一 层 。 我 们 知道 传统 以 太 网 并 
不 提供 链 路 层 保障 功能 ， 而 FC 的 传输 保障 在 链 路 层 与 传输 层 都 有 实 
现 ， 两 者 是 紧密 结合 的 。 如 果 要 将 FC over 到 Ethernet 上 ， 那 么 势必 要 
砍 掉 FC 的 链 路 层 而 用 以 太 网 链 路 层 替 代 ， 但 是 这 样 over 之 后 ， 新 协议 
就 没有 链 路 层 保障 机 制 了 ， 不 能 与 FC 传 输 层 保障 机 制 进行 互相 配合 。 
为 此 ， 必 须 给 以 太 网 增加 链 路 层 传输 保障 机 制 ， 所 以 新 的 标准 出 现 
了 ， 这 就 是 CEE (Converged Enhanced Ethernet) ， 即 增强 型 以 太 网 协 
议 ，Cisco 称 之 为 DCE (Data Center Ethernet) 。 这 样 ，FC 就 可 以 没有 
后 顾 之 忧 地 使 用 以 太 网 作为 传输 链 路 了 。 


我 们 再 往 下 走 一 层 。 以 太 网 亲自 出 马 改 变 自身 来 迎合 FC 的 大 驾 ， 
这 个 举动 可 谓 是 兴 师 动 众 了 ， 由 于 已 经 对 链 路 层 进 行 了 改变 ， 所 以 传 
统 的 以 太 网 卡 不 可 能 符合 要 求 ， 以 太 网 交换 机 也 是 一 样 。 这 样 的 话 ， 
就 得 开发 专门 的 以 太 网 卡 和 以 太 网 交换 机 来 支持 CEE 了 ， 确 实 是 的 。 
我 们 先 来 看 一 下 以 太 网 卡 ， 前 面 说 过 ，FCoE 必 须 做 成 一 个 硬件 HBA， 
而 现在 以 太 网 卡 也 需要 重新 做 ， 所 以 ， 一 块 类 似 iSCSI 硬 HBA 的 硬 
FCoE 卡 也 就 水 到 渠 成 地 出 炉 了 : CNA 卡 ，Converged Network 
Adapter， 将 FC 卡 与 增强 型 以 太 网 卡 结合 的 产物 ，FC 卡 把 其 上 层 的 FC 
逻辑 处 理 部 分 拿 出 来 融合 到 增强 型 以 太 网卡 中 ， 然 后 再 在 这 片 卡 件 中 
增加 一 个 FCoE 协 议 处 理 模 块 ， 在 数据 帧 中 增加 一 个 FCoE 协 议 表 示 层 
区 段 (这 个 概念 见 本 章 之 前 部 分 ;用 以 执行 协议 转换 控制 任务 ， 所 有 
的 逻辑 都 集成 到 一 块 ASIC 心 片 中 以 达到 很 高 的 执行 效率 。 图 13-10 所 
示 为 Brocade 生 产 的 某 型 号 的 CNA/FCoE 卡 的 实物 图 ， 出 口 为 两 个 
10Gbps 的 以 太 光 口 。 


图 13-10 ”CNA/FCoF 卡 实物 图 


iSCSI 硬 HBA 只 能 用 作 承 载 :SCSI 协 议 ， 而 不 能 作为 承载 IP 的 以 太 
网 卡 使 用 了 。 但 是 FCoE 卡 却 可 以 同时 承载 FCoE 流 量 和 承载 卫 的 以 太 
网 流量 ， 也 就 是 说 可 以 把 一 块 FCoE 卡 同时 当做 FC 卡 与 以 太 网 卡 使 
用 ， 互 不 影响 。 


FCoE 卡 相 比 于 FC 卡 来 讲 ， 除 了 在 操作 系统 驱动 层面 有 所 变化 之 
外 ， 上 层 的 协议 栈 比 如 SCSI 层 之 类 并 没有 大 的 变化 。 


13.13.4 FCoE 交换 机 


好 ， 我 们 接着 往 下 走 ， 再 来 看 看 以 太 网 交换 机 的 改变 。 除 了 在 交 
换 机 端 对 应 地 增加 对 CEE 的 支持 之 外 ， 以 太 网 交换 机 还 需要 做 一 项 重 
大 的 改变 。 我 们 知道 FC 交换 机 是 整个 Fabric 的 核心 ， 任 何 一 个 通过 FC 
接 入 Fabric 的 节点 都 要 首先 获得 一 个 Fabric ID 然 后 执行 Fabric Login 过 
程 ， 这 些 过 程 都 需要 FC 交换 机 来 参与 执行 。 而 以 太 网 交换 机 并 没有 提 
供 任何 这 些 Fabric 服 务 ， 这 样 的 话 ， 通 过 以 太 网 链 路 传 入 的 地 址 请 求 
以 及 Fabric Login 的 帧 ， 就 没有 人 来 应 答 和 处 理 了 。 所 以 ， 以 太 网 交换 
机 上 ， 必 须 增 加 对 应 的 Fabric 模 拟 程序 ， 将 其 做 到 ASIC 心 片 中 。 


看 到 这 里 也 许 你 已 经 完全 糊涂 了 ， 不 就 是 要 利用 起 以 太 网 么 ? 
iSCSI 对 以 太 网 没有 任何 改变 ， 而 为 何 FC 一 来 ， 就 要 兴 师 动 众 ， 改 完 
了 协议 改 网 卡 ， 改 完了 网 卡 还 得 改 交换 机 ， 这 么 做 到 底 值 不 值得 ? 请 
各 位 带 着 这 个 问题 继续 阅读 。 


此 时 别 志 了 另外 一 个 问题 : 原 有 的 传统 FC 设备 ， 如 何 与 FCoE 融 
合 ? 既然 叫做 FC over Ethernet， 那 么 就 得 拿 出 点 样子 看 看 ， 得 将 原 有 
的 传统 FC 网 络 融 合 进 来 才 是 。 图 13-11 所 示 为 一 台 Brocade 8000 FCoE 
交换 机 的 逻辑 架构 图 与 实物 图 。 


图 13-11 ”FCoE 交换 机 逻辑 图 与 实物 图 


大 家 可 以 看 到 ， 这 人 台 交 换 机 同时 包含 传统 的 FC 交换 模块 及 接口 和 
新 的 CEE 增 强 型 以 太 网 接口 ， 这 就 意味 着 ， 传 统 的 FC 设备 以 及 使 用 
CNA 卡 的 FCoE 设 备 可 以 同时 连接 到 这 人 台 交 换 机 上 而 且 实 现 互 相通 信 。 
交换 机 内 部 有 一 个 FCoE 处 理 模块 实现 将 CEE 的 流量 桥接 到 FC 交换 模块 
中 ， 反 向 过 程 也 类 似 ，FCoE 模 块 的 角色 就 是 一 个 协议 映射 封装 与 解 去 
装 模 块 ， 另 外 还 负责 对 Fabric 大 部 分 逻辑 的 模拟 。 实 际 中 FCoE 功 能 的 
定价 可 以 使 用 License 控 制 ， 可 以 选择 购买 FCoE 功 能 或 者 不 购买 。 


这 台 交 换 机 还 同时 可 以 作为 传统 以 太 网 交换 机 使 用 ， 所 以 此 设备 
是 一 台 传 统 FC 交 换 机 、FCoE 交 换 机 、 以 太 网 交换 机 的 超级 融合 体 。 
图 13-12 所 显示 的 是 在 这 种 超级 融合 环境 下 的 数据 流 拓 扑 图 ， 可 以 看 到 
这 种 设备 实现 了 双 网 融合 的 作用 。 


图 13-12” ”FCoE 环境 拓扑 图 


在 网 络 没 有 融合 之 前 ， 你 需要 投入 的 是 : 以 太 网 卡 十 FC 卡 十 FC 交 
换 机 十 以 太 网 交换 机 十 FC 线 缆 十 以 太 网 线 缆 ， 而 融合 之 后 ， 你 需要 投 
入 的 是 : CNA 卡 十 FCoE 交 换 机 十 以 太 网 线 缆 ， 可 见 减 少 了 投资 ， 简 化 
了 布线 ， 降 低 了 耗 电 ， 最 终 也 就 降低 了 成 本 ， 同 时 还 充分 融合 原 有 传 
统 FC 的 环境 。 


然而 ， 是 否 会 降低 成 本 也 是 相对 的 。FCoE 目 前 实际 主要 应 用 于 大 
型 运营 商 、 大 型 数据 中 心 ， 准 备 同时 投入 高 容量 高 速 以 太 网 与 存储 网 
络 的 ， 则 可 以 在 适配器 、 布 线 、 交 换 机 方面 节省 成 本 。 但 是 FCoE 离 行 
业 市 场 客户 还 差 很 远 。16 口 8Gbps FC 交换 机 也 就 两 万 元 多 一 台 ， 一 台 
同样 口 数 的 10Gbps 的 FCoE 交 换 机 ， 则 贵 得 多 。 但 是 对 于 运营 商 那 种 大 
型 模块 化 交换 机 来 讲 ，FCoE 交 换 机 由 于 融合 了 两 种 网 络 ， 反 而 比 单独 
为 每 种 网 络 都 配 一 台大 型 模块 化 交换 机 要 便宜 多 了 。 


如 果 使 用 纯 以 太 网 环境 跑 iSCSI 则 不 可 能 融合 原 有 传统 FC 环 境 
了 ， 势 必 又 形成 孤岛 。FCoE 达 到 了 两 者 的 折 中 ， 提 供 了 一 个 过 渡 解 决 
方案 ， 融 合 了 FC 的 思想 和 以 太 网 的 躯体 ， 还 融合 了 传统 FC 环 境 ， 可 以 
说 这 是 将 单纯 iSCSI 击 退 的 一 个 必 杀 技 。 一 张 FCoE 卡 可 以 同时 承载 普 
通 IP 以 太 网 流量 、FCoE 流 量 以 及 iSCSI 流量 (使 用 软 Initiator) 。 


目前 尚未 有 厂商 推出 集 硬 FCoE、CEE 10GbE 以 太 网 、 硬 iSCSI 为 
一 身 的 纯 硬 HBA 卡 ，Emulex 公 司 有 硬 FCoE 卡 以 及 硬 10GbE iSCSI 卡 ， 
两 种 卡 的 设计 、 已 片 等 大 致 相同 ， 有 集成 的 潜质 ， 但 是 考虑 到 成 本 、 
性 能 、 心 片 等 多 种 问题 ， 目 前 这 种 卡 可 能 还 只 是 个 假想 物 。 最 终 鹿 死 
谁 手 还 有 待 观望 。 


到 了 这 里 ， 对 之 前 所 提出 的 那个 疑惑 是 不 是 可 以 有 所 领悟 呢 ? 
13.13.5 ”解剖 FCoE 交 换 机 


经 过 上 述 介绍 之 后 ， 理 解 FCoE 交 换 机 的 逻辑 部 件 就 不 难 了 。 无 非 
就 是 三 大 主要 模块 : FC PHY 忌 片 组 ， 以 太 网 PHY 忌 片 组 、 中 央 交 换算 
阵 、 桥 接 逻 辑 处 理 芯 片 组 ， 再 加 上 一 堆 辅 助 的 芯片 和 器 件 。 整 体 上 是 
操作 系统 十 专用 硬件 心 片 组 的 设计 模式 。 图 13-13 是 某 FCoE 交 换 机 的 
主板 器 件 布局 示意 图 。 图 13-14 则 给 出 了 FC 与 FCoE 流 量 的 处 理 路 径 示 


图 13-13” 某 FCoE 交 换 机 主板 器 件 示 意图 


图 13-14” 某 FCoFE 交 换 机 数据 流 示意 图 


图 13-15 与 图 13-16 所 示 的 是 另外 某 厂 商 的 某 FCoE 交 换 机 的 逻辑 与 
实物 图 ， 板 载 20 个 CEE 10GbE 接 口 ，FCoE 人 逻辑 在 Crossbar Switch 中 实 
现 。 每 个 Unified Port Controller 下 面 挂 接 多 个 10GbE PHY。 另 外 还 有 一 
个 专门 用 于 控制 扩展 板 上 的 接口 的 Port Controller。 


图 13-15” 某 FCoE 交 换 机 主板 器 件 布 局 图 


图 13-16 ” 某 FCoE 交 换 机 主板 器 件 示意 图 与 数据 流 示意 图 


图 13-17 所 示 为 此 交换 机 提供 的 6 口 8Gb FC 接 口 扩展 板 ， 利 用 这 个 
扩展 板 即 可 将 FCoE 与 传统 FC 网 络 相 融 合 了 。 


图 13-17 某 FCoF 交 换 机 的 6 口 8Gb FC 扩 展 接 口 板 实物 图 


13.13.6 ”存储 阵列 设备 端的 改动 


与 主机 相同 ， 存 储 阵 列 也 需要 插 上 CNA 卡 来 实现 FCoE。 目 前 
Qlogic、Emulex、 Brocade 等 主流 HBA 厂 商都 已 经 有 成 熟 的 FCoE 卡 出 
售 ， 阵 列 厂商 的 CNA 卡 也 都 是 从 这 些 HBA 厂 商 获 取 。 阵 列 端的 CNA 卡 
可 以 同时 承载 FCoE 流 量 与 iSCSI 流量 ， 也 算是 一 种 Combo 卡 。 


13.13.7 “FEFCoE 与 iSCSI 


同样 是 oE，iSCSI 如 此 便利 ， 而 FCoE 凭 什么 能 够 兴风作浪 ? 主要 
原因 有 两 个 : 第 一 是 为 了 融合 原 有 的 传统 FC 网 络 和 FC 卡 件 、 阵 列 等 ， 
得 有 个 过 渡 期 ， 第 二 则 是 FC 协议 在 上 层 思想 上 确实 效率 要 高 于 TCP/IP 
协议 ， 也 就 是 高 于 iSCSI。 但 是 FCoE 一 样 还 是 出 不 去 ， 因 为 FC 的 思想 
已 经 完全 凝固 了 ， 注 定 了 它 走 不 出 去 。 而 iSCSI 则 可 以 随 着 互联 网 带宽 
的 迅速 增加 而 顺利 地 扩张 到 整个 互联 网 学 围 。FCoE 与 iSCSI， 谁 O 不 是 
0? 区 别 就 是 一 个 上 层 是 TCPHAIP， 一 个 则 是 FC。iSCSI 可 扩展 性 强 ， 但 
是 目前 来 讲 做 硬 卡 的 不 多 (Emulex 和 了 Broadcom 有 10Gb 的 iSCSI 硬 
卡 ) ; FCoE 则 高 效 ， 做 硬 卡 的 多 (几乎 所 有 做 HBA 的 厂商 都 有 FCoE 
卡 产品 ) ， 但 是 可 扩展 性 依然 不 行 ， 因 为 FCoE ， 像 FC 一 样 ， 很 收 
门 ， 要 求 交 换 机 配合 ， 交 换 机 里 必须 灌 入 相应 的 Firmware 模 块 来 处 理 
这 些 Fabric 协 议 人 逻辑 。FCoE 交 换 机 除了 需要 处 理 Fabric 人 逻辑 ， 还 需要 处 
理 Fabric 到 以 太 网 的 转换 翻译 逻辑 ， 不 但 增加 了 复杂 度 和 故障 点 ， 而 


且 势 必 又 会 在 多 个 三 商 之 间 产 生 兼 容 性 问题 ， 这 个 恐怕 会 成 为 它 称霸 
的 一 个 囚 费 。 所 以 我 个 人 还 是 偏向 于 看 好 iSCSI 的 称霸 。 


FCoE 和 iSCSI 只 有 可 能 是 冤家 不 可 能 是 朋友 ， 不 可 能 被 融合 ， 那 
么 随 着 时 间 的 推移 ， 到 底 谁 能 够 一 统 天 下 ?或 者 两 者 各 自 占据 自己 的 
应 用 场景 ， 还 真 不 好 说 ， 托 目 以 待 吧 。 


13.13.8 ”FcoFE 的 前 景 


=。 相对 于 iSCSI，FCoE 能 够 将 传统 的 FC 网 络 融 合 ， 充 分 利用 。 

" 首先 被 大 型 运营 商 大 型 数据 中 心 采 用 ， 双 网 融合 ， 降 低 成 本 。 
”传统 FC 硬 件 逐 渐 被 侵蚀 殉 尽 。 

a 以 太 网 一 统 天 下 ， 将 来 SCSIoE、ATAoF 等 都 有 可 能 商业 化 。 
a 传统 FC 一 一 抛弃 氏 体 ， 保 留 思想 一 一 FCoE。 


13.13.9 Open FCoE 


上 文 所 述 的 所 谓 “ 软 FCoE” 协 议 ， 确 实 有 这 东西 。Intel 某 高 级 软件 
工程 师 主 导 开 发 了 它 。 可 以 访问 http:/www.open-fcoe.org 这 个 网 站 来 获 
取 更 多 信息 。 这 个 Open FCoE 协 议 底层 可 以 支持 普通 以 太 网 卡 ， 但 是 
要 求 以 太 网 卡 支持 802.3x Pause 帧 。 安 装 了 软 FCoE initiator 的 服务 器 可 
以 使 用 其 以 太 网 卡 连接 到 FCoE 交 换 机 上 ， 从 而 被 接 入 到 传统 的 FC 
SAN 中 。Open FCoE 也 提供 Target 端 。 目 前 Open FCoE 从 Linux kernel 
2.6.29 开 始 被 正式 纳入 。 可 想 而 知 软 FCoE 协 议 栈 会 对 服务 器 CPU 造成 
多 少 负 载 增加 ， 但 是 别 忘 了 它 的 发 起 人 是 mntel。 


观点 : 经 过 上 文 对 FCoE 的 分 析 来 看 ，FCoE 像 FC 一 样 不 开 
放 ， 身 体 变 了 ， 思 想 依然 没 变 ， 而 且 还 要 求 身 体 跟 着 脑袋 变 


一 变 (CEE/DCE) 。 本 来 承载 到 以 太 网 上 ， 指 望 着 开放 一 
些 ， 现 在 看 来 ， 只 是 改朝换代 而 不 是 革命 。 所 以 ， 这 里 面 的 
猫 肢 就 看 出 来 了 ，FCoE 是 当初 Cisco 主 推 的 ，Cisco 称 霸 了 以 
太 网 ， 他 当然 希望 存储 网 络 全 都 转 到 以 太 网 ， 但 是 传统 FC 根 
深 蒂 固 ， 所 以 弄 出 个 FCoE 来 ， 以 太 网 宁愿 在 FC 的 光辉 思想 
下 对 自身 的 一 些 “ 瑕 症 ” 进 行 修改 。FCoE 作 为 Cisco 称 霸 存 储 网 
络 的 一 张 王 牌 ， 其 目的 就 是 为 了 称霸 存储 网 络 ， 进 一 步 称 霸 
数据 中 心 ，Cisco 同 样 拥 有 自己 的 服务 器 ， 他 只 是 没有 自己 的 
存储 ， 所 以 他 选择 与 别人 结盟 。 从 VCE、VCN 联 盟 就 看 出 来 
Ts 

而 Intel 的 Openfcoe， 显 然 希望 大 家 都 用 软 Initiator， 靠 强大 的 
CPU 来 执行 而 不 是 专用 ASIC 从 而 带动 CPU 的 销量 和 发 展 。 
那么 iSCSI 与 FCoE 到 底 谁 能 成 为 主流 呢 ? 现状 是 ，iSCSI 硬 卡 
只 有 Emulex 和 了 Broadcom 《尚未 发 布 只 是 公开 ) 的 CNA 卡 支 
持 ， 后 续 可 能 会 有 更 多 的 厂商 推出 万 兆 iSCSI 硬 卡 。 如 果 用 软 
iSCSI initiator 的 话 ， 一 个 10G 口 子 会 耗 掉 30% 左 右 甚至 更 高 的 
CPU， 就 算 用 最 新 的 Intel CPU 也 是 这 样 ， 所 以 基本 上 4 个 10G 
口 就 会 耗 死 一 台 阵 列 。 但 是 FC 卡 就 不 会 有 这 种 情况 ，FCoE 
同样 也 不 会 。 退 一 步 讲 ， 如 果 10G 的 FCoE 与 硬 10G iSCSI 比 的 
话 ， 卡 件 与 协议 本 身 来 讲 都 差不多 ， 成 本 也 差不多 ， 所 以 就 
要 看 外 围 辅 助 设备 的 成 本 ， 一 台 FCoE 交 换 机 目前 来 讲 还 是 远 
贵 于 10G 以 太 交 换 机 ， 所 以 要 是 小 规模 部 署 ， 甚 至 不 如 用 8G 
FC 交 换 机 划算 了 。 其 次 是 看 看 场景 ，FCoE 更 适合 想 融 合 之 
前 已 经 部 署 的 FC 与 新 部 署 的 以 太 网 的 场景 ， 也 就 是 大 型 久 建 
的 数据 中 心 。 对 于 新 建 数据 中 心 ， 这 个 趋势 还 不 明朗 ， 笔 者 
之 前 和 Emulex 的 一 名 员工 交流 过 ， 他 的 意思 是 新 建 数据 中 心 
他 们 推荐 使 用 iSCSI 硬 卡 ， 但 是 我 估计 这 种 说 法 是 含有 水 分 


的 ， 毕 竟 Emulex 是 目前 仅 有 的 一 家 提供 硬 iSCSI 卡 成 品 的 公 
司 ， 他 们 推荐 iSCSI 可 能 有 一 定 市 场 目 的 。 但 是 我 个 人 看 法 ， 
FCoE 目 前 Qlogic、Brocade 和 Emulex 都 有 产品 了 ， 为 何 10G 的 
iSCSI 硬 卡 只 有 Emulex 一 家 产品 ， 证 明 FCoE 今 后 可 能 会 有 一 
波 行情 。 FCoE 和 iSCSI， 谁 O 不 是 0? 区 别 就 是 一 个 是 FC， 
一 个 是 TCPAIP， 抛 开 以 太 网 ， 单 看 FC 和 TCP/P， 前 者 高 效 但 
是 扩展 性 差 ， 后 者 效率 稍 低 但 是 扩展 性 很 好 ， 其 实 这 已 经 与 
以 太 网 无 关 了 ， 最 后 到 底 是 认同 FC 还 是 认同 TCP/ 耻 的 问题 。 
我 的 看 法 是 ，FCoE 会 弄 出 一 波 行 情 ， 但 是 FC Fabric 这 个 协议 
很 那 门 ， 它 要 求 交 换 机 也 要 参与 Fabric 的 建立 ， 而 且 交 换 机 
起 到 至 关 重 要 的 作用 ， 这 增加 了 复杂 度 并 且 降 低 了 兼容 性 ， 
这 是 与 开 基 础 架构 发 展 背 道 而 驰 的 ， 而 iSCSI 却 不 要 求 交 换 机 
有 什么 上 层 协 议 智能 ， 兼 容 性 、 开 放 性 及 扩展 性 更 好 。 笔 者 
个 人 认为 最 后 iSCSI 很 有 可 能 会 替代 FCoE。 但 是 目前 来 讲 
FCoE 与 iSCSI， 广 商 也 尚未 看 清 ， 谁 也 不 敢 冒 然 选 择 。 


第 14 章 ”变幻 莫 测 
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“计算 机 科学 中 的 任何 问题 ， 都 可 以 通过 加 上 一 层 逻 辑 来 解决 。” 
一 一 计算 机 科学 家 David Wheeler 


目前 形形色色 的 软件 层出不穷 ， 可 是 它们 都 脱离 不 了 一 个 基础 ， 
那 就 是 计算 机 硬件 系统 。 如 CPU、 内 存 和 各 种 IO 接口 ， 以 及 连接 它 
们 ， 使 它们 之 间 相 互通 信 的 总 线 。 


CPU 内 部 是 大 量 的 集成 逻辑 电路 ，CPU 不 断 受 到 一 种 电信 号 的 “ 刺 
激 "， 这 种 刺激 经 过 CPU 内 部 的 逻辑 电路 的 一 层 层 的 传递 转换 ， 最 终 输 
出 另 一 种 电信 号 。 这 种 输入 、 输 出 动作 ， 是 有 一 定 逻 辑 的 。 通 过 编写 
汇编 代码 ， 可 以 实现 对 CPU 内 部 逻辑 电路 的 刺激 ， 并 引起 一 系列 的 逻 
辑 输出 。 将 这 些 逻 辑 映射 到 人 们 所 能 理解 的 知识 上 ， 比 如 输出 1 代表 
对 ， 输 出 0 代表 铬 误 ， 或 者 如 果 输 出 1 则 继续 刺激 ， 输 出 0 则 停止 刺激 
等 ， 这 样 就 构成 了 从 基本 的 逻辑 电路 到 复杂 的 思维 逻辑 的 映射 ， 由 简 
单 逻辑 的 层 层 能 套 ， 构 成 了 复杂 逻辑 。 将 汇编 语言 ， 用 人 类 容易 理解 
的 语言 抽象 出 来 ， 就 形成 了 高 级 语言 。 将 高 级 语言 的 意思 ， 转 换 成 低 
级 语言 的 过 程 ， 就 是 编译 。 比 如 说 : 冬瓜 ， 用 低级 语言 表示 冬瓜 这 个 
意思 ， 就 是 “ 撤 ， 横 折 ， 探 ， 点 ， 点 ， 撤 …...”。 


虚拟 化 过 程 其 实 是 一 个 由 阴阳 亚 加 而 产生 的 一 系列 过 程 和 相 态 。 


14.1 ”操作 系统 对 硬件 的 虚拟 化 


我 们 知道 ， 早 期 的 计算 机 系统 ， 其 实 是 没有 操作 系统 的 ， 因 为 操 
作 系 统 本 身 也 是 靠 计 算 机 硬件 执行 的 一 种 程序 。 操 作 系统 就 是 一 种 可 
以 提供 给 其 他 程序 方便 编写 并 运行 的 程序 。 由 程序 来 运行 程序 ， 而 不 
是 由 程序 自己 来 运行 ， 这 是 操作 系统 提供 的 一 种 虚拟 化 表现 。 


1. 早期 计算 机 单 任务 模式 


对 于 早期 计算 机 来 说 ， 只 能 允许 执行 一 个 任务 ， 整 个 计算 机 只 能 
被 这 个 程序 独占 。 比 如 开机 ， 从 软盘 或 者 其 他 介质 上 执行 程序 ， 直 到 
执行 完毕 或 者 人 为 中 断 。 执 行 完 后 拿 出 介质 ， 再 插入 另 一 张 介 质 ， 重 
新 载 入 执行 另 一 个 新 的 程序 。 在 执行 程序 的 过 程 中 ， 一 旦 意外 终止 ， 
就 要 重新 运行 。 


如 果 有 10 个 人 要 用 一 台 计 算 机 来 执行 程序 ， 第 一 个 人 拿 着 他 的 软 
盘 ， 上 面 有 一 个 数学 题 计 算 程序 ， 他 插入 软盘 ， 然 后 重启 机 器 ， 机 器 
从 软盘 特定 的 扇 区 载 入 程序 代码 执行 ， 结 果 显 示 在 显示 器 上 ， 比 如 这 
个 程序 2 个 小 时 运行 完毕 ， 第 一 个 人 从 显示 器 上 抄 下 结果 ， 走 了 。 后面 
有 9 个 人 在 排队 等 待 用 计算 机 。 然 后 第 二 个 人 同样 拿 着 他 的 软盘 ， 插 入 
软驱 ， 重 启 .…... 每 次 更 换 程 序 ， 都 需要 重新 启动 机 器 ， 简 直 就 是 梦 
厦 。 再 者 ， 如 果 某 个 程序 运行 期 间 ， 会 有 空 闪 状态 ， 则 其 他 程序 也 仍 
然 需要 等 待 ，CPU 只 能 在 那里 空 振荡 。 


2. 操作 系统 的 多 任务 模式 


操作 系统 的 出 现 解决 了 这 两 个 问题 。 操 作 系 统 本 身 也 是 一 段 程 
序 ， 计 算 机 加 电 之 后 ， 首 先 运 行 操作 系统 ， 随 时 可 以 载 入 其 他 程序 执 
行 ， 也 就 是 说 ， 它 可 以 随时 从 软盘 上 读 取 其 他 程序 的 代码 ， 并 切换 到 
这 段 代码 上 让 CPU 执行 ， 执 行 完 毕 后 则 立即 切换 回 操作 系统 本 身 。 但 
是 每 次 也 总 是 要 等 待 这 个 程序 执行 完毕 ， 才 能 接着 载 入 下 一 个 程序 执 
行 。 当 被 载 入 的 程序 执行 的 时 候 ， 不 能 做 任何 其 他 的 事情 ， 包 括 操作 
系统 本 身 的 程序 模块 ， 任 何 产生 中 断 的 事件 ， 都 会 中 断 正在 运行 的 程 
序 。 


程序 执行 完毕 之 后 ， 会 将 CPU 使 用 权 归 还 操作 系统 ， 从 而 继续 操 
作 系 统 本 身 的 运行 。 这 种 操作 系统 称 为 单 任 务 操 作 系 统 ， 典 型 代表 就 
是 DOS。 


一 旦 在 DOS 中 载 入 一 个 程序 执行 ， 如 果 没 有 任何 中 断 事件 发 生 ， 
则 这 个 程序 就 独占 CPU， 执 行 完毕 之 后 ， 回 到 DOS 操 作 系统 ， 接 着 可 
以 继续 执行 另外 一 个 程序 。 经 过 这 样 的 解决 ， 执 行 多 个 程序 ， 期 间 就 
再 也 不 用 重新 启动 机 器 了 。 


在 这 个 基础 上 ， 操 作 系统 又 将 多 个 程序 一 个 接 一 个 地 排列 起 来 ， 
成 批 地 执行 ， 中 途 省 掉 了 人 为 载 入 程序 的 过 程 ， 这 叫做 批 处 理 。 批 处 
理 操作 系统 ， 相 对 于 单 任务 操作 系统 来 说 ， 可 以 顺序 地 、 无 须 人 工 干 
预 地 批量 执行 程序 ， 比 简单 的 单 任务 操作 系统 又 进 了 一 步 ， 但 是 其 本 
质 还 是 单 任务 性 ， 即 一 段 时 间 之 内 ， 仍 然 只 会 观察 到 一 个 应 用 程序 在 
运行 ， 仍 然 只 是 一 个 程序 独占 资源 。 


再 后 来 ， 操 作 系统 针对 系统 时 钟 中 断 ， 开 友 了 专门 的 中 断 服 务 程 
序 ， 也 就 是 多 任务 操作 系统 中 的 调度 程序 。 时 钟 中 断 到 来 的 时 候 ， 
CPU 根据 中 断 向 量 表 的 内 容 ， 指 向 调度 程序 所 在 的 内 存 地 址 入 口 ， 执 


行 调 度 程 序 的 代码 ， 调 度 程序 所 做 的 就 是 将 CPU 的 执行 跳 转 到 各 个 应 
用 程序 所 在 的 内 存 地 址 入 口 。 每 次 中 断 ， 调 度 程 序 以 一 定 的 优先 级 ， 
指向 不 同 程序 的 入 口 。 这 样 就 能 做 到 极 细 粒 度 的 应 用 程序 入 口 切换 ， 
如 果 遇 到 某 个 程序 还 没有 执行 完毕 就 被 切 出 了 ， 则 操作 系统 会 自动 将 
这 个 程序 的 运行 状态 保存 起 来 ， 待 下 次 轮 到 的 时 候 ， 提 取出 来 继续 执 
行 。 比 如 每 10ms 中 断 一 次 ， 那 么 也 就 是 说 每 个 应 用 程序 ， 可 以 运行 
10ms 的 时 间 ， 然 后 CPU 运行 下 一 个 程序 ， 这 样 依次 轮回 。 微 观 上 ， 每 
个 程序 运行 的 时 候 ， 还 是 独占 CPU， 但 是 这 个 独占 的 时 间 非 常 小 ， 通 
常 为 10ms， 那 么 一 秒 就 可 以 在 宏观 上 “同时 ”运行 100 个 程序 。 这 就 是 
多 任务 操作 系统 。 多 任务 操作 系统 的 关键 ， 就 是 具有 多 任务 调度 程 
序 。 


通过 这 样 的 虚拟 化 ， 运 行 在 操作 系统 之 上 的 所 有 程序 都 会 认为 自 
己 是 独占 一 台 计 算 机 的 硬件 运行 。 


3. 虚拟 化 的 好 处 


上 面 介绍 了 计算 机 硬件 以 及 操作 系统 ， 其 实 计 算 机 系统 从 诞生 的 
那 一 天 开始 ， 就 在 不 断 地 进行 着 虚拟 化 过 程 ， 时 至 今日 ， 计 算 机 虚拟 
化 进程 依然 在 飞快 发 展 着 。 


硬件 逻辑 被 虚拟 化 成 汇编 语句 ， 汇 编 语句 再 次 被 封装 ， 虚 拟 化 成 
高 级 语言 的 语句 。 高 级 语言 的 语句 ， 再 次 被 封装 ， 形 成 一 个 特定 目的 
的 程序 ， 或 者 称 为 函数 ， 然 后 这 些 族 数 ， 再 通过 互相 调用 ， 生 成 更 复 
杂 的 水 数 ， 再 将 这 些 水 数组 合 起 来 ， 就 形成 了 最 终 的 应 用 程序 。 程 序 
再 被 操作 系统 虚拟 成 一 个 可 执行 文件 。 其 实 这 个 文件 代表 了 什么 呢 ? 
到 了 底层 ， 其 实 就 是 一 次 一 次 的 对 CPU 的 电路 信号 刺激 。 也 就 是 说 ， 


硬件 电路 逻辑 ， 一 层 层 地 被 虚拟 化 ， 最 终 虚拟 成 一 个 程序 。 程 序 就 是 
对 底层 电路 上 下 文 逻 辑 的 另 一 种 表达 形式 。 


虚拟 化 的 好 处 显而易见 ， 虚 拟 化 将 下 层 的 复杂 人 逻辑 转变 为 上 层 的 
简单 逻辑 ， 方便 人 类 读 懂 ， 也 就 是 说 “科技 ， 以 人 为 本 。 任 何 技术 ， 
都 是 为 了 将 上 层 人 逻辑 变 得 更 加 简单 ， 而 不 是 越 变 越 复杂 ， 当 然 使 上 层 
越 简 单 ， 下 层 就 要 做 更 多 的 工作 ， 融 越 复 杂 。 


整个 计算 机 拷 术 ， 从 开始 到 现在 ， 就 是 一 个 不 断 地 抽象 、 封 闭 、 
虚拟 、 映 射 的 过 程 ， 一 直到 现在 还 在 不 断 抽 象 封装 着 ， 比 如 Java 等 比 C 
抽象 封装 度 更 高 的 高 级 语言 ， 当 然 使 用 起 来 也 比 C 方 便 和 简单 多 了 ， 
但 是 随 之 而 来 的 ， 其 下 层 就 要 复杂 一 些 ， 所 以 Java 代 码 一 般 运 行 速度 
慢 ， 耗 费 资 源 也 大 ， 但 是 对 于 现在 飞速 发 展 的 硬件 能 力 ， 是 不 成 问题 
的 。 


同样 ，CPU 也 不 仅仅 只 是 一 味 地 增加 晶体 管 数 量 这 么 简单 。CPU 
制造 者 也 在 想 尽 办 法 将 一 些 功 能 封装 到 CPU 的 逻辑 电路 中 ， 从 而 出 现 
了 更 多 的 指令 集 ， 这 些 指令 集 就 像 程序 函数 一 样 ， 不 必 理 解 它 内 部 到 
底 怎么 实现 的 ， 只 需要 发 给 CPU ，CPU 就 会 启动 逻辑 电路 计算 。 到 目 
前 为 止 ，Intel 的 CPU 已 经 发 展 到 了 酷 窒 多 核 。 主 频 1.6GHz 的 酷 窒 四 核 
CPU， 性 能 毫 无 悬念 地 比 主 频 3GHz 甚 至 超频 到 4GHz 的 奔腾 4 代 CPU 还 
高 。 所 以 CPU 的 设计 除了 提高 主 频 之 外 ， 更 重要 的 是 内 部 逻辑 的 优 
化 ， 集 成 度 的 提高 ， 更 多 的 抽象 和 封装 。 


提示 : 虚拟 化 的 思想 在 计算 机 的 各 个 方面 都 是 存在 的 ， 比 如 
经 典 的 OSI 模 型 ， 就 是 一 个 不 折 不 扣 的 抽象 虚拟 模型 。 尤 其 
是 TCP/P 协 议 给 上 层 抽 和 象 出 来 的 Socket 接 口 ， 即 “插座 接 
口 ”， 也 可 以 理解 为 ， 只 要 将 插头 接 上 这 个 插座 ， 就 会 和 网 络 


接 通 ， 而 不 必 管 它 是 怎么 实现 的 ， 就 像 将 交流 电 插头 插入 市 
电 插座 一 样 ， 插 上 就 获得 了 电压 ， 而 不 用 管 市 电 电 网 的 拓 
扑 ， 更 不 用 关心 国家 总 电网 的 拓扑 了 。 


14.2 ”计算 机 存储 子 系统 的 虚拟 化 


上 面 介绍 了 很 多 关于 汇编 和 操作 系统 的 虚拟 抽象 ， 下 面 将 介绍 计 
算 机 系统 中 的 存储 子 系统 中 的 虚拟 化 。 


存储 子 系统 的 元 素 包 括 磁盘 、 磁 盘 控制 器 、 存 储 网 络 、 磁 盘 阵 
列 、 卷 管理 层 、 目 录 虚 拟 层 及 文件 系统 虚拟 层 。 下 面 从 下 到 上 ， 一 一 
首 述 这 几 个 元 素 ， 看 看 存储 子 系统 是 怎么 抽象 虚拟 的 。 


1。 磁盘 控 制 器 


磁盘 控制 器 的 工作 就 是 根据 驱动 程序 发 来 的 磁盘 读 写 信息 ， 向 磁 
盘 发 送 SCSI 指 令 和 数据 。 这 个 部 件 看 似 没有 什么 可 抽象 虚拟 的 东西 ， 
其 实 磁 盘 控 制 器 完全 可 以 对 其 驱动 程序 隐藏 其 下 挂 的 物理 磁盘 ， 而 虚 
拟 出 一 个 或 者 多 个 虚拟 磁盘 。 由 控制 器 来 完成 虚拟 磁盘 和 物理 磁盘 的 
映射 和 抽象 虚拟 。RAID 就 是 一 个 典型 代表 ， 控 制 器 将 物理 磁盘 组 成 
RAID Group， 然 后 在 RG 的 基础 上 ， 虚 拟 出 多 个 LUN， 通 告 给 主机 了 驱 
动 。 


2。 存储 网 络 


早期 的 存储 子 系统 ， 没 有 网 络 化 ; 而 目前 的 存储 系统 ， 网 络 化 已 
经 非常 彻底 。 从 磁盘 到 磁盘 阵列 控制 器 ， 从 磁盘 阵 控 制 器 到 主机 总 续 
适配器 ， 都 已 经 戏 入 了 网 络 化 元 素 。 比 如 使 用 FC 协 议 ， 或 者 TCP/TP 协 


议 、SAS 协 议 、Infiniband 协 议 等 。 那 么 在 这 一 层 上 ， 有 什么 可 以 抽象 
的 吗 ? 网 络 化 只 是 为 部 件 之 间 提 供 了 一 种 可 扩展 的 传输 通路 而 已 ， 貌 
似 在 这 个 层面 上 不 能 做 出 什么 大 文章 来 。 


实则 不 然 ， 这 一 层 也 是 有 所 深究 的 。 在 交换 式 SAN 中 ， 不 管 是 基 
于 TCP/IP 协 议 的 还 是 基于 FC 协议 的 SAAN， 网 络 中 的 任何 节点 ， 都 是 通 
过 交换 设备 来 互相 通信 ， 这 是 节点 间 通 信 的 必 经 之 路 。 如 果 在 交换 设 
备 上 做 点 手脚 ， 就 完全 可 以 达到 虚拟 化 的 效果 。 


要 抽象 一 种 逻辑 ， 那 么 一 定 要 理解 这 种 人 逻辑， 所 以 我 们 可 以 在 FC 
交换 机 或 者 以 太 网 交换 机 上 ， 同 入 SCSI 协 议 感知 模块 。 比 如 某 个 N 节 
点 向 男 一 个 N 节 点 Report LUN 的 时 候 ， 交 换 机 收 到 这 个 Frame， 则 可 以 
感知 这 个 N 节 点 的 LUN 人 信息。 如 果 此 时 网 络 中 还 有 另 一 个 节点 的 LUN 
言 息 ， 则 可 以 在 交换 机 这 一 层 到 达 这 两 个 节点 的 LUN 的 镜像 。 也 就 是 
说 ，SCSI 发 起 设备 向 目标 设备 传输 的 数据 ， 经 由 交换 机 的 时 候 ， 交 换 
机 内 内 的 虚拟 化 模块 ， 会 主动 复制 对 应 的 帧 到 另 一 个 节点 的 LUN 上 ， 
让 这 两 个 LUN 形 成 镜像 ， 当 其 中 一 个 节点 故障 的 时 候 ， 交 换 机 因为 知 
道 此 时 还 有 一 个 备份 镜像 LUN 存 在 ， 所 以 并 不 会 向 发 起 者 通告 失败 ， 
而 是 默默 地 将 发 起 者 的 数据 重 定向 到 这 个 镜像 的 LUN， 发 起 设备 并 不 
会 感知 ， 这 样 ， 就 达到 了 基于 网 络 层 的 虚拟 化 抽象 。 


当然 ， 网 络 层 的 虚拟 化 并 不 只 是 镜像 ， 是 将 某 些 N 节 点 的 LUN 合 
并 成 一 个 了 地， 然后 动态 地 从 这 个 池 中 再 划分 出 虚拟 LUN， 向 发 起 者 报 
告 等 。 基 于 这 些 思 想 ， 已 经 开发 出 了 智能 FC 交换 机 。 


3。 磁盘 阵列 


磁盘 阵列 可 以 说 本 身 就 是 一 个 小 计算 机 系统 (JBOD 除 外 ) ， 这 个 
系统 五 脏 俱全 ， 是 对 存储 子 系统 的 抽象 虚拟 化 最 佳 的 表现 。 磁 盘 阵 
列 ， 简 要 地 说 ， 就 是 将 大 量 磁 盘 进 行 组 织 管理 ， 抽 象 虚拟 ， 最 终 形成 
虚拟 的 逻辑 磁盘 ， 最 后 通过 和 主机 适配器 通信 ， 将 这 些 逻 辑 磁 盘 呈 现 
给 主机 。 这 个 功能 和 前 面 提 到 的 磁盘 控制 器 的 功能 类 似 ， 但 是 磁盘 阵 
列 能 比 狭义 的 磁盘 控制 器 提供 更 多 的 特色 功能 ， 况 且 简 单 地 插 在 主机 
IO 总 线 上 的 那 种 RAID 人 磁盘 控制 器 ， 其 接 入 磁盘 数量 有 限 ， 功 能 也 有 
限 。 


大 型 磁盘 阵列 ， 有 自己 的 控制 器 ， 有 的 利用 许 入 式 技 术 ， 将 特别 
定制 的 操作 系统 及 其 核心 管理 软件 佬 入 必 片 中 ， 来 管理 整个 控制 器 并 
实现 其 功能 ; 有 的 则 干脆 利用 现成 的 主机 来 充当 盘 阵 控制 器 的 角色 ， 
比如 IBM 的 DS8000 系 列 盘 阵 ， 内 部 就 是 用 的 两 人 台 IBM P 系 列 小 型 机 作 
为 其 组 织 管理 磁盘 的 控制 器 ， 其 上 运行 AIX 操 作 系 统 和 相应 的 存储 管 
理 软 件 。 


不 管 是 能 入 式 ， 还 是 主机 式 的 ， 盘 阵 控 制 器 所 担任 的 角色 都 是 类 
似 的 。 这 个 中 心 控制 器 ， 不 直接 参与 连接 每 块 磁盘 ， 而 是 利用 后 端 适 
配器 来 管理 下 挂 的 磁盘 ， 由 后 端 适配器 向 其 上 级 汇报 。 


这 些 适 配器 ， 就 是 由 中 心 控制 器 驱动 的 二 级 磁盘 控制 器 ， 这 些 磁 
盘 控 制 器 作为 中 心 CPU 的 IO 适配器 ， 直 接 控制 和 管理 物理 磁盘 ， 然 后 
由 中 心 控制 器 统一 实现 RAID、 卷 等 高 级 功能 (有 些 盘 阵 则 可 以 将 简单 
的 RAID 功 能 直接 下 放 给 二 级 控制 器 来 做 ) 。 后 端 适配器 与 中 心 控制 器 
CPU 之 间 通 过 某 种 总 线 技术 连接 ， 如 PCIX、PCIE 总 线 等 。 中 心 控制 器 
对 这 些 磁盘 进行 虚拟 抽象 之 后 ， 通 过 前 端的 接口 ， 向 最 终 使 用 它 的 主 
机 进行 通告 。 中 心 控制 器 不 但 可 以 实现 最 基本 的 RAID 功 能 ， 而 且 可 以 
实现 很 多 高 级 功能 ， 如 LUN 镜 像 、 快 照 、 远 程 复制 、CDP 数 据 保护 、 


LUN 再 分 配 等 。 在 磁盘 阵列 上 实现 虚拟 化 ， 是 目前 最 广泛 的 一 种 存储 
系统 虚拟 化 形式 。 


有 些 产 品 甚至 学 成 了 借 花 献 佛 的 本 领 。 比 如 NetApp 公 司 V 系 列 
NAS 网 天 、HDS 公 司 的 某 些 存 储 设备 以 及 IBM 公 司 的 VC。 这 些 设备 
面 对 后 端 存储 时 ， 它 就 是 主机 ， 而 面 对 前 端 主 机 的 时 候 ， 它 们 就 是 存 
储 ， 如 图 14-1 所 示 。 


图 14-1 ” 借 花 献 佛 


提示 : 竺 一 感觉 这 台 虚 拟 化 设备 也 真 够 无 赖 的 ， 明 明 自 己 没 
有 磁盘 却 能 踩 着 别人 的 脚 向 外 提供 LUN ， 明 明 就 是 自己 向 别 
人 租赁 来 的 然后 又 装修 了 一 把 ， 转 租 出 去 。 但 是 我 们 非常 需 
要 这 种 设备 ， 因 为 它 帮 了 大 忙 。 


假如 ， 图 14-1 中 磁盘 阵列 1 的 容量 为 1TB ， 磁 盘 阵 列 2 的 容量 为 
1TB， 而 某 台 主机 需要 一 个 容量 为 2TB 大 小 的 LUN， 这 怎么 办 呢 ? 我 
们 可 以 在 主机 上 安装 卷 管理 软件 ， 让 VM 把 这 两 个 1TB 的 LUN 合 并 成 一 
个 2TB 的 卷 即 可 。 但 是 这 么 做 需要 耗费 主机 资源 ， 且 虚拟 好 的 新 LUN 
只 能 给 这 人 台 主 机 使 用 。 而 一 些 旧 的 低 端 设备 ， 由 于 其 容量 和 性 能 等 已 
经 不 能 满足 要 求 ， 如 果 可 以 将 这 些 设备 挂 到 这 人 台 虚 拟 化 设备 上 ， 作 为 
一 个 二 线 存储 资源 ， 这 样 就 将 所 有 的 存储 资源 整合 到 了 一 起 ， 统 一 管 
理 和 分 配 。 


要 想 获 得 足够 的 性 能 和 灵活 性 ， 就 需要 图 14-1 所 示 的 虚拟 化 设备 
了 。 


这 个 设备 在 盘 阵 端 (后 端 ) 的 FC HBA 卡 处 于 FC Initiaor 模 式 ， 即 
在 后 端 ， 这 人 台 设 备 以 主机 模式 出 现 。 而 在 前 端 (主机 端 ) ， 这 人 台 设 


的 FC HBA 卡 为 FC Target 模 式 ， 即 它 以 盘 阵 的 角色 出 现 。 这 样 ， 这 人 台 
设备 就 可 以 从 其 后 端 掌 管 LUN ， 然 后 将 这 些 LUN 合 并 并 再 次 灵活 分 
割 ， 呈 交 给 其 前 端的 多 台 主 机 使 用 。 除 了 简单 的 合并 再 分 着 LUN 之 
外 ， 这 人 台 设 备 还 可 以 做 许多 其 他 数据 管理 操作 ， 比 如 将 两 个 LUN 镜 
像 、 快 照 、CDP 等 。 


4. 卷 管理 层 


卷 管理 层 是 指 运行 在 应 用 主机 上 的 功能 模块 。 它 负责 底层 物理 磁 
盘 或 者 LUN 的 收集 和 再 分 配 。 经 过 盘 阵 控制 器 虚拟 化 之 后 生成 的 LUN 
提交 给 主机 使 用 ， 主 机 可 以 对 这 些 LUN 进 行 再 次 抽象 和 虚拟， 也 就 是 
重复 虚拟 化 ， 比 如 对 其 中 两 个 LUN 进 行 镜像 处 理 ， 或 者 对 其 中 的 多 个 
LUN， 做 成 一 个 软 RAID 系 统 。 再 或 者 将 所 有 LUN 人 合并， 形成 一 个 大 
的 资源 池 ， 然 后 像 狂 面团 一 样 狂 成 多 个 卷 ， 这 个 过 程 和 磁盘 控制 器 、 
盘 阵 控制 器 所 做 的 虚拟 化 动作 类 似 ， 但 是 这 个 动作 是 在 主机 上 实现 
的 。 典 型 的 卷 管 理 软件 有 LVM， 或 者 第 三 方 的 软件 ， 比 如 Veritas 公 司 
的 VxVM。 


5。 文 件 系 统 


数据 只 是 存储 到 磁盘 上 就 完了 吗 ? 显然 不 是 。 打 个 比方 ， 有 位 记 
者 早晨 出 去 采访 ， 手 中 拿 了 一 操 纸 ， 他 每 看 到 一 件 事 就 记录 下 来 。 对 
于 “怎么 将 字 写 在 纸 上 ” 这 个 问题 ， 他 是 这 么 解决 的 ， 他 用 笔 在 格子 上 
写字 ， 写 满 一 行 再 写 下 一 行 ， 还 不 够 就 换 一 张 纸 。 对 于 “怎么 让 自己 在 
纸 上 写 字 ” 这 个 问题 ， 是 他 自己 通过 大 脑 (控制 器 ) ， 通 过 神经 网 络 
(SCSI 线 绕 ) ， 操 纵 自 己 的 手指 (磁头 席 ) ， 拿 着 笔 (磁头 ) ， 看 见 
有 格子 ， 就 向 里 写 。 这 两 个 问题 都 解决 了 。 可 是 这 一 天 下 来 ， 他 回去 


想 看 看 一 天 都 发 生 了 什么 ， 他 拿 出 记录 纸 ， 却 发 现 ， 信 息 都 是 零 

的 ， 根 本 无 法 阅读 ， 有 时 候 读 到 一 半 ， 就 断 了 ， 显 然 当 时 是 因为 格子 
不 够 用 了 ， 写 到 其 他 地 方 了 ， 造 成 了 信息 记录 的 不 连续 ， 有 的 地 方 还 
有 删除 线 ， 证 明 这 一 块 作废 了 ， 那 么 有 效 的 记录 到 底 在 哪里 呢 ? 记者 
方 十 大乱， 数据 虽然 都 完好 地 记录 在 约 上 ， 但 是 它们 都 是 不 连续 的 、 
凌乱 的 ， 当 时 是 都 记 下 来 了 ， 但 是 事后 想 要 读 取 时 却 没 辕 了。 


磁盘 记录 也 一 样 ， 只 解决 磁盘 怎么 记录 数据 和 怎么 让 磁盘 记录 数 
据 ， 是 远 远 不 够 的 ， 还 应 该 考虑 "怎么 组 织 磁 盘 上 的 数据 ”。 


还 是 用 这 个 记者 的 例子 来 说 明 。 我 们 都 能 想到 ， 将 姿 乱 的 记录 组 
织 成 完整 的 一 个 记录 ， 只 需要 在 相应 的 地 方 做 一 下 标记 ， 比 如 “此 文章 
下 一 段位 于 某 某 页 ， 第 几 行 ”， 就 像 路 标 一 样 ， 一 次 一 次 地 指引 你 最 终 
找 出 这 个 完整 的 数据 ， 这 个 思想 称 为 “链表 ”。 


如 果 将 这 个 链表 单独 地 做 成 一 个 记录 ， 存 放 到 固定 位 置 ， 每 次 只 
要 参考 这 个 表 ， 就 能 找 出 一 条 数据 在 磁盘 上 的 完整 分 布 情况 。 利 用 这 
种 思想 做 出 来 的 文件 系统 ， 比 如 FAT 文 件 系统 ， 它 把 每 个 完整 的 数据 
称 为 文件 。 文 件 可 以 在 磁盘 上 不 连续 地 存放 ， 由 单独 的 数据 结构 来 描 
述 这 个 文件 在 磁盘 上 的 分 布 ， 这 个 数据 结构 就 是 文件 分 配 表 。File 
Allocate Table， 也 就 是 FAT 的 由 来 。 或 者 用 另 一 种 思想 来 组 织 不 连续 
的 数据 ， 比 如 NTFS， 它 是 直接 给 出 了 一 个 文件 在 磁盘 上 的 具体 局 区 ， 
开始 一 结束 ， 开 始 一 结束 ， 用 这 样 的 结构 来 描述 文件 的 分 布 情况 。 


文件 系统 将 磁盘 抽象 成 了 文件 柜 ， 同 一 份 文件 可 能 存放 在 一 个 柜 
子 的 不 同 抽 居中 ， 利 用 一 份 特别 的 文件 来 记录 “文件 一 对 应 抽 居 ”的 分 
布 情况 ， 这 些 用 来 描述 其 他 文件 分 布 情况 及 其 属性 的 文件 ， 称 为 元 文 
件 (Metadata) 。 元 文件 一 般 情况 下 要 存放 在 磁盘 的 固定 位 置 ， 而 不 


能 将 其 分 散 ， 因 为 最 终 要 有 一 个 绝对 参考 系统 。 但 是 有 些 文 件 系统 ， 
甚至 将 元 文件 也 可 以 像 普通 文件 一 样 ， 在 磁盘 上 不 连续 地 分 布 。 前 面 
还 说 过 一 定 要 有 一 个 绝对 参考 系统 ， 也 就 是 固定 的 入 口 ， 所 以 这 些 特 
殊 的 文件 系统 ， 其 实 最 上 层 还 是 有 一 个 绝对 参考 点 的 ， 这 个 参考 点 将 
生成 元 文件 /在 磁盘 上 的 分 布 情况 记录 ， 从 而 定位 元 文件 ， 再 根据 元 文 
件 ， 定 位 数据 文件 ， 这 样 一 层 一 层 地 赔 套 ， 最 终 形成 文件 系统 。 


最 终 一 句 话 ， 文 件 系统 是 对 磁盘 块 的 虚拟 、 抽 象 、 组 织 和 管理 。 
用 户 只 要 访问 一 个 个 的 “文件 ”， 融 等 于 访问 了 磁盘 扇 区 。 而 访问 文 
件 ， 这 个 动作 是 非常 容易 理解 的 ， 也 是 很 简单 的 ， 用 户 不 必 了 解 这 个 
文件 最 终 在 磁盘 上 是 存放 到 哪里 ， 怎 么 存放 的 ， 怎 么 访问 磁盘 来 存放 
这 个 文件 ， 这 些 统统 都 是 由 文件 系统 和 磁盘 控制 器 驱动 程序 来 做 。 


6. 目录 虚拟 层 


不 管 是 Windows 系 统 、UNIX 系 统 ， 还 是 Linux 系 统 ， 其 内 部 都 有 
一 个 虚拟 的 目录 结构 。 在 Linux 中 叫做 VFS， 即 Virtual File System。 


虚拟 文件 系统 ， 顾 名 思 义 也 就 是 说 这 个 文件 系统 目录 并 不 是 真实 
的 ， 而 是 虚拟 的 。 任 何 实际 文件 系统 ， 都 可 以 挂 载 到 这 个 目录 下 ， 真 
实 FS 中 的 真实 目录 ， 被 挂 载 到 这 个 虚拟 目录 下 之 后 ， 就 成 为 了 这 个 虚 
拟 目录 的 子 目 录 。 这 样 做 的 好 处 是 增强 灵活 性 。 其 次 ， 操 作 系统 目前 
处 理 外 部 设备 ， 一 般 都 将 其 虚拟 成 一 个 虚拟 文件 的 方式 ， 比 如 一 个 
卷 ， 在 Linux 中 就 是 /dev/hda 这 种 文件 。 对 这 个 文件 进行 读 写 ， 就 等 于 
直接 对 设备 进行 了 读 写 。 


存储 子 系统 的 虚拟 化 ， 可 以 在 “磁盘 一 盘 阵 控制 器 一 存储 网 络 一 主 
机 总 线 适配器 一 卷 管理 层 一 文件 系统 层 一 虚拟 目录 层 和 最 终 应 用 层 ” 各 


个 环节 虚拟 抽象 地 工作 ， 使 得 最 终 应 用 软件 ， 只 要 通过 文件 系统 访问 
文件 ， 就 可 以 做 到 访问 最 底层 的 磁盘 一 样 的 效果 。 有 时 候 还 可 以 重复 
虚拟 化 。 


14.3 ” 带 内 虚拟 化 和 带 外 虚拟 化 


所 谓 囊 内 即 In Band， 是 指控 制 信 令 和 数据 走 的 是 同一 条 路 线 。 所 
谓 控 制 信 令 ， 就 是 说 用 来 控制 实际 数据 流向 和 行为 的 数据 。 典 型 的 控 
制 信 令 ， 比 如 IP 网 络 中 的 各 种 IP 路 由 协议 所 产生 的 数据 包 ， 它 们 利用 
实际 数据 线路 进行 传输 ， 从 而 达到 各 个 设备 之 间 的 路 由 统一 ， 这 就 是 
带 内 的 概念 。 


带 外 即 Out Band， 是 指控 制 信 令 和 实际 数据 走 的 不 是 同一 条 路 ， 
控制 信 令 走 单独 的 通路 ， 受 到 “优待 ”。 


寓 内 和 审 外 ， 只 是 一 种 叫 法 而 已 ， 在 电话 信 令 中 ， 市 内 和 融 外 是 
用 * 共 路 ”和 * 随 路 "这 两 个 词 来 描述 的 。 共 路 信 令 指 的 是 控制 信 令 和 实 
际 数据 走 相 同 的 线路 ， 随 路 信 令 则 措 二 者 走 不 同 的 线路 ， 信 令 单 独 走 
一 条 线路 。 随 路 又 可 以 称 作 * 旁 路 "， 因 为 它 是 单独 一 条 路 。 


明白 了 上 面 这 些 概念 ， 用 户 就 可 以 理解 所 谓 “ 带 内 虚拟 化 "和 “ 带 外 
虚拟 化 ”的 概念 了 。 


带 内 虚拟 化 ， 就 是 说 进行 虚拟 化 动作 的 设备 ， 是 直接 横 插 在 发 起 
者 和 目标 路 径 之 间 的 ， 斩 上 断 了 二 者 之 间 的 通路 ， 执 行 中 介 操 作 ， 发 起 
者 看 不 到 目标 ， 而 只 能 看 到 经 过 虚拟 化 的 虚拟 目标 。 所 以 在 这 内 虚拟 
化 方式 下 ， 数 气流 一 定 会 经 过 路 径 上 的 所 有 设备 ， 即 所 有 设备 是 串联 


在 同一 条 路 径 上 的 ， 虚 拟 化 设备 插入 这 条 路 径 中 ， 作 为 一 个 “和 泵 ”， 经 
过 它 的 时 候 就 被 虚拟 化 了 。 


带 外 虚拟 化 ， 则 是 在 这 个 路 径 劳 男 起 一 条 路 径 ， 也 就 是 所 谓 旁 
路 。 用 这 条 路 径 来 走 控制 信号 ， 而 实际 数据 还 是 由 发 起 者 直接 走向 目 
标 。 但 是 这 些 数 据 流 是 受 控制 信 令 所 控制 的 ， 也 就 是 发 起 者 必须 先 “ 咨 
询 ” 旁 路 上 的 虚拟 化 设备 ， 经 过 “提示 ”或 者 “授权 ”之 后 ， 才 可 以 根据 虚 
拟 化 设备 发 来 的 “指示 ”直接 向 目标 请 求 数 据 。 帝 外 虚拟 化 方式 中 ， 数 
据 通路 和 信 令 通路 是 并 联 的 。 


带 内 虚拟 化 的 例子 非常 多 ， 目 前 的 虚拟 化 引擎 几乎 都 是 带 内 虚拟 
化 。IBM 的 SVC (San Volume Controller) 、Netapp 的 V-series、HDS 公 
司 的 USP 系 列 等 ， 它 们 都 是 带 内 虚拟 化 引擎 。 


1。. 带 外 虚拟 化 系统 SanFS 


带 外 虚拟 化 的 一 个 典型 的 例子 ， 是 IBM 公 司 的 SanFS 系 统 。 图 14-2 
显示 了 SanFS 的 基本 架构 。 


图 14-2 ” IBM 公司 的 SanFS 架 构 示意 图 


SanFS 其 实 根本 没有 什么 高 深 的 地 方 ， 说 白 了 ，SanFS 就 是 一 个 网 
络 上 的 文件 系统 ， 也 就 是 说 ， 常 规 的 文件 系统 都 是 运行 在 主机 服务 器 
上 的 ， 而 SanFS 将 它 搬 到 了 网 络 上 ， 用 一 台 专 门 的 设备 来 处 理 文 件 系 
统 逻 辑 。 


然而 ， 这 个 “网 络 上 的 文件 系统 ” 却 绝对 不 是 “网 络 文 件 系统 ”"。 网 
络 文 件 系统 是 典型 的 带 内 虚拟 化 方式 ， 因 为 网 络 文件 系 统 对 上 层 屏 菩 
了 底层 卷 ， 只 给 上 层 提 供 一 个 目录 访问 接口 ， 上 层 看 不 到 网 络 文件 系 


统 底 层 的 卷 ， 只 能 看 到 目录 。 而 SanFS 架 构 中 ， 上 层 既 能 看 到 文件 系 
统 目 录 ， 又 能 看 到 底层 卷 (LUN) ， 如 图 14-3 所 示 。 


图 14-3 ”SanFS 架 构 示意 图 


图 14-3 中 ， 左 边 的 服务 器 是 一 台 普 通 的 服务 器 ， 右 边 是 一 台 使 用 
SanFS 文 件 系统 的 服务 器 。 右 边 的 服务 器 上 的 文件 系统 已 经 被 搬 到 了 
外 面 ， 即 运行 在 一 台 SanFS 控 制 器 上 ， 这 个 控制 器 与 服务 器 都 接 入 一 
台 以 太 网 交换 机 。 当 虚拟 目录 层 需 要 与 文件 系统 层 通信 的 时 候 ， 通 信 
路 径 不 再 是 内 存 ， 而 是 以 太 网 了 。 由 于 文件 系统 已 经 家 搬出 主机 ， 所 
以 任何 与 文件 系统 的 通信 都 要 被 重 定向 到 外 部 ， 并 且 需 要 用 特定 的 格 
式 ， 将 请 求 通过 以 太 网 发 送 到 SanFS 控 制 器 ， 以 及 从 控制 器 接受 相应 
的 回应 ， 所 以 在 使 用 SanFS 的 服务 器 主机 上 ， 必 须 安装 SanFS 管 理 软 件 

(或 者 叫做 SanFS 代 理 ) 。 


下 面 用 几 个 实例 来 说 明 SanFS 是 如 何 作 用 的 。 
实例 1 


服务 器 运行 Windows 2003 操 作 系统 ， 使 用 SanFS 作 为 文件 系统 的 
卷 的 盘 符 为 “S” 盘 。 在 Windows 中 双击 盘 符 5， 此 时 VFS 虚 拟 目 录 层 便 
会 发 起 与 SanFS 控 制 器 的 通信 ， 因 为 需要 获取 盘 符 S 根 目录 下 的 文件 和 
目录 列表 。 所 以 VFS 调 用 SanFS 代 理 程 序 ， 通 过 以 太 网 络 向 SanFS 控 制 
器 发 送 请 求 ， 请 求 S 根 目录 的 文件 列表 ，SanFS 控 制 器 收 到 请 求 之 后 ， 
将 列表 通过 以 太 网 发 送 给 SanFS 人 代理， 代理 再 传递 给 VFS， 随 即 就 可 以 
在 窗口 中 看 到 文件 和 目录 列表 了 。 


实例 2 


某 时 刻 ， 某 应 用 程序 要 向 S 盘 根 目录 下 写 入 一 个 大 小 为 1MB 的 文 
件 。VFS 收 到 这 个 请 求 之 后 ， 立 即 向 SanFS 控 制 器 发 送 请 求 ，SanFS 探 
制 器 收 到 请 求 之 后 ， 计 算出 应 该 使 用 卷 上 的 哪些 空间 块 ， 将 这 些 空 闪 
块 的 LBA 号 码 列表 以 及 一 些 其 他 必要 信息 通过 以 太 网 传送 到 服务 器 。 
服务 器 上 的 SanFS 收 到 这 些 信息 后 ， 便 调用 操作 系统 相关 模块 ， 将 应 
用 的 数据 从 服务 器 的 内 存 中 直接 向 下 写 入 对 应 卷 的 LBA 地 址 上 。 


SanFS 系 统 是 一 个 典型 的 带 外 虚拟 化 系统 ， 服 务 器 主机 虽然 可 以 
到 底层 卷 ， 但 是 管理 这 个 卷 的 文件 系统 ， 却 没有 运行 在 主机 上 ， 而 
是 运行 在 主机 之 外 。 主 机 与 这 个 文件 系统 之 间 通 过 前 端 以 太 网 通信 ， 
收 到 文件 系统 的 指示 之 后 ， 主 机 才 按 照 指 示 将 数据 直接 写 入 卷 。 


SanFS 究 竟 有 何 意义 呢 ? SanFS 是 不 是 有 点 多 此 一 举 呢 ? 放 着 主机 
内 存 这 么 好 的 风水 宝地 不 用 ， 却 自己 跑 出 去 单独 运行 ， 和 别人 通信 还 
得 忍受 以 太 网 的 低速 度 〈 相 对 内 存 来 说 ) ， 这 是 何苦 呢 ? 笋 费 苦心 的 
SanFS 当 然 有 自己 的 算盘 ， 这 么 做 的 原因 如 下 。 


将 文件 系统 逻辑 从 主机 中 剥离 出 来 ， 降 低 主 机 的 负担 。 


既然 将 文件 系统 从 主机 剥离 出 来 ， 为 何不 干脆 做 成 NAS 呢 ? NAS 
同样 也 是 将 文件 系统 搬移 出 主机 。 答 案 是 因为 向 NAS 传 输 数据 ， 走 的 
是 以 太 网 ， 速 度 相 对 FC SAN 要 慢 。 所 以 SanFS 的 设计 是 只 有 元 数据 的 
数据 流 走 以 太 网 ， 实 际 数据 依然 由 主机 自行 通过 SAN 网 络 写 入 盘 阵 等 
存储 设备 。 这 样 就 加 快 了 数据 的 传输 速度 ， 比 NAS 有 优势 。 


其 实 SanFS 一 个 最 大 的 特点 ， 就 是 支持 多 台 主 机 共享 同一 个 卷 ， 
即 同一 时 刻 可 以 由 多 台 主 机 共同 读 写 (注意 是 读 写 ) 同一 个 SanFS 
卷 。 这 也 是 SanFS 最 大 的 卖点 。 共 享 同 一 个 LUN 的 所 有 主机 ， 都 与 


SanFS 控 制 器 通信 以 获得 访问 权限 ， 所 以 SanFS 干 脆 就 自己 单独 占用 一 
台 专 用 设备 ， 放 在 网 络 上 ， 也 就 是 SanFS 控 制 器 ， 这 样 可 以 让 所 有 主 
机 方便 地 与 它 连 接 。 


2。SanFS 与 NAS 的 异同 


SanFSs 与 网 络 文件 系统 究竟 有 何不 同 呢 ， 如 图 14-4 所 示 。 
图 14-4 SanFSs 与 NAS 的 异同 


显然 ，NAS (网 络 文件 系统 ) 与 SanFS 是 截然 不 同 的 。 主 机 向 
NAS 写 入 数据 ， 其 实 要 经 历 两 次 写 的 过 程 ， 第 一 次 写 是 主机 将 数据 通 
过 以 太 网 发 送 给 NAS 的 时 候 ， 第 二 次 写 是 NAS 将 收 到 的 数据 写 入 自己 
的 硬盘 (本 地 磁盘 或 者 SAN 上 的 LUN 卷 ) 。 而 SanFS 只 写 入 一 次 数 
据 ， 而 且 是 通过 FC SAN， 而 不 是 相对 慢 速 的 以 太 网 。 


3。 轮回 和 藤 套 虚拟 化 


以 太 网 在 传统 上 是 用 来 承载 1P 的 ， 但 是 有 一 些 技术 是 将 以 太 网 承 
到 IP 之 上 的 ， 比 如 VPLS。VPLS 属 于 一 种 极端 变态 的 协议 杂交 方 
式 。 它 窝 套 了 多 次 ， 也 轮回 了 多 次 。 


VPLS 可 以 说 是 对 以 太 网 VLAN 技 术 的 一 种 上 层 扩展 。 传 统 VLAN 
使 用 VLAN 标 签 来 区 分 不 同 的 域 ，VPLS 则 可 以 直接 通过 用 不 同 的 IP 来 
封装 以 太 网 头 来 区 分 各 个 以 太 网 域 。 


这 个 技术 也 从 一 个 侧面 表明 了 TCP/IP 在 当今 网 络 通 信和 领域 所 不 可 
动摇 的 绝对 地 位 。 


14.4” 硬 网 络 与 软 网 络 
1. 硬件 网 络 设备 


所 谓 硬件 网 络 设备 ， 其 功能 终究 还 是 靠 软 件 来 实现 的 。 很 多 网 络 
硬件 设备 ， 尤 其 是 路 由 设备 ， 本 质 上 就 是 一 台 PC 或 者 PC Server。 其 上 
运行 着 专门 处 理 网 络 数 据 包 的 程序 。 就 这 样 ， 若 干 底层 网 络 设备 互相 
连接 ， 组 成 了 整个 基础 网 络 ， 也 就 是 硬件 网 络 环境 。 


在 硬件 网 络 环境 的 基础 上 上， 若干 PC 接 入 硬件 网 络 ， 实 现 相 互通 
信 。 也 就 是 说 ， 用 一 部 分 PC 充当 网 络 硬件 设备 ， 其 他 PC 利用 这 些 充当 
网 络 设备 的 PC 实现 通信 。 这 就 是 一 种 能 套 的 表现 ， 也 就 是 “网 中 有 
网 ”。 


2。. 软件 网 络 程序 


Message Queue (MQ) 和 Message Broker (MB) 在 硬件 网 络 设备 
的 基础 上 ， 模 拟 出 一 个 纯 软 件 的 网 络 转 发 引擎 。 这 就 是 一 种 轮回 的 表 
现 。 


MQ 是 一 种 消息 转发 软件 引擎 。 这 个 引擎 运行 在 主机 操作 系统 之 
上 。 其 功能 就 是 充当 一 个 消息 转发 器 。 客 户 端 通过 TCP/IP 与 这 个 转发 
器 相连 ， 将 消息 传送 到 这 个 转发 器 上 ， 然 后 转发 器 根据 策略 ， 将 消息 
转发 到 其 他 客户 端 上 。 这 种 消息 转发 器 ， 也 就 类 似 于 网 络 交 换 机 。 只 
不 过 MQ 的 链 路 层 由 TCP/IP 来 充当 。 


MB 是 一 i Ge he eset 
的 ， 但 是 它 不 仅仅 是 底层 转发 ， 还 能 做 到 应 用 层次 的 转发 。 这 类 似 于 


邮件 服务 器 ， 只 不 过 它 可 以 转发 各 种 格式 和 方式 的 数据 包 。 


ee 用 多 台独 立 的 计算 机 模拟 成 一 台 虚 拟 计 算 


1。HPC 环 境 


点 组 成 线 ， 线 组 成 面 ， 面 组 成 体 ， 体 与 体 之 间 组 成 网 ， 然 后 就 是 
进化 。 同 样 ，HPC 环 境 也 是 这 种 模式 。 在 一 个 典型 的 HPC 环 境 中 ， 包 
含 众多 的 计算 机 ， 这 些 计算 机 各 有 分 工 。 总 体 来 说 ，HPC 环 境 中 的 计 
算 机 可 以 分 为 两 大 类 : 一 种 是 专门 用 来 计算 数据 的 ， 为 CPU 密集 运 
算 ， 另 一 种 是 专门 用 于 存储 计算 过 程 中 ， 所 需要 提取 或 者 存放 数据 
的 ， 为 10 密集 运算 。 前 者 称 为 计算 节点 ， 后 者 称 为 存储 节点 。 而 为 了 
最 大 利用 硬件 资源 ， 有 些 HPC 环 境 中 会 存储 节点 ， 也 兼用 来 做 计算 节 
点 


NO 


可 以 将 一 个 HPC 环 境 中 的 所 有 计算 节点 看 作 一 台大 的 虚拟 计算 机 
的 CPU 和 内 存 ， 而 将 所 有 存储 节点 看 作 虚 拟 计算 机 的 硬盘 。 虚 拟 计算 
机 的 CPU 和 内 存 (计算 节点 ) ， 通 过 某 种 连接 链 路 向 虚拟 计算 机 的 硬 
盘 (存储 节点 ) 读 写 数据 ， 从 而 计算 出 结果 。 对 于 一 台 单 独 的 物理 计 
算 机 来 说 ，CPU 内 存 与 存储 设备 之 间 的 连接 为 高 速 IO 总 线 ， 比 如 
PCIE。 但 是 对 于 由 多 人 台独 立 节点 组 成 的 HPC 系 统 来 说 ， 虚 拟 CPU 与 虚 
拟 存 储 设 备 之 间 的 连 线 就 不 可 能 是 内 部 IO 总 线 了 ， 而 是 一 种 外 部 的 高 
速 网 络 传输 方式 。 有 些 HPC 利 用 Infiniband 网 络 作 为 计算 节点 与 存储 节 
点 之 间 的 连接 方式 ， 有 些 则 干脆 使 用 以 太 网 。 前 者 一 般 用 于 IO 密 集 型 
的 运算 ; 后 者 一 般 用 于 CPU 密集 型 运算 ， 也 就 是 说 ， 运 算 过 程 中 需要 
读 写 的 数据 不 多 。 


2。 典 型 的 web 十 APP 十 DB 架构 


这 种 架构 是 一 种 典型 的 IT 架构 。 客 户 端 通过 web 服务 器 获取 一 个 
图 形 化 显示 网 页 ， 应 用 逻辑 由 APP (Application) 服务 器 处 理 ， 并 将 
结果 通过 Web 服 务 器 显示 到 客户 端的 网 页 上 ，APP 服 务 器 需要 的 数据 
则 通过 访问 数据 库 服 务 器 来 获得 。 


也 可 以 将 Web 服 务 器 看 作 一 台 显示 终端 ， 将 APP 服 务 器 看 作 CPU 
和 内 存 ， 将 DB 服务 器 看 作 硬 盘 。 这 样 ， 一 个 由 Web 十 APP 十 DB 服务 器 
所 组 成 的 虚拟 计算 机 便 诞 生 了 。 


i 用 一 台独 立 的 计算 机 模拟 出 多 合 虚 拟 计算 


1。VMware 虚 拟 机 软件 


VMware 通过 模拟 一 套 硬 件 系统 ， 将 程序 对 这 个 硬件 系统 CPU 发 送 
的 指令 经 过 一 定 的 处 理 之 后 ， 并 加 以 虚拟 传 到 物理 CPU 上 执行 。 利 用 
这 种 方式 ， 可 以 在 一 台 物理 计算 机 上 虚拟 出 多 个 虚拟 机 。 


目前 Windows Server 2008 操 作 系 统 已 经 自 带 了 HyperV 虚 拟 化 引 
擎 。 类 似 VMware 的 ESX。 目 前 很 多 操作 系统 都 集成 了 Native 的 虚拟 化 


引擎 。 
2. 世界 本 身 就 是 一 个 轮回 酝 套 的 虚拟 化 系统 


不 但 在 计算 机 领域 中 有 虚拟 化 ， 在 其 他 学 科 中 同样 有 虚拟 化 。 在 
化 学 领域 中 ， 科 学 家 把 观察 到 的 现象 和 计算 出 来 的 公式 ， 虚 拟 化 成 原 


子 和 分 子 。 


总 之 ， 一 切 都 是 虚拟 化 的 结果 ， 我 们 观察 到 的 世界 其 实 就 是 我 们 
利用 基本 数学 公式 虚拟 出 来 的 。 人 们 首先 在 大 脑 中 演绎 出 数学 ， 然 后 
虚拟 化 出 了 物理 学 ， 然 后 再 用 数学 和 物理 学 虚拟 化 出 化 学 等 其 他 各 种 
学 科 。 这 就 像 用 汇编 语言 来 抽象 数字 电路 逻辑 ， 再 用 高 级 语言 来 抽象 
汇编 语言 ， 然 后 将 现实 中 的 逻辑 用 计算 机 高 级 语言 表达 出 来 ， 让 计算 
机 来 模拟 出 现实 逻辑 。 


14.7 用 磁盘 阵列 来 虚拟 磁带 库 


VTL， 即 Virtual Tape Library， 虚 拟人 磁 市 库 。 传 统 的 物理 磁带 库 为 
全 机 械 操 作 ， 比 如 机 械 手 、 驱 动 器 、 磁 带 等 。 其 速度 相对 磁盘 来 说 要 
慢 很 多 ， 如 果 需 要 备份 的 数据 量 非常 大 ， 而 备份 窗口 又 很 小 ， 那 么 只 
能 通过 提高 磁带 库 的 速度 来 解决 。 但 是 要 提高 磁带 库 的 速度 ， 只 能 同 
时 用 多 个 驱动 器 同时 操作 ， 需 要 成 本 高 ， 不 方便 。 虚 拟 磁带 库 的 出 现 
为 的 就 是 解决 上 述 这 些 问题 。VTIL 使 用 磁盘 来 存储 数据 而 不 是 磁带 ， 
并 虚拟 出 机 械 手 、 磁 带 驱 动 器 、 磁 带 这 三 样 在 物理 上 都 不 存在 的 东 
西 。 在 备份 软件 等 使 用 磁带 库 的 应 用 程序 ， 不 会 发 现 物理 设备 到 底 是 
盘 阵 还 是 真实 的 磁带 库 。 而 虚拟 化 之 后 ， 前 端的 程序 接口 不 变 ， 后 端 
的 速度 和 灵活 性 却 大 大 增加 了 。 


图 14-5 是 一 台 物 理 磁 审 库 的 正视 图 。 图 14-6 显 示 了 仓 门 打开 后 其 
内 部 构件 示意 图 ， 可 以 看 到 一 根 竖 直 的 柱子 ， 这 个 柱子 就 是 机 械 手 的 
滑 轨 。 机 械 手 可 以 沿 着 柱子 上 下 滑动 并 且 可 以 左右 转动 ， 以 抓 取 右 侧 
磁带 槽 中 的 磁带 。 图 14-7 所 示 是 物理 磁带 库 的 两 个 驱动 器 和 电源 后 视 
图 。 在 图 14-8 中 可 以 看 到 另 一 种 设计 的 机 械 手 和 驱动 器 。 


图 14-5 ”物理 磁带 库 的 正视 图 图 14-6 ”物理 磁带 库 的 内 视图 


图 14-7 ”物理 磁带 库 后 视图 (驱动 器 和 电 图 14-8 ” 另 一 种 设计 方式 的 磁带 库 机 械 手 
源 ) 


NetApp VTL700 配 置 使 用 实例 


比如 有 NetApp VTL700 系 列 虚 拟 磁 带 库 一 台 ， 机 头 连接 了 两 个 扩 
展柜 。 共 28 块 500GB 的 SATA 磁 盘 。 


(1) 第 一 步 : 创建 RAID 组 ,为 虚拟 磁带 创建 底层 存储 空间 。 


磁盘 阵列 必须 做 RAID， 这 是 任何 情况 下 都 要 保证 的 。RAID 不 仅 
仅 可 以 提高 速度 ， 更 重要 的 是 为 了 保护 数据 ， 因 为 任何 一 块 硬盘 损 
坏 ， 如 果 没 有 RAID， 都 会 造成 数据 丢失 。VTL 使 用 的 磁盘 阵列 也 不 例 
外 。 


VTL700 可 以 利用 Web 界 面 来 管理 ， 管 理 主 界面 如 图 14-9 所 示 。 
图 14-9 VTL700 管 理 主 界面 


查看 当前 系统 的 虚拟 磁带 容量 等 信息 ， 如 图 14-10 所 示 。 由 于 还 疫 
有 配置 完成 ， 所 以 图 14-10 中 没有 给 出 任何 虚拟 之 后 的 容量 等 信息 
(RAID 组 和 虚拟 磁带 总 容量 都 为 0.00Gb) 。 


图 14-10 ”系统 配置 容量 信息 


从 页 面 左 侧 栏 中 选择 RAID Groups 标 签 ， 右 侧 会 显示 出 当前 系统 
中 所 配置 的 RAID 组 ， 如 图 14-11 所 示 。 由 于 当前 还 没有 配置 任何 RAID 


组 ， 所 以 两 台 扩 展柜 中 的 所 有 磁盘 均 显示 为 灰色 〈 空 朵 状态 ) ， 蓝 
的 磁盘 为 Spare 盘 。 


图 14-11 系统 当前 RAID 组 信息 


选中 图 14-11 上 方 的 Create Raid Group 复 选 框 ， 出 现 如 图 14-12 所 示 
的 页 面 。 
图 14-12 ”创建 RAID 组 页 面 


单 击 图 14-12 中 的 Automatically 0 
Create RAID Group 按 钮 ， 系 统 自动 
创建 RAID 组 。 随 后 出 现 如 图 14-13 所 示 的 窗口 ， 提 示 用 户 创建 RAID 组 


的 规则 。 


单 击 Apply 按 钮 ， 出 现 如 图 14-14 所 示 的 页 面 ， 可 以 看 到 系统 已 经 
创建 好 了 一 系列 的 RAID 组 ， 且 每 个 RAID 组 用 不 同 颜色 表示 。 


图 14-14 ”系统 自动 创建 的 6 个 RAID 组 


单 击 Drop RAID Group 标 签 ， 进 入 删除 RAID 组 页 面 ， 可 以 删除 已 
经 创建 好 的 RAID 组 ， 如 图 14-15 所 示 。 


图 14-15 ”删除 RAID 组 页 面 


单 击 Drop 按 钮 ， 删 除 对 应 的 RAID 组 。 删 除 之 后 也 可 以 再 次 手动 或 
者 自动 创建 RAID 组 。 图 14-16 所 示 为 手动 创建 的 7 个 RAID 组 。 


图 14-16 ”手动 创建 的 7 个 RAID 组 


回 到 Monitor 页 面 ， 查 看 系统 当前 的 配置 容量 信息 ，RAID Group 栏 
目 中 已 经 显示 出 了 系统 当前 的 可 用 磁盘 容量 ， 如 图 14-17 所 示 。 


图 14-17 RAID 组 配置 完 后 的 系统 容量 信息 
(2) 第 二 步 : 创建 虚拟 磁带 库 和 虚拟 磁带 。 


创建 完 RAID 组 之 后 ， 就 为 系统 提供 了 基本 的 存储 空间 。 在 这 个 存 
储 空间 之 上 ， 还 需要 创建 一 台 或 者 多 台 虚 拟 带 库 ， 然 后 创建 虚拟 磁 
市 。 


创建 虚拟 磁 囊 库 。 如 图 14-18 所 示 创 建 一 台 名 为 lib1 的 虚拟 审 库 ， 
带 库 的 厂家 信息 为 NetApp。 虚 拟 磁 带 驱 动 器 类 型 为 IBM LTO1， 这 个 
类 型 必须 对 应 一 款 物理 磁带 驱动 器 ， 下 拉 列 表 框 中 有 多 种 支持 的 物理 
驱动 器 可 选 。Slot Count 即 磁带 槽 位 ， 这 里 定 为 8。Drive Count 即 驱动 
器 数量 ， 这 里 定 为 2。Assigned to Port 表 示 将 这 个 虚拟 磁带 库 在 哪个 前 
端 端口 “提交 ”出 去 ， 即 主机 端 可 以 从 VTL 上 的 哪个 前 端 端 口 识 别 到 这 
台 虚 拟 磁 带 库 。Fully Loaded with Virtual Tapes 表 示 是 否 自动 创建 对 应 
的 虚拟 磁带 并 插 满 磁带 槽 (磁带 模 和 磁带 都 是 虚拟 的 ) 。 Start Tape 
Label 表 示 起 始 标 签名 称 。 物 理 磁带 库 中 ， 每 盘 磁 带 都 有 各 自 的 标签 ， 
机 械 手 通过 这 些 标签 来 识别 每 一 盘 磁 带 ， 昌 然 VTL 不 需要 用 标签 来 识 
别 每 个 虚拟 磁带 ， 但 是 备份 软件 等 程序 需要 知道 这 些 标签 ， 所 以 VTL 
还 是 要 给 每 个 虚拟 磁带 分 配 标 签 。 这 里 用 “1” 来 起 始 ， 这 样 ， 第 二 盘 
虚拟 磁带 系统 就 会 自动 为 其 分 配 “L2” 的 标签 ;， 依 此 类 推 。 


图 14-18 ”创建 虚拟 磁带 库 


单 击 Apply 按 钮 之 后 ， 一 台 虚 拟 磁带 库 就 创建 完 并 可 以 使 用 了 。 此 
外 ， 还 可 以 创建 更 多 的 虚拟 磁带 ， 如 图 14-19 所 示 。 单 击 左 侧 栏 中 的 


Virtual Tapes 标 签 ， 右 侧 页 中 可 以 选择 新 磁带 归属 于 哪个 虚拟 带 库 。 这 
里 选择 刚 多 网 创 建 的 jb1 ， 然后 起 始 标 签 设 为 M1， 数 量 为 8 盘 ， 单 击 
Apply 按 钮 。 这 样 就 向 lib1 这 人 台 虚 拟 带 库 中 增加 了 8 盘 人 磁带 ， 加 上 原 有 
的 一 共 16 盘 。 


图 14-19 ”增加 虚拟 磁带 


单 击 左 侧 栏 中 的 Virtual Libraries 标 签 ， 右 侧 会 出 现 一 张 虚拟 磁带 
库 拓扑 图 。 如 图 14-20 所 示 ， 右 侧 机 柜 中 有 8 个 磁带 模 和 2 个 驱动 器 ， 与 
创建 带 库 时 的 选项 一 一 对 应 。 左 边 的 推 车 上 还 有 8 盘 磁 带 ， 这 是 刚才 追 
加 的 8 盘 磁 带 ， 而 虚拟 带 库 中 的 磁带 槽 放 不 开 ， 所 以 就 放 到 了 虚拟 推 车 
上 。 推 车 上 方 是 一 个 存储 箱 ， 可 以 用 鼠标 把 任意 一 盘 磁 带 拖 动 到 推 
车 、 磁 带 模 或 者 驱动 器 中 。 如 果 拖 动 到 存储 箱 中 ， 则 这 盘 虚 拟 磁 带 便 
被 删除 了 (如 图 14-21 所 示 ) 。 


图 14-20 ”当前 虚拟 磁带 库 的 示意 图 页 面 图 14-21 ”删除 虚拟 磁带 


返回 到 Monitor 页 面 中 可 以 看 到 当前 系统 中 的 虚拟 带 库 信息 ， 如 
14-22 所 示 。 


图 14-22 ”当前 系统 的 虚拟 带 库 信息 


创建 第 二 台 虚 拟 带 库 。 再 次 创建 一 台 名 为 lib2 的 虚拟 带 库 。 这 里 
选择 驱动 器 类 型 为 HP LTO1，16 槽 位 ，4 驱 动 器 ， 如 图 14-23 所 示 。 
14-24 显 示 了 1ib2 的 拓扑 图 ， 可 以 和 lib1 的 图 对 比 一 下 。 


图 14-23 ”创建 lib2 虚 拟 带 库 图 14-24 ”lib2 虚 拟 带 库 拓扑 图 


单 击 左 侧 栏 中 的 Virtual Tapes 标 签 ， 在 右 侧 页 面 中 可 以 查看 虚拟 磁 
带 的 信息 ， 修 改 虚 执 磁 带 的 属性 ， 在 多 台 虚 拟 带 库 中 移动 磁带 ， 删 除 
虚拟 磁带 ， 如 图 14-25 一 图 14-28 所 示 。 


图 14-25 ”显示 虚拟 磁带 信息 图 14-26 ”修改 虚拟 磁带 的 读 写 属性 


图 14-27 在 多 台 虚 拟 带 库 之 间 移 动 磁带 图 14-28 ”删除 虚拟 磁带 


返回 Monitor 页 面 可 查看 系统 中 的 信息 ， 此 时 出 现 另 一 台 虚 拟 带 
库 ， 如 图 14-29 所 示 。 


图 14-29 ”系统 中 的 两 台 虚 拟 带 库 


手动 将 磁带 放 入 驱动 器 。 如 图 14-30 所 示 ， 可 以 在 拓扑 图 中 拖 动 任 
何 一 盘 磁带 进入 驱动 器 。 这 个 动作 就 好 比 在 物理 带 库 中 ， 由 机 械 手 将 
磁带 从 磁带 槽 中 抓 出 ， 并 推 入 磁带 驱动 器 。 当 然 ， 备 份 软件 可 以 发 送 
指令 让 带 库 自动 做 这 个 动作 ， 当 然 也 可 以 手动 做 这 个 动作 。 磁 带 放 入 
驱动 器 之 后 ，Monitor 页 面 中 会 显示 出 当前 带 库 的 驱动 器 中 所 包含 的 磁 
带 ， 如 图 14-31 所 示 。 


图 14-30 手动 将 磁带 放 入 驱动 器 14-31 Monitor 页 面 中 显示 的 驱动 器 状 
态 


/LN 


(3) 第 三 步 : 在 客户 端 使 用 虚拟 磁带 库 。 


客户 端 对 VTL 的 使 用 与 使 用 一 台 纯 物理 磁带 库 没 有 任何 区 别 。 我 
们 用 一 台 NetApp 的 FAS3050 磁 盘 阵列 来 识别 这 人 台 VTL ， 看 看 效果 。 在 
FAS3050 命 令 行 中 输入 sysconfig -a 来 查看 当前 系统 中 的 所 有 设备 ， 可 


以 看 到 在 FC 通道 0c 上 已 经 识别 到 了 两 个 IBM 的 驱动 器 和 4 个 HP 的 驱动 
器 ， 这 和 VTL700 上 的 配置 完全 一 样 ， 如 图 14-32 所 示 。 和 输入 storage 
show tape 命 令 可 以 查看 更 详细 的 磁带 驱动 器 信息 ， 如 图 14-33 所 示 。 输 
入 storage show mc 命令 可 以 查看 识别 到 的 机 械 手 信息 (机械手 是 VTL 
虚拟 出 来 的 ) ， 如 图 14-34 所 示 。 输 入 sysconfig -t 命 令 可 以 查看 系统 识 
别 到 的 所 有 磁带， 如 图 14-35 所 示 。 


图 14-32 ”客户 端 所 识别 到 的 磁带 设备 14-34 ”查看 机 械 手 信息 


图 14-33 ”详细 的 驱动 器 信息 图 图 14-35 ”系统 所 识别 到 的 所 有 磁带 


至 此 ， 这 人 台 VTIL 虚 拟 出 了 两 台 带 库 ， 当 然 还 可 以 虚拟 更 多 的 带 
库 ， 将 它们 分 配 到 另外 的 FC 端口 。 更 加 灵活 的 是 ，VTL 还 可 以 自身 连 
接 物 理 磁带 库 ， 然 后 将 这 些 物 理 资源 透 传 到 主机 端 ， 这 样 即使 原来 存 
在 的 物理 带 库 也 没有 浪费 ， 一 起 整合 了 进来 。 

各 个 厂家 的 VTL 产 品 的 设计 都 是 大 同 小 异 ， 几 乎 都 是 用 各 自已 经 
成 形 的 盘 阵 产品 ， 将 其 上 运行 的 程序 换 一 下 ， 就 变 成 了 VTL。 图 14-36 
是 EMC 公 司 的 VTL 产 品 的 配置 界面 。 可 以 看 到 各 个 厂家 的 设计 都 大 同 
小 异 ， 本 质 都 是 一 样 的 。 


图 14-36 ” EMC 公司 的 VIL 产品 配置 界面 


14.8 ”用 控制 器 来 虚拟 其 他 磁盘 阵列 


现在 存储 行业 内 瘦 说 的 “存储 虚拟 化 ”"， 或 者 “虚拟 化 ”， 一 般 情 况 
下 都 是 指 把 多 个 相同 或 者 不 同 厂 商 的 磁盘 阵列 整合 之 后 再 分 配 的 虚拟 
化 方式 。 其 实 这 种 虚拟 化 只 是 冰山 一 角 ， 而 且 纯 技术 架构 设计 方面 的 


含量 也 不 是 很 高 ， 这 么 说 并 不 是 我 在 夸 口 ， 而 是 事实 。 实 现 这 种 虚拟 
化 存储 控制 器 的 关键 难点 在 于 如 何 与 后 端 不 同 厂商 的 设备 之 间 兼 容 ， 
包括 SCSI Reservation 的 兼容 等 ， 以 及 如 何 发 挥 出 后 端 存 储 设备 的 性 
能 。 所 有 不 同 广 商 的 设备 虽然 其 内 部 设计 等 都 不 同 ， 但 是 它们 绝对 需 
要 相同 的 是 前 端的 接口 、 包 括 物理 接口 、 数 据 接口 和 逻辑 接口 。 比 
如 ， 它 们 至 少 都 支持 主机 端 Linux 系 统 ， 包 括 支持 Linux 下 的 文件 系统 
起 始 地 址 的 对 齐 等 。 如 果 用 一 台 Linux 服 务 器 来 连接 不 同 厂商 的 设备 ， 
那么 这 人 台 Linux 服 务 器 就 可 以 识别 到 所 有 的 LUN 并 对 这 些 LUN 进 行 IO 
操作 ， 如 果 在 这 台 Linux 服 务 器 上 实现 某 种 软件 层次 ， 将 所 有 这 些 LUN 
当 作 物理 磁盘 ， 在 其 上 再 次 划分 LUN， 然 后 将 这 些 LUN 通 过 前 端 接口 
映射 出 去 ， 那 么 这 不 就 是 一 台 虚 拟 存储 控制 器 了 么 ? 这 种 虚拟 化 技术 
甚至 可 以 通过 DIY 来 实现 ， 只 要 有 合适 的 软件 层 ， 其 他 都 不 是 问题 。 


IT 系统 内 的 最 高 深 莫 测 和 最 复杂 的 虚拟 化 技术 其 实 都 在 于 主机 
端 ， 即 诸如 Vmware 等 虚拟 机 软件 产品 及 其 附加 功能 ， 比 如 Vmotion 
等 ; 以 及 诸如 IBM 等 厂商 的 小 型 机 上 的 硬件 虚拟 化 、 分 区 、 动 态 迁 移 
等 功能 ， 还 有 虚拟 化 的 最 高 境界 ， 整 合 了 几乎 所 有 虚拟 化 技术 的 云 计 
算 、 云 存储 、 云 服务 。 


本 节 仅 简要 介绍 一 下 目前 市 场 上 的 一 种 虚拟 存储 控制 器 ， 其 细节 
束 不 作 过 多 介绍 了 ， 因 为 其 染 构 并 不 复杂 。 


IBM 公 司 的 SVC 产 品 


SVC 的 全 称 为 SAN Volume Controller。 图 14-37 所 示 为 SVC 的 逻辑 
架构 图 。 


图 14-37 ”SVC 逻辑 架构 图 


整个 系统 架构 可 以 分 为 4 个 层次 。 第 1 层 是 后 端的 磁盘 阵列 对 外 映 
射 的 LUN; 第 2 层 则 是 在 SVC 控 制 器 内 将 这 些 LUN 封 装 为 Mdisk 对 象 ， 
每 个 LUN 都 为 一 个 Mdisk， 即 Managed Dsik， 岂 法 并 不 重要 ， 只 需要 知 
道 Mdisk 是 后 端的 LUN 即 可 ， 将 多 个 Mdisk 放 入 一 个 MD Group 内 ， 这 
个 MD Group 相当 于 一 个 Raid0 模 式 的 Raid 组 ， 一 个 系统 内 可 以 有 多 个 
MD Group; 第 3 层 ，SVC 在 Raid 组 内 划分 LUN， 生 成 的 LUN 称 为 
Vdisk， 即 Virtual Disk，Vdisk 相 当 于 SVC 自 己 的 LUN; 第 4 层 ，SVC 将 
这 些 自己 生成 的 LUN 映 射 给 前 端 主机 使 用 。 


SVC 只 能 通过 FC 交 换 机 来 连接 后 端 存储 设备 。 前 端 主机 则 可 以 通 
过 FC 交换 机 〈 使 用 FC 协 议 访问 ) 或 者 以 太 网 交换 机 (使 用 ISCSI 协 议 
访问 ) 来 访问 SVC。 


为 了 避免 单 点 故障 ， 每 两 台 SVC 控 制 器 (node) 可 以 组 成 一 个 IO 
Group， 每 个 Vdisk 同 一 时 刻 只 能 够 由 一 个 node 来 掌管 ， 当 这 个 node 故 
障 之 后 ， 与 这 个 node 同 处 一 个 IO Group 的 另 一 个 node 接 管 之 前 故障 
node 所 管理 的 所 有 Vdisk。 当 IO Group 中 的 两 个 node 都 故障 时 ， 其 他 IO 
Group 的 node 会 接管 故障 的 node。 目 前 一 个 SVC Cluster 最 多 可 以 有 4 个 
IO Group 〈 即 8 个 node) 。 Cluster 内 的 所 有 node 必 须 都 可 以 访问 后 端 对 
应 的 存储 系统 的 LUN。 图 14-38 所 示 为 一 个 8node 的 SVC Cluster。 


图 14-38 ” ”SVC 集群 示 意图 


这 种 存储 虚拟 化 模式 有 诸多 好 处 。 从 底层 方面 来 看 ， 多 个 后 端 
LUN 可 以 组 成 Raid0 而 不 用 担心 物理 磁盘 损坏 问题 ， 因 为 后 端 存 储 设备 
会 处 理 这 一 切 ; Raid0 是 性 能 最 好 的 Raid 模 式 而 且 还 不 用 rebuild， 至 少 
能 够 将 后 端的 性 能 影响 屏蔽 掉 一 部 分 ; Raid0 做 成 之 后 不 需要 初始 化 过 


程 ，LUN 立 即 可 用 ,方便 快捷 。 从 高 层 方面 来 看 ， 这 种 虚拟 化 网 关 设 
备 可 以 实现 。 


注意 : 规划 时 需要 注意 的 一 个 最 大 问题 是 : 一 定 要 清楚 知晓 
SVC 前 端的 LUN 到 底 实际 占用 了 多 少 块 硬盘 ， 是 否 有 多 个 
LUN 共 享 同 一 组 物理 人 硬盘， 前 端 主机 的 要 求 是 什么 ， 是 否 需 
要 对 分 布 于 同一 组 物理 硬盘 上 的 多 个 LUN 进 行 并 发 的 连续 IO 
操作 ， 这 个 问题 具体 可 参考 本 书 第 19 章 。 


图 14-39 所 示 为 两 个 SVC 控 制 器 前 视图 。 
图 14-39 ”SVC 控制 器 前 视图 


除了 SVC 这 种 架构 的 虚拟 化 网 关 之 外 ， 有 些 产品 设计 则 是 将 虚拟 
化 网 关 的 功能 集成 到 某 个 交换 机 中 ， 比 如 F5 公 司 的 某 系列 产品 就 是 将 
虚拟 化 功能 集成 到 了 以 太 网 交换 机 中 ， 或 者 说 把 以 太 网 交换 机 集成 到 
服务 器 硬件 中 ， 都 可 以 。 它 可 以 针对 后 端 NAS 设 备 作 虚拟 化 整合 和 再 
分 配 、 数 据 迁 移 等 ， 这 个 虚拟 化 网 关 将 后 端 所 有 NAS 设 备 的 共享 输出 
目录 作为 一 个 大 的 存储 空间 ， 将 这 个 空间 重新 规划 和 分 配 ， 然 后 提供 
新 的 Export 目 录 给 主机 客户 端 使 用 。 


14.9 ” 飞 康 NSS 存 储 虚 拟 化 系统 


一 直 被 效仿 ， 从 未 被 超越 一 一 这 句 话 用 在 习 康 身上 很 合适 。 《 康 
是 存储 软件 领域 的 领军 厂商 ， 专 注 于 存储 虚拟 化 、 容 灾 、CDP 与 数据 
备份 领域 。 飞 康 在 业界 的 地 位 取决 于 其 两 大 优势 产品 和 多 项 独特 技 
术 ， 其 一 是 其 10 级 粒度 回 深 的 CDP 技 术 ， 其 二 便 是 其 多 功能 融合 的 一 
体 化 存储 虚拟 化 产品 和 诸如 MicroScan 等 技术 。 目 前 飞 康 刚刚 推出 了 


IPStor Gen2 Plarform 平 台 ， 其 中 包含 了 NSS、CDP、VTIL 三 大 产品 系 
列 ， 涵 盖 了 企业 数据 保护 备份 、 容 灾 、 虚 拟 化 全 领域 。 


飞 康 主要 面向 企业 级 关键 应 用 提供 容 灾 、 数 据 保护 和 虚拟 化 方案 
及 产品 ， 目 前 在 全 球 有 几 千 个 用 户 的 部 署 案例 。 这 家 以 技术 为 核心 的 
厂商 ， 经 过 十 余年 的 磨 练 ， 仍 然 保持 领先 ， 这 一 点 难能可贵 。 


提示 : 存储 软件 厂商 不 多 ， 做 出 名 堂 的 就 更 少 了 。 关 于 飞 康 
的 IO 级 CDP 回 放 技 术 ， 我 将 在 第 16 章 中 详细 介绍 和 分 析 ， 本 
节 会 着 重 分 析 飞 康 的 虚拟 化 平台 中 的 一 些 特 色 技 术 。 


飞 康 NSS 全 称 为 Network Storage Server， 它 的 本 质 是 一 台 融 合 了 高 
级 数据 保护 、 数 据 迁移 和 容 灾 功能 的 存储 虚拟 化 网 天 ， 而 存储 虚拟 化 
网 关 的 本 质 ， 就 是 一 款 存 储 系 统 控 制 器 ， 只 不 过 它 没有 太 多 的 后 端 接 
口 来 接 入 大 量 的 磁盘 扩展 柜 罢 了 ， 它 的 存储 空间 需要 借用 自 其 他 存储 
系统 ， 尤 其 是 那些 四 及 发达、 头脑 简单 的 存储 系统 ， 这 些 系统 自身 往 
往 功 能 和 可 靠 性 方面 不 是 很 出 色 ， 而 此 时 如 果 加 上 NSS 存 储 虚拟 化 网 
天 的 配合 ， 则 可 以 形成 更 强大 的 存储 系统 。 


如 图 14-40 所 示 为 飞 康 NSS 网 关 型 管理 器 前 视图 ， 其 硬件 仅 为 标准 
x86 服 务 器 ， 但 是 我 们 先 不 要 以 貌 取 人 。 那 些 定制 化 的 SAN 存 储 控制 
器 ， 其 表象 上 看 似 个 性 十 足 ， 但 是 要 论 硬件 性 能 ， 不 见得 赶 得 上 标准 
服务 器 ， 尤 其 是 那些 中 低 端 产品 。 其 次 ， 存 储 系统 的 核心 在 于 软件 ， 
目前 的 存储 系统 里 几乎 没有 硬件 加 速 逻 辑 了 ， 因 为 这 样 做 成 本 太 高 ， 
而 且 缺 乏 灵 活性 。 所 以 各 家 的 可 靠 性 、 功 能 、 性 能 ， 完 全 取决 于 软件 
的 功能 和 优化 程度 。 如 图 14-41 及 图 14-42 所 示 为 NSS 的 高 级 技术 和 功能 
一 览 。 本 节 会 对 这 些 技术 做 一 一 介绍 和 分 析 ， 我 将 飞 康 NSS 中 所 包含 


的 技术 划分 为 三 大 类 ， 分 别 为 存储 虚拟 化 相关 技术 和 产品 、 数 据 保护 
相关 技术 和 产品 、 异 构 迁 移 和 容 灾 相关 技术 和 产品 。 


图 14-40 NSS 网 关 型 管理 器 前 视图 


图 14-41 NSS 网 关 型 管理 器 特色 技术 一 览 图 14-42 NSS 网 关 型 管理 器 高 级 软件 功能 
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14.9.1 存储 虚拟 化 相关 技术 


对 于 一 款 虚拟 化 产品 ， 广 泛 的 兼容 性 是 其 立足 之 本 。 虚 拟 化 本 身 
没有 太 多 意义 ， 无 非 就 是 借用 其 他 的 LUN， 然 后 形成 自己 的 LUN， 如 
果 一 款 产 品 仅 能 做 到 这 一 点 ， 那 么 LVM、Windows 下 的 动态 磁盘 ， 都 
可 以 和 独立 虚拟 化 产品 并 驾 齐 驱 了 。 一 款 虚拟 化 产品 其 虚拟 化 别人 的 
LUN 的 目的 是 为 了 提供 更 多 、 更 强 的 高 价值 服务 。 下 面 我 们 就 详细 介 
绍 飞 康 IPStor 平 台所 提供 的 增值 服务 。 


SafeCache 


SafeCache 是 飞 康 IPStor 平 台 提 供 的 数据 加 速 访问 技术 。 利 用 一 些 
高 性 能 存储 介质 (比如 SSD、NVRAM 等 ) ， 这 个 技术 可 以 将 主机 下 
发 的 写 IO 数 据 像 日 志 一 样 连续 写 入 高 速 介质 ， 快 速 响 应 主机 IO， 然 后 
在 后 人 台 异 步 地 将 这 些 数据 刷 到 主 存储 空间 中 。 对 于 SafeCache， 系 统 需 
要 维护 一 张 映射 表 来 追踪 那些 被 缓存 的 块 ， 一 旦 命中 该 映射 表 ， 则 从 
SafeCache 中 读 出 数据 。 


如 图 14-43 所 示 为 SafeCache 配 置 步骤 ， 首 移 需 要 选择 一 个 适当 大 
小 的 存储 空间 作为 Cache 空 间 ， 可 以 手动 选择 或 者 交 给 系统 自动 选择 。 


然后 可 以 手动 配置 缓存 刷 盘 策 略 ， 比 如 根据 缓存 高 水 位 线 、IO 静 默 时 
间 以 及 刷 盘 的 力度 。 还 可 以 感知 那些 写 命令 中 的 10， 降 低 重 复 刷 盘 的 
几率 。 


图 14-43 ”SafeCache 配 置 步骤 1 


HotZone 


HotZone 是 IPStor 平 台 下 的 另 一 个 数据 访问 加 速 功能 ， 其 与 
SafeCache 的 区 别 是 : HotZone 是 一 种 主动 的 数据 访问 速度 优化 技术 ， 
而 前 者 则 是 一 种 被 动 方式 的 优化 。HotZone 的 基本 原理 是 将 源 卷 划 分 
为 多 个 “zone”， 然 后 对 每 个 zone 统 计 访 问 频繁 程度 ， 最 后 将 那些 热点 
zone 中 的 数据 缓存 到 高 速 存 储 介质 中 以 加 速 读 访问 。 


图 14-44 所 示 为 HotZone 的 配置 参数 ， 可 以 选择 缓存 模式 ， 比 如 是 
根据 频繁 程度 来 将 那些 热 数 据 从 低速 介质 中 迁移 到 高 速 介 质 中 ， 还 是 
作为 预 读 缓存 仅仅 加 速 那 些 连续 大 块 IO 读 场 景 。 有 具体 参数 可 以 配置 预 
读 启 动 临 界 点 《连续 地 址 IO 被 监听 到 多 少 次 ) 、 每 次 预 读 的 容量 、 每 
次 预 读 的 IO Size、 临 界 点 时 效 周 期 。 不 得 不 承认 这 些 参数 非常 专业 。 


将 - otLone 分 J 尿 
图 14-44 ”HotZone 配 置 步骤 1 


图 14-45 所 示 为 HotZone 的 其 他 配置 参数 ， 包 括 手动 或 者 自动 来 选 
择 充当 缓存 介质 的 存储 空间 ， 以 及 每 个 zone 的 容量 ， 最 小 容量 为 64KB 
(其 实 这 么 小 的 粒度 下 ，zone 已 经 不 适合 描述 了 ，Block 更 合适 ) 。 还 
可 以 配置 每 个 zone 在 高 速 缓存 中 被 缓存 的 最 小 时 间 。 


图 14-45 “HotZone 配 置 步 骤 2 


图 14-46 所 示 为 HotZone 其 他 配置 参数 ， 包 括 访问 频 度 统 计 模 式 ， 
比如 只 读 算 、 只 写 算 ， 还 是 读 写 一 起 都 算 一 次 频 度 十 1。 右 下 图 是 一 种 
可 视 化 数据 展现 ， 图 形 化 地 展示 每 个 zone 的 访问 频繁 程度 ， 这 就 是 一 
种 可 视 化 存储 智能 。 


图 14-46 ”HotZone 配 置 步骤 3 


说 明 : 可 能 是 之 前 搞 产 品 设 计时 遭遇 对 和牛 弹琴 的 原因 ， 看 到 
类 似 的 Idea 在 飞 康 产品 中 出 现 ， 心 情 很 复杂 。 


现在 不 少 厂商 推出 了 各 种 形态 的 固态 存储 产品 ， 从 简单 的 2.5 十 
SSD 到 用 内 存 堆 成 的 固态 存储 系统 ， 由 于 价格 昂贵 ， 迫 切 需要 一 种 合 
适 的 应 用 场景 ， 而 飞 康 NSS 虚 拟 化 设备 恰恰 提供 了 这 种 原生 支持 ， 将 
闪存 阵列 虚拟 化 之 后 ， 用 在 SafeCache/HotZone 方 案 下 ， 是 目前 这 些 固 
态 存 储 系统 性 价 比 最 高 的 归宿 了 。 


Zero Memory Copy 


这 是 一 个 很 独特 的 IO 引擎 算法 设计 。 数 据 在 通过 NSS 网 关 的 时 
候 ， 直 接 写 入 后 端的 存储 ， 而 不 依赖 于 网 关 服 务 器 的 内 存 进 行 缓存 或 
运算 处 理 。 这 样 既 提 高 了 数据 安全 性 ， 同 时 还 保证 了 性 能 。 一 般 来 讲 
虚拟 化 网 关 产 品 都 会 在 内 部 使 用 较 大 容量 的 RAM 作 为 数据 缓存 。 飞 康 
认为 使 用 这 种 数据 缓存 是 杯水车薪 并 且 多 此 一 举 。 虚 拟 化 设备 后 端 本 
身 已 经 挂 接 了 拥有 较 大 容量 缓存 的 存储 控制 器 ， 或 者 挂 接 各 种 新 一 代 
的 闪存 阵列 产品 作为 全 局 缓存 (如 作为 前 述 Safe Cache 和 Hot Zone 的 介 
质 ) ， 此 时 在 其 前 端 再 加 上 一 点 点 缓存 ， 还 不 如 不 加 ， 因 为 这 点 缓存 


相 比 后 端的 缓存 容量 是 小 焉 见 大 恶 。 更 何况 ， 仅 仅 由 于 增加 的 这 一 点 
缓存 ， 由 于 实质 上 对 生产 数据 产生 驻 留 还 将 导致 数据 安全 的 隐患 。 飞 
康 对 于 企业 级 数据 安全 的 理解 是 深刻 的 ， 存 储 虚 拟 化 网 关 应 该 在 即便 
整体 全 部 意外 故障 或 失效 的 时 候 也 不 会 对 原生 产 数据 的 安全 带 来 任何 
影响 。 


另外 加 了 缓存 需要 付出 三 个 代价 : 第 一 ，RAM 本 身 需要 成 本 并 需 
要 电池 维护 ， 这 不 但 增加 了 采购 成 本 也 提升 了 维护 成 本 ， 第 二 ，RAM 
的 易 失 性 要 求 双 机 的 RAM 实 时 向 对 方 同 步 ， (各 自 实际 使 用 二 分 之 一 
空间 ) ， 任 何 写 入 缓存 的 MO 只 有 在 缓存 确认 向 对 方 同步 后 才 算 写 入 成 
功 ， 这 样 ， 横 向 同步 的 设计 和 性 能 可 能 成 为 网 关 的 写 入 性 能 瓶颈 ; 第 
三 ， 这 部 分 RAM 势 必要 不 断 地 刷 盘 ， 也 就 是 刷 到 后 端 挂 接 的 存储 系统 
中 ， 批 量 刷 盘 会 对 后 端 链 路 瞬间 爆发 式 占用 ， 一 定 程度 下 还 会 进一步 
影响 性 能 。 飞 康 采 用 零 缓存 拷贝 方式 ， 降 低 了 功 耗 、 复 杂 度 和 成 本 ， 
虚拟 化 控制 器 只 作为 通道 ， 不 缓存 效 据 。 在 保证 性 能 的 前 提 下 ， 保 证 
了 自身 双 机 失效 极端 情况 下 的 数据 安全 性 和 稳定 性 ， 并 且 降 低 了 成 
本 。 


Alternate-READ/Smart-READ 


Raid1 是 很 简单 的 技术 ， 两 个 物理 磁盘 ， 或 者 两 个 LUN/ 卷 之 间 做 
成 镜像 关系 ， 但 是 很 少 有 产品 把 优化 做 到 极致 ， 比 如 很 多 人 认为 Raid1 
的 两 个 盘 / 卷 之 间 一 定 会 做 读 负载 均衡 ， 也 就 是 读 IO 会 轮 询 发 给 这 两 个 
盘 去 执行 ， 但 是 事实 上 ， 因 为 做 到 这 一 点 需要 额外 的 开发 ， 并 不 仅仅 
是 做 个 负载 分 发 器 简单 地 分 派 IO 就 完了 ， 还 需要 处 理 数据 一 致 性 ， 比 
如 在 异步 镜像 模式 下 ， 如 果 源 卷 的 某 些 数据 尚未 同步 到 镜像 卷 ， 而 此 
时 分 发 器 就 需要 先 判断 目标 IO 是 否 可 以 先 发 送 到 镜像 卷 执行 ， 它 需要 


先 搜 查 元 数据 (比如 bitmap 之 类 ) ， 这 是 需要 开发 和 验证 测试 工作 量 
的 ， 一 些 头脑 简 单 、 四 及 发达 的 产品 基本 是 不 会 考虑 做 这 些 优 化 的 ， 
因为 很 多 用 户 本 身 并 不 专业 ， 不 会 注意 到 或 者 理解 这 些 高 技术 含量 的 
东西 ， 还 不 如 用 低 价 十 高 硬件 配置 来 解决 问题 。 飞 康 显然 走 的 是 另 一 
条 路 线 ， 以 智 取 胜 ， 其 Alternate-READ 技 术 ， 可 以 实现 镜像 卷 的 读 负 
载 均衡 。 


另外 ， 数 据 复制 、 快 照 等 等 功能 ， 都 需要 从 源 卷 来 读 取 数据 ， 这 
显然 会 影响 主机 侧 的 IO 性 能 ， 飞 康 的 Smart-READ 技 术 ， 可 以 让 这 些 阵 
列 内 自身 发 起 的 读 IO 被 重 定向 到 镜像 卷 去 执行 ， 这 样 就 可 以 分 担 产 卷 
的 读 IO 压 力 了 。 


提示 : 将 技术 做 到 极致 是 我 研究 飞 康 技术 以 来 的 第 一 印象 。 
图 14-47 ”选择 不 同 的 镜像 读 方 式 
如 图 14-47 所 示 ， 在 创建 存储 镜 
像 卷 的 时 候 可 以 手动 选择 三 种 镜像 读 模式 ， 分 比 为 Smart-READ 模 式 、 
Alternate 模 式 和 Exclude Mirror 模 式 ， 前 两 者 上 文 已 经 介绍 过 了 ， 最 后 
一 种 模式 就 是 让 系统 永远 不 从 镜像 卷 读 数据 。 


High Availability Cluster 


NSS 支 持 集群 互 备 模式 ， 双 控制 器 各 自分 工 ， 各 自 对 后 端的 一 部 
分 LUN 进 行 虚拟 化 管理 ， 平 时 各 管 各 的 ， 但 是 在 一 个 控制 器 宕 机 之 
后 ， 另 一 个 控制 器 便 接管 起 对 方 的 LUN 继 续 做 虚拟 化 管理 。 


14.9.2 ”数据 保护 相关 技术 和 产品 


SnapShot Data Journaling/CDP 


每 个 卷 最 大 支持 1000 个 快照 。 系 统 还 支持 针对 各 种 主流 应 用 的 
Application Aware Snapshot Agent 代 理 程序 ， 可 以 实现 主流 应 用 系统 的 
数据 一 致 性 快照 。 支 持 一 致 性 组 ， 一 致 性 组 中 的 多 个 卷 之 间 可 以 保证 
时 序 一 臻 性。 支持 TimeView 现 场 预览 模式 。 


提示 : 关于 飞 康 快照 和 CDP 的 详细 描述 可 以 参考 本 书 第 16 章 
相关 内 容 。 


Recovery Agent 


Recovery Agent 是 飞 康 针 对 各 种 Windows 下 的 主流 应 用 (比如 
Exchange、 SQL Server、Lotus Notes、Volume Shadow Copy Service) 
提供 的 图 形 化 恢复 工具 ， 其 与 飞 康 NSS/CDP 设 备 、Snapshot Agent 以 及 
应 用 系统 三 方 之 间 紧 密 配合 ， 从 而 可 以 让 管理 员 在 无 需 介入 复杂 的 应 
用 系统 的 情况 下 ， 很 容易 地 实现 从 应 用 视角 切入 的 数据 恢复 。 


14.9.3” 异 构 迁移 和 容 灾 相关 技术 和 产品 


SED 


Service Enabled Device， 中 文 不 好 翻译 ， 但 是 这 个 功能 是 至 关 重 
要 的 。 作 为 一 款 专业 的 存储 虚拟 化 设备 ， 其 人 品 应 该 是 优秀 的 ， 所 谓 
人 品 优秀 ， 就 是 不 会 只 知道 强制 “霸占 ?别人 的 资源 ， 有 时 候 还 需要 懂 
得 借 伦 献 佛 和 激流 勇 退 。 


怎么 理解 ? 虚拟 化 产品 一 般 都 是 将 从 其 他 存储 系统 处 借 来 的 LUN 
当做 物理 磁盘 ， 然 后 在 其 上 再 做 一 层 虚 拟人 化， 虚拟 出 一 堆 LUN 来 。 但 
是 有 的 时 候 ， 用 户 不 需要 二 次 虚拟 化 ， 而 要 求 之 前 的 LUN 保 持 不 变 ， 


其 上 数据 也 不 被 损坏 ， 甚 至 连 这 个 LUN 的 厂商 、 序 列 号 等 都 保持 不 
变 ， 但 是 同时 需要 针对 这 个 LUN 实 现 快照 、 复 制 、CDP、 镜像 等 高 级 
功能 。 另 外 ， 在 数据 迁移 场景 下 ， 虚 拟 化 设备 必须 完全 模拟 原来 的 
LUN 的 所 有 属性 ， 因 为 只 有 这 样 上 层 应 用 才能 保证 不 出 任何 兼容 性 问 
题 ， 同 时 把 该 LUN 中 的 数据 透明 迁移 到 另外 的 存储 设备 中 去 ， 然 后 做 
切换 ， 而 且 必 须 保 证 OS 识 别 到 这 个 LUN 之 后 不 会 认为 它 是 个 新 LUN 从 
而 导致 盘 符 错乱 ， 人 盘 符 顺序 必须 保证 一 致 ， 这 样 才 是 对 应 用 完全 透 
明 ， 所 以 要 求 该 LUN 的 序列 号 、 文 件 系统 格式 等 完全 一 致 ， 也 就 是 该 
LUN 中 的 每 个 局 区 都 不 会 被 虚拟 化 设备 私自 去 修改 ， 这 就 是 借 花 献 
佛 ， 不 将 该 LUN 写 入 自己 的 标签 ， 据 为 已 有 ， 这 有 点 类 似 于 带 外 虚拟 
化 。 虚 拟 化 设备 会 将 原本 应 该 写 入 原 LUN 的 标签 等 元 数据 ， 单 独 记 录 
在 其 他 地 方 。 


所 谓 激流 勇 退 ， 是 指 一 旦 当 虚 拟 化 设备 出 现 什么 问题 ， 那 么 此 时 
应 用 的 IO 会 全 部 中 断 ， 业 务 停止 ， 为 了 给 这 种 情况 留 有 后 路 ， 虚 拟 化 
设备 就 必须 将 原来 的 LUN 透 明 地 传 给 主机 访问 ， 这 样 的 话 ， 当 虚拟 化 
设备 出 问题 之 后 ， 可 以 拿 掉 虚拟 化 设备 ， 重 新 修改 LUN 映 射 ， 恢 复 之 
前 的 拓扑 ， 让 主机 直接 连接 之 前 的 存储 系统 ， 此 时 主机 依然 会 识别 到 
这 些 LUN， 挂 起 之 后 盘 符 也 不 会 变化 。 但 是 如 果 虚 拟 化 设备 不 透 传 原 
来 的 LUN， 而 在 LUN 上 写 入 了 自己 的 管理 标签 ， 并 且 对 这 些 LUN 做 了 
二 次 虚拟 化 之 后 ， 那 么 一 旦 虚拟 化 设备 出 了 问题 ， 将 不 会 有 任何 设备 
能 够 识别 这 些 LUN， 因 为 这 些 LUN 里 的 格式 已 经 不 是 物理 硬盘 的 普通 
分 区 格式 了 ， 甚 至 连 MBR/GPT 格 式 都 不 是 ， 而 是 虚拟 化 设备 厂商 私有 
的 格式 ， 所 以 OS 根本 挂 不 起 来 这 些 LUN， 只 会 认 到 “新 磁盘 ”"， 会 提示 
“需要 格式 化 ”， 所 以 此 时 除非 找到 同样 厂商 的 同样 设备 来 恢复 业务 ， 
否则 业务 就 要 一 直 停 机 。 所 以 专业 的 虚拟 化 设备 都 会 提供 这 种 LUN 透 
传 模式 。 这 种 模式 俗称 “逃生 模式 ”。 


如 图 14-48 所 示 为 飞 康 NSS 设 备 所 提供 的 两 种 模式 。 可 以 看 到 ， 在 
SED 模 式 下 ， 系 统 还 可 以 让 用 户 选 择 是 否 连 原 LUN 的 厂商 信息 等 也 完 
全 保留 (Preserve physical device inquiry string) ， 比 如 原来 的 LUN 是 
广 商 A 存 储 系 统 的 ，OS 设 备 管理 器 里 是 可 以 识别 到 广 商 A 的 ， 其 底层 
其 实 是 使 用 了 SCSI Inquiry LUN 命 令 来 得 到 这 些 信息 的 ， 虚 拟 化 设备 
只 要 用 原 LUN 的 这 些 信息 来 响应 主机 的 SCSI Inquiry LUN 命 令 即 可 。 


图 14-48 ” ”SED 模式 和 普通 虚拟 化 模式 


SED 模 式 的 LUN 可 以 被 快照 (必须 为 CoFW 模 式 ) 、 镜 像 、 复 
制 ， 但 是 不 能 被 Enable Thin Provision， 为 Thin Provision 会 改变 原 
LUN 中 原 有 的 数据 布局 ， 导 致 不 可 能 透 传 给 主机 使 用 。 


提示 : 数据 迁移 为 何 有 难度 ? 就 是 因为 要 尽量 缩短 停机 时 
间 。 假 设 可 以 无 限 停机 ， 那 么 此 时 完全 可 以 用 dd 来 盘 对 盘 复 
制 实现 数据 迁移 ， 迁 移 前 和 迁移 后 ， 两 个 盘 上 的 每 个 局 区 都 
是 一 样 的 。 但 问题 是 停机 不 能 太 久 ， 否 则 dd 根本 搞 不 定 ，dd 
不 支持 在 产 LUN 不 停 地 接受 写 IO 的 同时 ， 还 能 把 这 些 新 的 更 
新 数据 同步 迁移 到 对 端 去 。 那 么 是 否 可 以 使 用 LVM 或 者 软 
Raid 来 将 两 个 LV 做 镜像 ， 同 步 之 后 ， 拿 掉 源 存储 系统 呢 ? 完 
全 可 以 ， 但 是 要 求 应 用 主机 必须 使 用 LVM 或 者 软 Raid， 另 外 
有 些 应 用 或 者 主机 根本 不 使 用 LVM， 就 直接 用 /devsda， 此 时 
LVM/ 软 Raid 没 斩 。 那 么 ， 针 对 /dev/sda， 是 否 可 以 先 用 LVM 
将 两 个 /dev/sdxx 设 备 做 镜像 ， 然 后 再 让 LVM 退 出 ， 还 原 
成 /dev/sda 的 原 有 格式 ? 不 可 能 ， 要 将 菜 个 /dev/sdx 纳 入 LVM 
的 管理 ， 那 么 LVM 便 会 向 其 中 写 入 自己 的 管理 标签 和 元 数 
据 ， 这 就 已 经 破坏 了 该 LUN 中 原 有 的 数据 了 ， 就 更 别提 还 原 


了 。 所 以 ， 数 据 迁 移 场景 ， 必 须 使 用 类 似 飞 康 SED 这 种 模 
式 。 


MicroScan 


远程 数据 复制 ， 本 质 上 没什么 技术 含量 ， 无 非 就 是 将 效 据 复制 到 
远程 ， 这 就 像 从 网 站 上 下 载 一 个 文件 到 本 地 一 样 。 虽 然 企业 的 数据 容 
灾 链 路 如 我 们 的 Internet 一 样 也 是 包月 的 ， 但 却 是 专用 的 、 不 与 其 他 人 
共享 的 ， 价 格 高 、 带 宽 低 、 时 延 大 。 企 业 每 天 都 会 产生 大 量 数据 ， 在 
这 种 低 带 宽 、 高 时 延 链 路 下 进行 数据 复制 ， 就 得 用 一 些 特殊 的 技术 。 
飞 康 MicroScan 是 其 专利 技术 ， 能 够 节约 大 量 数据 复制 流量 ， 让 企业 可 
以 用 更 低 融 宽 的 链 路 达到 其 他 数据 复制 产品 同样 的 效果 。 


提示 : 首先 ， 多 数 人 不 知道 的 一 个 事实 是 ， 数 据 复制 时 产生 
有 大 量 见 余 ， 源 和 目的 端 本 来 就 相同 的 数据 ， 被 复制 到 远 
端 ， 究 其 原因 ， 是 因为 底层 磁盘 是 按照 512Byte 扇 区 作为 最 小 
IO 粒度 ， 而 文件 系统 一 般 使 用 4KB 作 为 最 小 管理 粒度 ， 上 层 
Page Cache 同 样 也 是 4KB。 如 果 应 用 要 更 新 某 个 字 节 ， 那 么 
文件 系统 也 会 将 这 几 个 字 节 所 落 入 的 4KB 数 据 块 读 入 Page 
Cache， 然 后 更 新 这 几 个 字 节 ， 再 写 入 整个 4KB 块 ， 这 就 是 读 
写 惩 罚 ， 本 书 第 19 章 会 对 这 个 现象 做 详细 分 析 。 这 样 的 话 ， 
假设 应 用 只 更 新 了 一 个 字 节 ， 那 么 文件 系统 白白 读 出 了 4096 
字 节 ， 又 白白 写 入 了 4095 字 节 ， 而 底层 的 数据 复制 引擎 也 就 
必须 将 这 4095 字 节 宛 余数 据 再 次 复制 到 远 端 ， 虽 然 远 端的 这 
4095 字 节 与 本 地 的 4095 字 节 一 模 一 样 。 


MicroScan 技 术 可 以 降低 上 述 元 余 粒度 到 一 个 扇 区 ， 只 要 某 个 扇 区 
发 生变 化 ， 那 么 不 管 上 层 是 按照 什么 粒度 来 管理 存储 空间 的 ， 也 不 管 


上 层 的 写 惩罚 有 多 大 ， 底 层 会 发 现 那些 发 生 了 变化 的 局 区 ， 从 而 只 复 
制 这 些 局 区 到 远 端 。 


提示 : 这 项 技术 的 底层 原理 ， 有 技术 感觉 的 读者 一 眼 就 可 以 
判断 出 ， 一 定 是 利用 了 与 重 删 一 样 的 技术 ， 就 是 算 Hash。 没 
错 ， 但 是 重 删 的 目的 是 把 数据 压 实 以 缩小 体积 ， 而 MicroScan 
的 目的 是 发 现 变化 ， 节 省 复制 的 带宽 。 所 以 我 在 此 推测 一 下 
MiicroScan 技 术 的 底层 原理 。 首 先 ， 在 初次 复制 之 前 ， 复 制 引 
擎 一 定 会 对 源 LUN 整 盘 的 每 个 局 区 都 计算 一 个 hash 值 然后 保 
存 起 来 ， 按 照 64bit hash 值 来 算 ，1TB 的 LUN 融 需要 16GB 的 
hash 存 储 空 间 /hash 库 ， 这 些 hash 值 必须 按照 扇 区 顺序 来 排序 
以 加 快 IO 速度 ，hash 库 只 会 被 保存 在 源 端 。 


当 数 据 复制 还 没有 开始 之 前 ， 每 当 源 卷 发 生 一 笔 写 IO ， 系 统 便 会 
以 局 区 为 单位 算 好 新 数据 的 hnash， 人 然后 异步 更 新 到 hash 库 里 ， 这 样 ， 
hash 库 时 刻 处 于 最 新 状态 。 当 数据 复制 开始 之 后 ， 第 一 笔 针 对 源 卷 的 
写 IO， 系 统 同 样 会 以 局 区 为 单位 计算 其 hash 值 ， 然 后 从 hash 库 中 对 应 
偏 移 处 取出 针对 这 笔 1O 目 标 地 址 处 所 存放 的 原来 数据 的 hash 值 ， 进 行 
比 对 ， 发 现 哪些 扁 区 的 hash 值 发 生 了 变化 ， 然 后 便 向 一 个 链表 中 追加 
提交 该 发 生变 化 的 扇 区 ， 等 待 复制 〈 须 先 搜索 该 链表 ， 碍 看 是 否 之 前 
已 经 有 针对 该 扇 区 的 复制 任务 ， 如 果 有 便 删 除 之 ， 以 最 新 的 为 准 ， 这 
样 可 以 保证 IO 复制 的 时 序 一 致 性 ) 。 由 于 hash 库 是 完全 按照 扇 区 地 址 
排序 的 ， 所 以 不 存在 “搜索 ”这 一 步 ， 系 统 直接 套用 偏 移 量 算式 代入 一 
步 即 可 得 出 目标 hash 的 位 置 ， 然 后 直接 发 起 IO 读 出 hash 数 据 比 对 即 
可 ， 所 以 虽然 元 数量 非常 大 ， 但 是 根本 无 须 载 入 内 存 。 


如 图 14-49 所 示 为 MicroScan 技 术 能 够 节省 的 带宽 比例 。 


图 14-49 ”MicroScan 技 术 效果 示意 图 


了 RecoverTrac 


容 灾 最 难 的 是 什么 ? 不 是 数据 复制 ， 不 是 配置 安装 ， 而 是 前 期 规 
划 和 平时 的 运 维 管理 和 演练 ， 当 真有 灾难 发 生 的 时 候 ， 切 换 就 是 点 一 
下 鼠标 ， 一 锤子 买卖 的 事情 。 有 些 双 机 HA 产品 ， 它 们 规划 、 管 理 非 常 
简单 ， 因 为 往往 只 有 两 全 机 器 和 一 套 应 用 。 但 是 如 果 是 从 双 机 到 多 机 
(比如 几 十 台 机 器 ) ， 再 到 虚拟 机 (比如 几 百 台 机 器 ) ， 应 用 也 从 一 
套 单一 应 用 到 多 套 应 用 ， 而 且 应 用 之 间 相 互 关联 依赖 ， 对 于 这 样 一 个 
系统 的 容 灾 ， 其 管理 复杂 度 就 很 高 了 ， 需 要 一 个 集中 的 容 灾 管理 系统 
来 帮助 管理 员 管 理 容 灾 体系 。 


Stretched Cluster 


与 众多 厂商 的 Stretched Cluster 解 决 方案 架构 一 样 ， 在 用 户 的 两 个 
数据 中 心 分 别 部 署 一 套 存 储 和 一 台 NSS 存 储 虚 拟 化 网 天 ， 两 个 数据 中 
心 NSS 存 储 虚 拟 化 系统 互 为 备份 ， 两 套 存储 系统 可 以 是 不 同 品牌 ， 通 
过 飞 康 NSS Stretched Cluster 虚 拟 化 网 关 互 为 镜像 保护 ; 两 台 NSS 存 储 
虚拟 化 网 关 都 可 以 对 外 提供 服务 ， 把 磁盘 卷 分 配给 各 自 站 点 的 主机 使 
用 ， 也 就 是 实现 了 两 个 站 点 负载 的 相互 分 担 。 


在 两 个 数据 中 心 均 工作 的 情况 下 ， 当 某 一 数据 中 心 NSS 虚 拟 化 网 
关 发 生 故 障 时 ， 另 一 数据 中 心 的 NSS 虚 拟 化 网 关 可 以 自动 接管 故障 
NSS 上 运行 的 任务 ， 接 管 过 程 大 约 需 要 20 秒 左右 ， 业 务 系统 运行 不 会 
中 断 ， 保 证 了 业务 系统 的 连续 运行 。 当 某 一 数据 中 心 存储 系统 故障 
时 ， 作 为 镜像 的 另 一 数据 中 心 存储 自动 顶替 生产 ， 上 层 运行 的 应 用 系 
统 和 数据 库 系统 对 存储 的 故障 无 任何 感知 ， 业 务 系统 运行 不 会 受到 任 


何 影响 ， 从 而 保证 了 业务 的 连续 性 。 当 发 生 主机 系统 故障 时 ， 可 以 由 
主机 层 的 HA 环境 自动 切换 应 用 系统 和 数据 库 系 统 程序 到 另 一 个 数据 中 
心 的 主机 上 运行 。 


为 了 防止 脑 裂 现 象 ， 飞 康 NSS Stretched Cluster 引 入 了 一 个 第 三 方 
仲裁 机 制 一 Tiebreaker 仲 裁 。 它 与 两 个 NSS 存 储 虚 拟 化 网 关 的 电源 控制 
模块 进行 通信 ， 支 持 IPMI 和 HP iLO。 Tiebreaker 服 务 器 通过 网 络 监控 
Cluster 节 点 的 电源 控制 模块 ， 当 Cluster 虚 拟 化 网 关 之 间 无 法 判断 对 方 
状态 时 ，Tiebreaker 会 对 收 不 到 响应 的 虚拟 化 网 关 进 行 重 置 。 阻 止 两 个 
节点 都 向 存储 尝试 写 入 的 情况 发 生 ， 从 而 避免 数据 不 一 致 现象 。 


第 15 章 ”众志成城 一 -存储 集群 


a 分 布 式 

g 集群 

@ 高 可 用 性 集群 
@ 负载 均衡 集群 
@ 高 性 能 集群 


随 着 应 用 程序 对 服务 器 和 存储 系统 的 要 求 越 来 越 高 ， 对 于 传统 设 
备 来 说 ， 比 如 PC、PC 服 务 器 、 小 型 机 服务 器 等 ， 单 台 设 备 有 时 已 经 不 
能 满足 需求 了 。 此 时 虽然 可 以 使 用 大 型 机 ， 在 单一 设备 上 提供 更 高 的 
性 能 ， 但 是 大 型 机 的 物质 成 本 和 维护 成 本 是 高 不 可 攀 的 ， 而 且 大 型 机 
也 不 见得 适合 所 有 应 用 。 怎 么 办 呢 ? 众人 拾 柴火 焰 高 ， 人 们 想 出 了 一 
种 办 法 来 应 对 日 益 扩张 的 应 用 程序 需求 ， 就 是 用 多 台 设 备 联合 起 来 对 
外 提供 服务 ， 这 就 是 集群 。 


主机 可 以 形成 集群 ， 存 储 设备 一 样 可 以 形成 集群 。 目 前 中 高 端 存 
储 设 备 其 目 身 融 具备 双 控 制 器 。 不 但 如 此 ， 有 一 些 NAS 设 备 还 可 以 在 
众多 台独 立 设备 之 间 形 成 集群 ， 并 且 实 现 了 单一 名 称 空 间 ， 即 用 户 访 
问 目录 路 径 像 访 问 一 台 机 器 一 样 ， 而 实际 上 ， 可 能 是 由 集群 中 不 同 的 
五 点 来 提供 服务 。 


15.1 集群 概述 


用 多 个 节点 来 代替 一 个 节点 完成 任务 ， 宫 无 疑问 是 为 了 提高 处 理 
能 力 。 其 次 ,集群 还 可 以 做 到 高 可 用 性 ， 即 一 旦 某 个 节点 发 生 故 障 ， 
不 能 再 继续 参与 计算 ， 那 么 集群 中 的 其 他 节点 可 以 立即 接替 故障 节点 
的 工作 。 


15.1.1 ”高 可 用 性 集群 (HAC) 


在 HA 集群 中 ， 市 点 分 为 活动 节点 和 备份 节点 。 疾 动 节 扣 束 是 正在 
执行 任务 的 节点， 备份 节 扣 是 活动 节点 的 备份 。 一 旦 活动 节点 发 生 故 
障 ， 则 备份 节 扣 立 即 接 蔡 活动 节 操 来 执行 任务 。 高 可 用 性 集群 的 实现 
是 基于 资源 切换 的 。 所 谓 “ 资 源 ” 是 指 HA 集 群 中 某 个 节点 发 生 故 障 之 
后 ， 备 份 节点 所 要 接管 的 任何 东西 的 一 个 抽象 的 词汇 。 比 如 ， 在 某 个 
节点 发 生 故 障 之 后 ， 其 对 应 的 备份 节点 ， 需 要 接管 故障 节点 上 的 人 P 地 
址 、 主 机 名 、 磁 盘 卷 、 应 用 程序 的 上 下 文 等 ， 这 样 才能 将 对 客户 端 造 
成 的 影响 缩减 到 最 小 。 这 些 被 接管 的 实体 ， 便 被 称 为 资源”。 资 源 的 
监控 和 接管 ， 依 靠 于 HA 软件 。 目 前 存在 多 种 HA 软件 。 每 种 操作 系统 
几乎 都 自 带 HA 软件 ， 它 的 作用 就 是 监控 对 方 节点 的 状态 ， 一 旦 侦 测 到 
对 方 的 任何 故障 ， 那 么 便 会 强行 将 所 有 资源 占 为 己 有 并 向 客户 端 继续 
提供 服务 。 


15.1.2 ”负载 均衡 集群 (LBC) 


在 负载 均衡 集群 中 ， 集 群 中 的 所 有 节点 都 参与 工作 ， 每 个 节点 的 
地 位 相同 ， 接 受 的 工作 量 按照 某 种 策略 ， 由 一 个 单独 的 节点 作为 调度 
来 同 其 他 所 有 参与 运算 的 节点 分 配 ， 或 者 由 所 有 参与 运算 的 节操 之 间 
通过 网 络 通信 来 协商 分 配 。 分 配 策略 如 轮流 分 配 、 随 机 分 配 、 最 小 压 
力 分 配 等 。 


15.1.3 ”高 性 能 集群 (HPC) 


高 性 能 集群 ， 又 称 科学 计算 集群 。 这 种 集群 其 实 与 LBC 集 群 的 本 
质 是 相同 的 。 只 不 过 其 专用 于 科学 计算 ， 即 超大 运算 量 的 系统 ， 比 如 
地 质 勤 探 、 气 象 预测 、 分 子 科 选 、 仿 生 模 拟 、 归 日 质 构 型 、 分 子 约 物 
分 析 、 人 工 智 能 等 。 这 些 运算 要 么 逻辑 复杂 ， 要 么 需要 大 量 穷 举 ， 会 
耗费 大 量 的 CPU 和 内 存 资 源 。 有 些 需 要 几 天 、 几 个 月 甚至 半年 才能 执 
行 完 毕 。 此 时 ， 增 加 整个 系统 的 CPU 总 核心 数 ， 可 以 成 倍 地 缩短 执行 
时 间 。 


提示 : 记得 笔者 在 大 学 做 作业 设计 的 时 候 ， 有 个 同学 的 课题 
就 是 分 布 式 计算 ， 这 课题 也 简单 ， 就 是 第 一 天 将 任务 执行 
上 ， 一 个 月 之 后 结果 出 来 了 ， 写 论文 、 答 辩 。 那 时 候 的 计算 
机 上 用 的 都 是 Intel 奔 腾 4 的 CPU， 倘 若 用 现在 的 酷 害 多 核 
CPU， 我 想 只 需要 十 几 天 便 可 以 出 结果 。 


HPC 集 群 中 ， 为 了 增加 整个 系统 的 CPU 核心 数 ， 一 般 引 入 十 几 台 
或 者 几 十 台 、 几 百 台 计算 机 ， 其 中 每 台 计 算 机 又 可 以 有 多 个 物理 
CPU， 每 个 CPU 又 可 以 有 多 个 核心 。 这 样 整个 系统 的 CPU 核心 数 会 相 
当 可 观 。 那 么 如 何 利 用 这 么 多 的 CPU 呢 ? 如 何 将 任务 平均 分 配 到 每 个 
CPU 核心 上 呢 ? 


Windows 2000 以 后 的 windows 系 统 ， 操 作 系 统 默认 便 自 动 支持 同 
一 台 计 算 机 内 的 多 个 CPU 或 者 多 个 CPU 核心 ， 操 作 系 统 自 动 将 多 个 线 
程 平 摊 到 多 个 CPU 核心 上 运行 。 但 是 对 于 不 处 于 同一 台 计 算 机 内 的 
CPU 来 说 ， 任 务 将 要 怎么 分 配 到 其 他 节点 上 呢 ? 当然 是 通过 网 络 了 。 
为 了 方便 编程 出 现 了 很 多 API， 为 程序 员 屏 蔽 掉 多 CPU 所 带 来 的 编程 
复杂 度 ， 程 序 员 只 要 按照 这 些 API 规 范 来 编写 代码 ， 底 层 便 会 自动 将 


运算 任务 分 派 到 网 络 上 的 其 他 运算 节点 上 。 节 点 接收 到 任务 数据 之 
后 ， 再 由 节点 操作 系统 自行 将 这 块 任务 数据 分 派 到 节点 的 多 个 CPU 核 
心 上 。MPI 便 是 一 个 目前 广泛 应 用 的 HPC 系 统 API。 


15.2 ”集群 的 适用 范围 
集群 可 以 实现 在 系统 路 径 的 任何 点 上 。 


硬件 上 : _ CPU、 内存、 显卡 、 显 示 终 端 、 以 太 网 卡 、 计 算 机 本 
身 、 以 太 网 及 IP 网 络 设备 、FC 卡 、FC 网 络 交 换 设 备 、 磁 盘 阵 列 控制 器 
本 身 、 磁 盘 阵列 控制 器 内 部 的 各 个 组 件 、 磁 盘 本 身 、 磁 盘 内 部 的 多 片 
盘 片 和 多 个 磁头 。 


软件 上 : 应 用 程序 、 文 件 系统 、 卷 管理 系统 。 
什么 时 候 需 要 实现 集群 呢 ? 


当 某 个 系统 的 处 理 能 力 不 能 满足 性 能 要 求 的 时 候 ， 可 考虑 使 用 负 
载 均衡 集群 或 者 高 性 能 集群 ， 当 追求 系统 的 高 可 用 性 时 ， 即 希望 某 处 
故障 不 会 影响 整个 系统 的 可 用 性 的 时 候 ， 使 用 高 可 用 性 集群 ， 当 需要 
运算 的 数据 量 很 大 ， 运 算 周 期 很 长 的 时 候 ， 可 考虑 实施 高 性 能 集群 。 


目前 ， 各 大 知名 网 站 一 般 都 采用 负载 均衡 集群 来 均衡 TCP 连 接 请 
求 。 由 于 这 些 网 站 每 天 的 访问 量 很 大 ， 同 时 产生 的 TCP 连 接 请 求 也 很 
多 ， 所 以 如 果 只 用 一 台 计 算 机 来 接受 这 些 请 求 ， 根 本 满足 不 了 性 能 ， 
甚至 会 造成 这 台 机 器 资源 耗 尽 而 死机 。 基 于 Linux 系 统 的 LVS， 是 由 国 
人 主持 研发 的 一 种 TCP 负 载 均衡 软件 ， 被 广泛 用 于 TCP 连 接 压 力 很 大 
的 系统 下 。LVS 可 以 基于 很 多 策略 来 将 前 端的 请 求 分 摊 到 后 端的 多 台 
计算 机 上 。 其 本 质 就 是 一 个 基于 策略 的 TCP 包 转发 引擎 。 


对 于 比较 重视 IT 建设 的 企业 、 重 要 的 应 用 系统 ， 都 可 实施 HA 集群 
来 追求 高 可 用 性 ， 从 而 避免 故障 造成 的 生产 停顿 。 各 大 科研 院 所 、 气 
象 、 石 油 勘探 等 机 构 ， 由 于 其 需要 很 大 的 运算 量 和 运算 周期 ， 一 般 都 
有 HPC 集 群 。 


15.3 ”系统 路 径 上 的 集群 各 论 
15.3.1 ”硬件 层面 的 集群 
图 15-1 中 箭头 指向 的 部 件 都 可 以 被 集群 化 。 
图 15-1 系统 路 径 上 可 实现 集群 的 各 处 


(1) CPU 的 集群 。 应 用 在 多 CPU 的 计算 机 系统 ， 比 如 对 称 多 处 理 
器 系统 ， 多 个 CPU 之 间 共 享 物理 内 存 的 共同 协作 。 目 前 的 服务 器 以 及 
小 型 机 系统 大 多 为 这 种 结构 。 


(2) 内 存 的 集群 。 多 条 物理 内 存 组 成 更 大 容量 的 空间 ， 并 且 通 过 
比如 双 通 道 (相当 于 磁盘 系统 中 的 条 带 化 RAID 0) 等 技术 ， 提 高 
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(3) 以 太 网 卡 的 集群 。 目 前 有 多 种 方式 来 实现 以 太 网 卡 的 集群 。 
将 主机 上 的 多 块 以 太 网 卡 绑 定 ， 向 上 层 提 供 一 块 虚拟 网 卡 ， 底 层 则 可 
以 通过 ARP 轮 询 负 载 均衡 方式 ， 或 者 802.3ad 方 式 等 向 外 提供 负载 均 
衡 ， 或 者 HA 方式 的 多 路 径 访问 。 


(4) 以 太 网 及 IP 网 络 设备 的 集群 。 在 以 太 交 换 机 和 IP 路 由 器 上 ， 
多 台 设 备 之 间 协 作 转 发 网 络 数据 包 ( 帧 ) ， 诸 如 Cisco、 华 为 等 厂商 都 
已 经 实现 了 负载 均衡 以 及 HA 方式 的 集群 。 


(5) 显卡 的 集群 。 显 卡 集群 是 最 近 出 现 的 技术 。NVIDIA 以 及 
AMD 公 司 都 有 对 应 的 解决 方案 。 将 插 在 总 线 上 的 多 块 显卡 通过 特殊 连 
线 连接 起 来 ， 实 现 对 大 型 3D 数 据 演 染 的 负载 均衡 ， 性 能 得 到 很 大 提 
升 。 


(6) 显示 器 集群 。 比 如 电视 墙 等 。 但 是 这 个 严格 来 说 并 不 算 作 集 
群 。 


(7) FC 卡 的 集群 。 通 过 与 主机 上 的 多 路 径 软 件 配合 ， 多 块 FC 卡 
之 间 可 以 实现 流量 的 负载 均衡 和 HA。 或 者 通过 FC 网 络 中 的 ISL 链 路 负 
载 均 衡 、HA 方 式 实 现 流量 分 摊 。 


(8) FC 网 络 设备 的 集群 。 目 前 来 说 ，FC 网 络 设备 并 没有 像 以 太 
网 以 及 了 P 网 络 设备 那样 实现 负载 均衡 以 及 HA。 但 是 很 多 网 络 存储 系统 
中 ， 一 般 都 部 署 多 台 FC 交 换 机 以 避免 单 点 故障 ， 但 是 这 个 环境 中 的 FC 
交换 机 本 身 并 没有 集群 智能 ， 所 有 集群 逻辑 都 运行 在 FC 节点 上 。 


(9) 磁盘 阵列 控制 器 集群 。 目 前 几乎 中 高 端的 磁盘 阵列 的 控制 器 
都 为 双 控 架 构 ， 两 个 控制 器 之 间 可 以 为 HA 关系 ， 或 者 为 负载 均衡 天 
系 。 


(10) 磁盘 的 集群 。 典 型 的 磁盘 集群 就 是 RAID 系 统 ，7 种 RAID 
(磁盘 集群 ) 方式 ， 这 里 就 不 多 描述 了 。 其 次 磁盘 内 部 的 多 块 盘 片 ， 
多 个 磁头 之 间 也 组 成 了 集群 ， 但 这 并 不 能 算 作 集群 ， 因 为 同一 时 刻 只 
能 有 一 个 磁头 在 读 写 。 


15.3.2 ”软件 层面 的 集群 


软件 层面 的 集群 如 图 15-2 所 示 。 


图 15-2 ”软件 层面 的 集群 


1. 应 用 程序 的 集群 


一 个 应 用 程序 可 以 同时 启动 多 个 实例 (进程 ，， 共 同 完成 工作 。 
应 用 程序 的 不 同 实例 可 以 运行 在 同一 台 机 器 上 ， 也 可 以 运行 在 不 同 的 
机 器 上 ， 之 间 通 过 网 络 交互 协商 信息 。 


2. 文件 系统 的 集群 


文件 系统 的 集群 是 一 门 比较 独立 的 课题 。 可 以 实现 集群 功能 的 文 
件 系 统称 为 集群 文件 系统 。 比 如 NFS、CIFS 等 网 络 文件 系统 ， 就 是 最 
简单 的 集群 文件 系统 。 


集群 文件 系统 的 出 现 主要 是 为 了 解决 三 个 问题 : 容量、 性 能 、 共 


所 


(1) 容量 问题 。 集 群 文件 系统 有 一 类 又 被 称 为 分 布 式 文件 系统 。 
即 某 个 全 局 目录 下 的 存储 空间 ， 实 际 上 是 分 布 在 集群 中 的 各 个 节点 上 
的 。 分 布 式 文件 系统 将 每 个 节点 上 的 可 用 空间 进行 虚拟 的 整合 ， 形 成 
一 个 虚拟 目录 ， 并 根据 多 种 策略 来 判断 数据 的 流向 ， 从 而 将 写 入 这 个 
目录 的 数据 对 应 成 实际 存储 空间 的 写 入 。 这 样 便 可 以 做 到 集群 中 的 整 
合 存 储 ， 元 分 利用 集群 的 资源 优势 。 


(2) 性 能 间 题 。 用 多 个 节点 共同 协作 来 获取 高 性 能 ， 这 在 文件 系 
统 层 次 依然 成 立 。 集 群 文件 系统 使 得 每 个 节点 不 必 连 接 昂贵 的 磁盘 阵 
列 ， 就 可 以 获得 较 高 的 文件 IO 性 能 。 在 分 布 式 文件 系统 的 虚拟 整合 目 
录 的 做 法 之 上 ， 又 采取 了 类 似 磁盘 条 带 RAID 0 的 处 理 方 式 ， 依 据 各 种 


负载 均衡 策略 ， 将 每 次 10 写 入 的 数据 ， 分 摊 到 所 有 节点 上 ， 节 点 获得 
的 性 能 越 多 提升 就 越 大 。 但 这 只 是 理论 情况 ， 实 际 使 用 起 来 集群 文件 
系统 并 不 是 一 个 容易 实施 的 系统 ， 实 施 之 后 想 要 获得 高 性 能 ， 必 须 经 
过 长 时 间 的 优化 调试 过 程 。 


(3) 共享 访问 。 集 群 文件 系统 所 解决 的 最 后 一 个 问题 ， 也 是 最 为 
重要 的 一 个 问题， 就 是 多 节点 共同 访问 相同 目录 和 相同 文件 的 问题 。 
集群 文件 系统 对 多 个 节点 ， 同 时 读 写 相同 的 文件 做 了 很 周全 的 考虑 ， 
能 保证 所 有 节点 都 能 读 到 一 致 性 的 数据 ， 并 且 利 用 分 布 式 锁 机 制 保证 
在 允许 的 性 能 下 ， 节 点 之 间 不 会 发 生 写 冲突 。 


常见 的 集群 文件 系统 有 PVFS、PVFS2、Lustre、GFS、 GPFS、 
DFS、SANFS、SANergy 等 ， 这 里 就 不 做 过 多 介绍 了 。 


3。 卷 管理 系统 的 集群 


本 机 的 卷 可 以 与 本 机 卷 或 者 远程 计算 机 上 的 卷 进行 镜像 等 协同 操 
作 ， 形 成 集群 。 


15.4 ”实例 : Microsoft MSCS 软 件 实现 应 用 集群 


Windows Server 2003 集 群 要 求 每 台 服务 器 上 人 至少 有 两 块 以 太 网 络 
适配器 ， 一 块 作为 公用 网 络 适配器 (连接 外 部 网 络 ) ， 一 块 作为 专用 
网 络 适配器 (用 于 心跳 检测 ) 。 集 群 中 的 所 有 节点 必须 在 同一 个 域 
中 ， 一般 双 机 环境 中 直接 使 用 其 中 一 台 为 主 域 控 制 器 ， 另 一 台 为 备份 
域 控制 器 。 


15.4.1 ”在 Microsoft Windows Server 2003 上 安装 MSCS 


使 用 “控制 面板 ”的 “添加 /删除 程序 ”工具 ， 添 加 Windows 组 件 ， 安 
法 集群 服务 。 


(1) 在 管理 工具 菜单 中 打开 集群 管理 器 ， 当 弹出 集群 连接 向 导 
上 时， 选择“ 创建 新 集群 "， 并 单 击 “ 下 一 步 ” 按 钮 继续 ， 如 图 15-3 所 示 。 


图 15-3 ”创建 新 集群 


(2) 输入 集群 的 唯一 NetBIOS 名 称 (最 多 15 个 字符 ) ， 单 击 “ 下 
一 步 ”按钮 ， 如 图 15-4 所 示 。 


图 15-4 ”输入 集群 名 称 


(3) 如 果 在 本 地 登录 一 个 不 属于 “具有 本 地 管理 特权 的 域 账 户 ” 的 
账户 ， 向 导 会 提示 用 户 指 定 一 个 账户 ， 如 图 15-5 所 示 。 


图 15-5 ”输入 集群 账户 信息 


(4) 确认 将 要 作为 第 一 个 节点 创建 集群 的 服务 器 的 名 称 ， 如 图 
15-6 所 示 。 


图 15-6 输入 节点 名 称 


(5) 安装 程序 将 分 析 节 点 ， 查 找 可 能 导致 安装 出 现 问 题 的 软 硬 问 
题 。 检 查 所 有 和 警告 或 错误 信息 。 单 击 “ 详 细 信 息 ” 按 钮 可 以 了 解 有 关 每 
个 警告 或 提示 的 详细 信息 ， 如 图 15-7 所 示 。 


图 15-7 检查 集群 配置 环境 


(6) 输入 唯一 的 集群 了 地址 (只 能 用 于 管理 ， 不 能 用 于 客户 端 连 
接 ) ， 如 图 15-8 所 示 。 


图 15-8 输入 集群 IP 地 址 


" 输入 在 安装 时 创建 的 集群 服务 账户 的 “用 户 名 ”和 “密码 ”。 

集群 配置 完成 ， 单 击 “ 完 成 ”按钮 结束 。 

集群 配置 完成 后 ， 选 择 磁盘 阵列 上 的 一 个 LUN 为 仲裁 盘 
完成 节点 1 的 配置 后 ， 在 另 一 台 机 器 上 也 安装 集群 服务 ， 完成 后 
打开 集群 管理 器 。 

当 弹 出 集群 连接 向 导 时 ， 选 择 “ 加 入 现 有 的 集群 *， 根 据 向 导 完 
成 节点 2 的 配置 。 


提示 : 仲裁 磁盘 (Quorum Disk) 用 于 存储 集群 配置 数据 库 
检查 点 ， 以 及 协助 管理 集群 和 维持 一 致 性 的 日 志文 件 。 仲 裁 
盘 可 以 是 一 个 逻辑 分 多， 也 可 以 是 一 个 单独 的 磁盘 。 


15.4.2 ”配置 心跳 网 络 
(1) 启动 “集群 管理 器 ”。 


(2) 在 左 窗 格 中 ， 单 击 “ 集 群 配 置 "， 青 单 击 “ 网 络 ”"， 右 击 用 于 专 
用 网 络 (心跳 检测 专用 ) 的 适配器 ， 从 弹出 的 快捷 菜单 中 选择 “属性 ” 


二 人 作 
pD Yo 


(3) 选中 * 仅 用 于 内 部 集群 通信 (专用 网 络 ) ” 单 选 按钮 ， 如 图 
15-9 所 示 。 


图 15-9 配置 专用 网 络 (1) 


(4) 单 击 “ 人 确定 ”按钮 。 


(5) 右 击 用 于 公用 网 络 的 适配器 ， 从 弹出 的 快捷 菜单 中 选择 “ 属 


(6) 选中 “针对 集群 应 用 启用 该 网 络 ” 复 选 框 ， 如 图 15-10 所 示 。 
图 15-10 ”配置 公用 网 络 (2) 


(7) 选中 “所 有 通信 (混合 网 络 ) ” 单 选 按钮 ， 然 后 单 击 “确定 ” 按 
氏 。 


15.4.3 ”测试 安装 


在 “安装 ”程序 结束 后 ， 有 几 种 验证 集群 服务 安装 的 方法 ， 具 体 如 
下 。 


集群 管理 器 : 如 果 仅 完 成 了 节点 1 的 安装 ， 启 动 “ 集 群 管理 器 ”， 
然后 尝试 连接 到 集群 。 如 果 已 安装 了 第 二 个 节点 2， 可 在 任意 一 
个 节点 上 启动 “集群 管理 器 *， 然 后 确认 第 二 个 集群 显示 在 列表 


上 。 
" 查看 启动 服务 : 使 用 管理 工具 中 的 “服务 ”选项 ， 确 认 集 群 服务 
已 显示 在 列表 上 并 已 启动 。 


事件 日 志 : 使 用 “事件 查看 器 ”检查 系统 日 志 中 的 ClusSvc 条 目 。 
会 看 到 有 关 确 认 集 群 服务 已 经 顺利 形成 或 加 入 一 个 集群 的 条 
目 。 

集群 服务 注册 表 项 : 确认 集群 服务 安装 程序 将 正确 的 项 写 入 注 
册 表 。 可 以 在 HKEY _ LOCAL MACHINE\Cluster 下 找到 许多 注 
册 表 设置 。 


选择 “开始 ” “运行 ”菜单 命令 ， 然 后 在 弹出 的 对 话 框 中 ， 输 入 “ 虚 
拟 服务 ”名 称 。 确 认可 以 连接 并 看 到 资源 。 


15.4.4 ”测试 故障 转移 
验证 资源 将 执行 故障 转移 。 


选择 “开始 ”- “程序 ”-“ 管 理工 图 15-11 集群 管理 器 主 界面 
具 ” 菜 单 命 令 ， 然 后 单 击 “ 集 群 管理 
器 ”， 如 图 15-11 所 示 。 


右 击 “ 磁 盘 组 1 组 ， 然 后 单 击 “移动 组 ”。 该 组 及 其 所 有 资源 将 转移 
到 另 一 个 节点 。 稍 后 ， 磁 盘 F: 、G: 将 在 第 二 个 节点 上 实现 联机 。 在 
窗口 中 观察 该 转移 。 退 出 “集群 管理 器 ”。 


15.5 ”实例 : SQL Server 集 群 安装 配置 


上 面 我 们 已 经 设置 好 了 MSCS 集 群 基础 平台 ， 下 面 介绍 如 何在 这 
个 平台 上 安装 SQL Server 数 据 库 。SQL Server 2000 的 集群 安装 配置 已 
经 直接 集成 到 了 SQL Server 2000 的 数据 库 安装 向 导 中 ， 能 够 自动 识别 
到 Windows Server 2003 上 的 集群 系统 并 启用 数据 库 虚拟 服务 器 选项 ， 
实现 SQL Server 2000 集 群 虚拟 服务 器 在 两 全 服务 器 上 的 目 动 安装 配 
置 。 安 装 完成 后 ， 需 安装 SQL 2000 SP3 补 丁 包 。 


确保 SQL Server 2000 集 群 在 两 合 服务 器 上 的 上 自动 安装 配置 ， 两 台 
服务 器 MS-Clus-01A 与 MS-Clus-01B， 以 及 共享 磁盘 柜 都 须 处 于 开机 在 


15.5.1 ”安装 SQL Server 


(1) 在 接管 了 SQL 数据 盘 〈 磁 盘 Y: ) 的 节点 服务 器 MS-Clus- 
01A 上 ， 放 入 SQL Server 2000 企 业 版 安装 光盘 ， 启 动 SQL Server 2000 
的 安装 向 导 ， 如 图 15-12 和 图 15-13 所 示 。 


图 15 共享 磁盘 Y 被 MS-CLUS-01A 节 点 ”图 15-13 ”安装 SQL Serverl 
党 孵 
手 已 


(2) 安装 向 导 进 入 “计算 机 名 ”界面 后 ， 会 自动 识别 到 Windows 
Server 2003 的 集群 系统 ， 选 择 “ 虚 拟 服务 器 ?选项 ， 输 入 虚拟 SQL Server 
名 称 *MS-Clus-SQL”， 单 击 * 下 一 步 ” 按 钮 ， 如 图 15-14 所 示 。 


图 15-14 ”输入 虚拟 SQL Server 名 称 


(3) 在 “故障 转移 集群 "对话 框 中 输入 IP 地 址 “192.0.0.4”， 选 用 网 
络 Public， 单 击 “ 添 加 ”按钮 ， 使 其 添加 到 列表 中 ， 即 这 个 卫 地 址 属于 公 
用 网 络 。 然 后 单 击 “下 一 步 ” 按 钮 ， 如 图 15-15 所 示 。 


图 15-15 ”配置 虚拟 服务 器 IP 地 址 


(4) 在 “集群 磁盘 选择 ”对 话 框 中 选择 “组 0” 的 共享 磁盘 “Y: ”， 然 
后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 15-16 所 示 。 


图 15-16 ”选择 用 于 存放 数据 的 磁盘 


(5) 在 “集群 管理 ”对 话 框 ， 确 保 MS-CLUS-01A 与 MS-CLUS-01B 
都 在 “已 配置 节点 ”列表 中 ， 然 后 单 击 “ 下 一 步 * 按 钮 ， 如 图 15-17 所 示 。 


图 15-17 ”选择 集群 中 要 使 用 到 的 节点 


(6) 在 “远程 信息 ”对 话 框 ， 输 入 用 户 名 、 密 码 及 域名 ， 然 后 单 击 
“下 一 步 ” 按 钮 ， 如 图 15-18 所 示 。 


图 15-18 ”输入 账户 信息 


(7) 在 “实例 名 ”对 话 框 ， 选 中 “默认 ” 复 选 框 ， 然 后 单 击 “下 一 步 ” 
按钮 ， 如 图 15-19 所 示 。 


图 15-19 ”实例 名 窗口 


图 15-20 ”安装 目的 选择 


(8) 在 “安装 类 型 ”对 话 框 中 选 
中 “典型 * 单 选 按钮 ， 由 于 前 面 磁盘 
选择 了 “组 0” 的 “磁盘 Y: ”,“ 目 的 文件 夹 ” 的 “数据 文件 ”自动 定位 到 Y : 
盘 ， 而 SQL 程序 文件 则 会 自动 安装 到 MS-Clus-01a 与 MS-Clus-01b 的 本 
地 盘 相 关 目 录 下 ， 单 击 “ 下 一 步 ” 按 钮 ， 如 图 15-20 所 示 。 


(9) 在 “服务 账户 ”对 话 框 ， 选 中 “对 每 个 服务 使 用 同一 账户 ” 单 选 
按钮 ， 由 于 是 集群 配置 ,，“ 使 用 本 地 系统 账户 ” 单 选 按 钮 为 不 可 用 。 输 
入 用 户 名 、 密 码 及 域名 ， 然 后 单 击 * 下 一 步 "按钮 ， 如 图 15-21 所 示 。 


图 15-21 输入 账户 信息 


(10) 在 “身份 验证 模式 ”对 话 框 中 选中 “混合 模式 ” 单 选 按钮 ， 输 
入 sa 密码 ， 然 后 单 击 * 下 一 步 ?按钮 ， 如 图 15-22 所 示 。 


图 15-22 ”身份 验证 配置 


(11) 安装 完成 后 ， 打 开 “ 和 集群 管理 器 *”， 在 “集群 配置 ”下 可 看 到 
“资源 类 型 ”中 多 了 两 个 SQL Server 的 资源 ， 这 是 因为 SQL Server 2000 


企业 版 为 Cluster-Aware 的 应 用 系统 ， 安 装配 置 时 自动 添加 了 支持 
Cluster 的 服务 组 件 ， 如 图 15-23 所 示 。 


图 15-23 ”新 加 入 的 资源 (1) 


(12) 单 击 “组 0"， 可 看 到 除 原 有 的 “磁盘 Y: ”外 ， 新 添 了 5 个 SQL 
资产， 而 且 都 已 联机 ， 说 明 SQL Server 2000 集 群 安 装配 置 完成 ， 如 图 
15-24 所 示 。 


图 15-24 ”新 加 入 的 资源 (2) 
15.5.2 ”验证 SQL 数据 库 集 群 功能 


(1) 在 一 台 客 户 机 上 安装 SQL Server 2000 的 “企业 管理 器 ”与 “ 查 
询 分 析 器 >”， 来 测试 验证 数据 库 的 Failover 功 能 。 


(2) 打开 “企业 管理 器 *”， 注 册 数 据 库 “192.0.0.4”， 即 虚拟 数据 库 
的 IP 或 服务 器 名 ， 如 图 15-25 所 示 。 


图 15-25 ”连接 到 虚拟 服务 器 
(3) 新 建 一 个 测试 数据 库 MytestDB， 如 图 15-26 所 示 。 
图 15-26 创建 新 数据 库 “MytestDB” 


(4) 在 数据 库 MytestDB 中 新 建 表 employee， 并 添加 几 条 记录 ， 
如 图 15-27 所 示 。 


图 15-27 新 建 表 


(5) 打开 * 查 询 分 析 器 ”， 连 接 到 192.0.0.4 的 数据 库 MytestDB， 检 
索 表 employee 返 回 数据 ， 如 图 15-28 所 示 。 


15-28 employee 返 回 数据 


(6) 在 “集群 管理 器 ”中 移动 数据 库 资源 组 “组 0” (MS-Clus- 
01A 一 MS-Clus-01B) ， 进 行 资源 切换 ， 如 图 15-29 和 图 15-30 所 示 。 


图 15-29 手动 切换 资源 (1) 
图 15-30 “手动 切换 资源 (2) 


(7) 移动 “组 0” 过 程 中 ， 在 “查询 分 析 器 ”中 持续 执行 数据 检索 ， 
刚 开 始 “ 连 接 中 断 ” 检 索 不 到 数据 ， 几 十 秒 钟 后 又 恢复 正常 ， 能 顺利 检 
索 到 数据 ， 如 图 15-31 和 图 15-32 所 示 。 


图 15-31 ”服务 中 断 图 15-32 ”服务 恢复 


测试 验证 表明 ， 此 配置 方案 可 以 实现 数据 库 的 FailOver， 而 且 切 
换 时 间 在 30 秒 左右 。 


15.6 ” 块 级 集群 存储 系统 


存储 系统 一 直 以 来 都 是 以 一 个 总 控制 器 中 心 加 上 几 串 磁盘 扩展 柜 
的 形式 多 存在 的 。 直 到 最 近 几 年 ， 这 种 模式 有 被 打破 的 趋势 。 


1. Scale-Up 和 Scale-Out 


当 一 个 存储 系统 使 用 一 个 或 者 两 个 元 余 的 控制 器 来 对 外 提供 服务 
时 ， 如 果 其 性 能 不 能 满足 越 来 越 苛刻 的 应 用 要 求 和 负载 ， 那 么 厂商 会 
考虑 在 单个 控制 器 中 加 入 更 多 的 CPU、 升 级 更 高 的 CPU 主 频 、 增 加 更 
多 的 内 存 以 及 扩充 更 多 的 IO 总 线 以 连接 更 多 的 IO 扩展 卡 ， 以 此 来 提高 
这 个 存储 系统 的 性 能 ， 这 种 扩展 方式 称 为 Scale-Up。 


而 在 一 个 独立 计算 机 系统 总 线 中 增加 更 多 的 CPU 和 内 存 的 做 法 ， 
会 越 走 越 窗 ， 随 着 CPU 数量 的 增多 ， 其 所 耗费 的 设计 成 本 和 硬件 成 本 
融会 更 陡峭 地 升 高 ， 而 且 ， 随 着 单 系统 内 CPU 效 量 的 增加 ， 其 性 能 所 
得 到 的 提升 也 会 越 来 越 趋 近 于 0; 其 次 ， 这 种 扩展 方式 也 不 利于 长 远 发 
展 ， 如 果 随 着 时 间 的 推移 ， 升 级 后 的 系统 又 变 得 不 够 用 ， 那 么 不 可 能 
无 限制 地 添加 CPU 和 内 存 ，Scale-Up 的 扩展 方式 等 于 是 自 寻 死路 。 此 
时 ， 融 催生 人 们 考虑 是 否 可 以 将 人 存储 系统 集群 化 ， 用 多 人 台 CPU 和 内 存 
以 及 IO 扩展 卡 数量 较 少 的 独立 的 控制 器 ， 通 过 某 种 互联 网 络 通道 将 所 
有 控制 器 连接 起 来 形成 一 个 集群 系统 ， 这 种 扩展 方式 称 为 Scale-Out。 


两 种 方式 比 起 来 ，Scale-Out 更 加 节约 成 本 ， 而 且 在 设计 良好 的 情 
况 下 ， 可 以 增加 更 多 的 集群 节点 ， 系 统 性 能 随 着 节点 数量 的 增加 而 近 
乎 正比 地 增加 。 


2. 分 久 必 合 ， 合 久 必 分 ; 分 中 有 合 ， 合 中 有 分 ， 万 物 此 和 合 


与 主机 系统 的 集群 化 趋势 一 样 ， 存 储 系统 也 步 入 了 集群 化 。 然 而 
大 规模 主机 集群 真正 广泛 应 用 的 是 HPC 领 域 ， 并 未 被 一 般 企业 所 采 
用 ， 其 根本 原因 其 实 是 因为 对 应 的 应 用 程序 还 并 未 跟 上 时 代 ， 仍 处 于 
非 集群 化 开发 模式 下 。 虽 然 可 以 让 非 集群 化 应 用 运行 于 集群 中 某 单 个 
节点 上 ， 但 是 鉴于 集群 中 的 单 节 扣 性 能 反而 可 能 不 能 满足 需求 的 尴 炊 
境地 ， 所 以 大 多 数 企业 宁愿 花费 更 多 的 钱 使 用 性 能 强劲 的 PC Server 其 


至 小 型 机 来 运行 这 些 应 用 。 只 有 一 些 高 端的 应 用 比如 数据 库 等 系统 提 
供 了 集群 方式 的 部 署 ， 比 如 Oracle RAC 和 DB2 PureScale 等 。 而 另 一 方 
面 ， 企 业 又 会 被 主机 性 能 的 滔 费 所 困 殷 ， 从 而 部 署 虚拟 机 系统 。 所 
以 ， 集 群 也 不 是 ， 不 集群 也 不 是 ， 这 又 催生 了 一 种 更 加 彻底 的 解决 方 
案 ， 即 云 系统 ， 这 个 话题 将 在 本 书 其 他 章节 讨论 。 


对 于 集群 存储 系统 ， 仔 细 体 会 一 下 ， 我 们 隐约 可 以 洞察 到 其 中 有 
些 奥 妙 之 处 。 集 群 存储 系统 的 数据 分 布 有 两 种 方式 : 


”一 是 将 多 份 整体 数据 每 一 份 都 分 开 存 放 于 集群 中 的 每 个 节点 
上 
二 是 将 多 份 独立 的 数据 ， 每 一 份 放 在 一 个 独立 节点 上 或 者 手动 
决定 数据 分 割 的 份 数 以 决定 利用 的 节点 数目 。 


对 于 前 者 的 数据 分 布 方式 ， 在 多 个 应 用 系统 共同 访问 时 ， 可 能 在 
特定 情况 下 会 影响 系统 整体 性 能 ， 对 于 后 者 分 布 方式 ， 每 个 应 用 系统 
只 访问 一 个 节点 或 者 按照 性 能 要 求 访问 多 个 节点 ， 对 其 他 节 扣 性 能 没 
有 影响 ， 这 就 相当 于 在 一 个 传统 非 集群 存储 系统 中 ， 对 每 个 应 用 建立 
独立 的 Raid Group 一 样 的 道理 。 


对 于 第 二 种 集群 数据 分 布 方式 ， 需 要 很 多 的 人 为 介入 ， 但 是 却 可 
以 保证 性 能 资源 的 平衡 合理 分 配 。 任 何 存 储 系统 的 一 个 最 大 的 问题 就 
是 在 多 主机 多 应 用 并 发 访问 时 如 何 保证 系统 的 性 能 ， 特 别 是 高 带宽 否 
吐 量 的 情况 下 (这 个 话题 将 在 其 他 章节 论述 ) 。 目 前 解决 这 种 并 发 情 
况 下 性 能 大 幅 降低 的 一 个 办 法 就 是 隔离 相关 资源 。 在 集群 存储 系统 
中 ， 这 个 问题 依然 存在 ， 所 以 依然 要 使 用 资源 隔离 的 方法 。 所 以 ， 整 
个 系统 仿佛 又 回 到 了 DAS 架 构 ， 每 台 主 机 都 使 用 自己 专 供 的 存储 系 
统 ， 只 不 过 这 些 DAS 和 存储 孤岛 被 集中 管理 了 起 来 而 已 。 这 种 状态 有 一 


丝 诡 异 ， 显 示 了 这 种 事物 处 于 一 种 若即若离 的 不 定 状 态 ， 下 一 步 的 发 
展 ， 非 收敛 即 分 散 ， 而 我 们 调查 一 下 这 个 事物 在 进入 这 种 状态 之 前 是 
什么 状态 呢 ? 是 收敛 状态 ， 即 数据 集中 存储 和 访问 ， 那 么 我 们 可 以 推 
断 这 个 事物 从 收敛 状态 走向 松 耦 合 迷离 状态 ， 当 前 就 是 这 样 一 种 状 
态 ， 多 点 集群 ， 那 么 多 点 集群 下 一 步 的 趋势 将 是 完全 分 散 状 态 。 分 散 
状态 下 的 存储 系统 是 什么 呢 ? 其 实 就 是 彻底 的 DAS 状 态 ， 即 存储 架构 
又 回 到 了 每 个 使 用 者 各 自 保 有 一 个 独立 专 供 的 存储 系统 ， 各 自 管 理 各 
自 的 存储 系统 ， 各 个 使 用 者 互 不 干扰 ， 却 还 可 以 取得 良好 的 性 能 以 及 
高 容量 ， 而 且 还 不 浪费 多 少 电 和 物理 空间 。 符 合 这 种 条 件 的 存储 介质 
是 什么 呢 ? 当然 是 心 片 存 储 而 非 机 械 存储 。 


当前 的 SSD 硬 盘 ， 单 块 SSD 的 大 块 连续 读 吞 吐 量 甚至 可 以 超过 
350MB/s， 写 则 超过 了 210MB/s; 甚至 在 4K 块 随机 读 吞 吐 量 也 超过 了 
200MB/s， 写 超过 了 180MB/s， 随 机 读 IOPS 超 过 600， 随 机 IO 延迟 不 超 
过 1ms。 这 确实 是 非常 惊人 的 速度 。 这 种 速度 ， 满 足 当 前 主流 的 应 用 
系统 已 经 不 成 问题 。 所 以 ， 随 着 技术 的 发 展 ， 大 容量 SSD 的 成 本 会 逐 
渐 降 低 到 可 以 用 得 起 的 地 步 (128GB 的 SATA 6Gb/s 的 SSD 价 格 目前 为 
146GB 的 3 倍 还 多 ) ， 并 且 各 种 技术 壁 佬 相继 突破 ， 一 块 或 者 几 块 SSD 
即 可 满足 主流 的 应 用 ， 试 问 此 时 有 何 理 由 再 去 使 用 网 络 适 配 卡 通过 线 
缆 连 接 到 外 部 设备 上 去 存储 数据 呢 ? 


当 存 储 介质 有 了 一 次 质 的 飞跃 之 后 ， 整 个 存储 系统 架构 就 产生 了 
彻底 的 一 次 轮回 。 那 么 再 之 后 会 怎么 发 展 呢 ? 分 久 必 合 ， 当 无 线 电 技 
术 发 展 到 一 定 程度 时 ， 数 据 再 一 次 将 会 被 集中 存放 ， 各 个 角色 可 以 用 
无 线 通 信 来 获取 数据 。 那 么 再 往 后 呢 ? 合 久 必 分 ， 此 时 又 怎么 分 呢 ? 
这 个 问题 现在 还 无 法 想象 。 


集群 存储 系统 可 以 分 为 基于 Block 协 议 访问 的 传统 存储 的 集群 ， 以 
及 基于 NAS 协 议 访 问 的 NAS 集 群 系统 ， 还 有 一 类 属于 文件 系统 的 集 
群 ， 下 面 将 一 一 介绍 。 


15.6.1 IBM XIV 集 群 存储 系统 


IBM XIV 存 储 系 统 为 以 色 列 的 一 家 公司 所 开发 ， 后 被 IBM 收 购 。 
XIV 是 一 种 网 格 集群 化 存储 系统 ， 集 群 中 的 每 个 节点 都 是 一 台 X86 
Server， 每 个 节点 都 包含 12 块 本 地 SATA 硬 盘 。 


1. XIV 系 统 的 物理 拓扑 设计 思想 


共有 两 种 类 型 的 节点 ， 一 种 是 Interface Node ， 或 者 称 Interface 
Module; 另 一 种 是 Data Node ， 或 者 称 Data Module。 只 有 Interface 
Module 上 插 有 前 端 主机 通道 适 配 卡 ， 比 如 FC 卡 、ISCSI 卡 等 ， 这 也 是 
其 名 称 的 由 来 ， 意 即 主 机 端 只 能 连接 到 Interface Module 上 。 Interface 
Module 本 身 也 含有 12 块 SATA 磁 盘 。Data Module 上 没有 前 端 主 机 通道 
适配器 ， 只 包含 12 块 SATA 硬 盘 以 及 两 块 双 口 1Gbps 以 太 网 适配器 。 每 
个 节点 有 1 颗 Intel 的 4 核 CPU 〈 新 一 代 产 品 有 2 颗 ) 和 8GB 的 DDR2 内 
存 。 


整个 系统 的 连接 拓扑 图 如 图 15-33 所 示 。6 个 Interface Module 通 过 
两 人 台 宛 余 的 以 太 网 交换 机 与 9 个 Data Module 相 连接 ， 每 个 Interface 
Module 使 用 3 条 链 路 与 一 个 以 太 网 交换 机 连接 ， 而 Data Module 使 用 两 
条 链 路 与 每 个 交换 机 连接 。 每 个 Interface Module 包 含 4 个 4Gb/s 的 FC 
口 ， 其 中 两 个 用 于 主机 连接 ， 另 两 个 用 于 其 他 用 途 (Miror、DR 
等 ) 。 


图 15-33 ”XIV 内 部 连接 逻辑 拓扑 图 


如 图 15-34 所 示 为 满 配 的 XIV 存 储 系统 各 种 节点 在 机 柜 中 所 处 的 位 
置 示意 图 。 


图 15-34 ”节点 排列 图 
如 图 15-35 所 示 为 XIV 存 储 系统 实物 的 前 视图 和 后 视图 。 
图 15-35 ”机 柜 实物 图 
如 图 15-36 所 示 为 XIV 存 储 系统 中 节点 机 箱 的 透视 图 。 
图 15-36 ”节点 机 箱 透视 图 
如 图 15-37 所 示 为 Interface 节 点 的 连接 拓扑 示意 图 。 
图 15-37 ”Interface 节 点 连接 示意 图 
如 图 15-38 所 示 为 节点 的 正视 图 。 
图 15-38 ”节点 正视 图 
如 图 15-39 所 示 为 节点 互 连 用 后 端 交 换 机 的 实物 图 。 
图 15-39 ”节点 互 连 交 换 机 实物 图 


如 图 15-40 所 示 为 XIV 存 储 系统 的 GUI 配置 界面 。 其 个 性 化 十 足 ， 
仿 苹果 操作 系统 菜单 设计 。 


图 15-40 ”GUI 配置 界面 


2。XIV 系 统 对 LUN 的 分 布设 计 思 想 


对 于 这 样 一 个 网 格 化 的 存储 系统 ， 卷 /逻辑 驱动 器 /LUN 被 设计 为 
平均 分 布 在 多 个 或 者 全 部 节点 之 上 ， 有 一 个 映射 图 来 记录 每 个 LUN 的 
分 布 状况 。 而 且 每 个 LUN 对 应 的 每 个 数据 块 都 会 被 镜像 一 份 ， 存 储 在 
与 源 数据 块 不 同 的 任何 一 个 节点 上 ， 源 分 块 称 为 Primary， 镜 像 之 后 的 
分 块 称 为 Secondary。 这 样 一 来 ， 任 何 一 个 节点 故障 不 会 导致 数据 丢 
失 ， 并 且 在 任何 一 块 磁盘 或 者 整个 节点 故障 之 后 ， 系 统 会 根据 LUN 了 映 
射 图 来 判断 并 将 丢失 的 部 分 通过 尚 完好 的 源 数 据 块 再 次 镜像 一 份 到 其 
他 任何 一 个 节点 上 的 剩余 存储 空间 。 


这 种 思想 与 NetApp 公 司 的 WAFL 文 件 系 统 极 为 类 似 ， 大 凡 高 度 虚 
拟 化 的 设备 ， 其 底层 的 逻辑 卷 /LUN 都 不 是 存在 于 固定 位 置 的 ，XIV 用 
映射 图 来 遍历 整个 LUN 在 所 有 节点 磁盘 上 的 存储 地 址 ， 并 可 以 将 LUN 
的 某 个 块 移动 到 其 他 节点 并 重新 更 新 映射 图 ， 这 种 思想 就 是 不 折 不 扣 
的 文件 系统 思想 : 文件 系统 可 以 将 任何 文件 分 步 到 硬盘 上 的 各 个 空 
间 ， 并 使 用 mode Tree 来 损 历 整个 文件 的 分 布 情 况 。WAEFL 和 XIV 正 是 
对 这 种 思想 在 卷 管 理 设 计 上 的 灵活 运用 ， 但 是 XIV 可 能 并 没有 沦 为 彻 
底 的 文件 系统 ， 其 粒度 以 及 元 数据 复杂 度 一 定 不 如 WAFL 那 么 细 。 最 
终 ， 一 个 LUN 或 者 卷 就 体现 为 一 个 Filedisk， 但 是 这 只 是 对 存储 系统 内 
部 而 言 ， 对 主机 客户 端 而 言 一 切 都 没有 变化 。 如 图 15-41 所 示 为 XIV 系 
统 接受 一 个 客户 端 主机 发 送 的 写 IO 请 求 之 后 的 流程 。 


图 15-41， 写 IO 处 理 流程 图 


XIV 系 统 在 其 某 个 Interface Module 上 接收 到 一 个 针对 某 LUN 某 地 
址 段 的 写 IO。 


接收 到 IO 的 Interface Module 将 IO 数据 收入 之 后 ， 首 先 通 过 
Distribution Map 判 断 这 个 LUN 的 这 段 地 址 落 在 的 分 块 及 其 镜像 块 存 在 
于 哪个 Module 上 。 如 果 对 应 的 分 块 或 者 镜像 块 其 中 一 个 是 存在 自己 本 
地 硬盘 中 ， 那 么 这 个 Interface Module 会 立即 将 这 份 数 据 副 本 通过 后 端 
以 太 网 发 送 到 这 个 分 块 镜像 所 在 的 Module， 然 后 通知 客户 端 主机 写 入 
成 功 。 这 样 ， 数 据 便 会 在 两 个 节点 的 Cache 中 ， 实 现 了 Cache Mirror， 
一 旦 这 份 数 据 尚 写 入 硬盘 的 过 程 中 ， 某 个 节点 发 生 故 障 ， 那 么 还 有 男 
外 一 个 节点 保存 着 这 份 数 据 。 


如 果 接 收 到 写 IO 的 Interface Module 判 断 的 结果 是 ， 这 个 IO 对 应 的 
LUN 分 块 没有 存在 自己 本 地 硬盘 ， 而 是 存放 在 了 另外 两 个 节点 上 ， 那 
么 这 个 Interface Module 会 根据 Distribution Map 将 这 份 IO 数据 发 送 到 这 
个 分 块 所 对 应 的 Primary 副 本 所 被 保存 的 节点 。 


保存 Primary 分 块 节 点 收 到 IO 数 据 之 后 ， 再 次 根据 Distribution Map 
判断 出 对 应 这 个 分 块 的 Secondary 副 本 被 保存 的 节点 ， 立 即将 这 个 IO 发 
送 过 去 ， 当 收 到 发 送 成 功 的 回应 之 后 ， 立 即 向 刚才 的 那个 Interface 
Moudle 返 回 写 入 成 功 的 回应 。Interface Module 接 收 到 成 功 回 应 之 后 ， 
立即 向 客户 端 主 机 返回 写 入 成 功 的 回应 。 


3。 XIV 系 统 的 快照 设计 思想 


Filedisk 的 设计 思想 会 彻底 地 改变 后 续 所 有 上 层 功 能 模块 的 设计 ， 
比如 Thin Provision、 Snapshot、Clone、 Miror、Dedupe 等 。 例 如 ， 对 
于 Snapshot 的 实现 ，WAFL 和 XIV 都 使 用 了 Write Redirect 的 实现 方式 ， 
这 绝对 不 是 巧合 ， 而 是 Filedisk 的 核心 设计 思想 使 然 。 


在 WAFL 中 ， 每 个 Snapshot 其 实 就 是 一 份 mode Tree 指针 链条 和 其 
对 应 的 实体 数据 块 的 留存 影像 ， 包 括 当 前 的 活动 文件 系统 ， 这 种 设计 
使 得 当前 活动 文件 系统 与 Snapshot 本 身 是 同 质 化 的 ， 可 以 大 大 降低 设 
计 复杂 度 ， 从 而 提高 运行 效率 。 同 样 ， 在 XIV 的 卷 管理 模块 (本 质 是 
一 个 文件 系统 ， 而 且 是 集群 文件 系统 ) 中 ， 每 个 LUN (文件 ) 都 对 应 
一 份 Distribute Map (Inode Tree) ， 如 果 需 要 将 LUN (文件 ) 中 的 某 个 
或 者 某 段 数据 块 (文件 的 一 字 节 或 一 段 字 节 ) 移动 到 系统 中 的 其 他 节 
点 上 的 硬盘 (文件 所 存储 的 底层 硬盘 空间 ) ， 那 么 只 需要 将 对 应 的 数 
据 作 相应 移动 之 后 ， 在 Distribute Map 中 作 相 应 的 指针 改变 即 可 。 当 快 
照 生 成 时 ， 采 用 Write Redirect 方 式 ， 快 照 时 间 点 的 这 个 LUN 的 
Distribute Map 与 其 对 应 的 实体 数据 将 会 被 冻结 ， 然 后 系统 将 当前 的 
Map 复 制 一 份 存放 (或 者 只 复制 Map 的 跟 入 口 ， 视 设计 不 同 而 定 ) ， 
这 个 新 Map 就 是 当前 活动 Map。 当 随后 有 针对 这 个 LUN 的 写 IO 请 求 进 
入 时 ， 系 统 将 会 把 这 个 IO 数据 写 到 系统 中 任何 一 个 节点 的 任何 一 个 空 
闲 数据 块 ， 并 在 新 生成 的 Map 对 应 的 位 置 将 指针 更 新 ， 指 向 这 个 新 数 
据 块 。 如 果 再 次 生成 快照 ， 那 么 系统 就 把 当前 的 活动 Map 再 复制 一 
份 ， 然 后 将 当前 的 Map 冻 结 为 快照 Map， 之 后 的 动作 以 此 类 推 。 对 于 
Write Redirect 模 式 的 快照 具体 设计 思想 可 以 参照 本 书 第 16 章 。 


基于 这 个 设计 模式 ，XIV 还 可 以 复制 快照 ， 即 生成 一 份 与 某 个 快 
照 完全 相同 的 快照 ， 其 原理 很 简单 ， 就 是 复制 一 份 这 个 快照 的 
Distribute Map 并 冻结 即 可 。 


当然 ， 对 于 一 个 粗 线条 的 卷 管理 模块 来 讲 ， 其 管理 LUN 的 数据 粒 
度 必 定 不 会 与 彻底 的 文件 系统 相 比 ， 但 是 本 质 思想 却 是 相同 的 。 
WAFL 的 管理 粒度 为 4KB， 而 XIV 的 管理 粒度 为 1MB。 


4. XIV 系 统 的 故障 恢复 设计 


经 过 上 文 的 论述 ， 我 们 可 以 看 到 XIV 对 数据 分 布 的 本 质 思 想 其 实 
是 分 布 式 RAID 10。 就 相当 于 在 一 个 文件 系统 之 内 将 一 个 文件 
(LUN) 复制 了 一 份 ， 并 将 副本 存放 于 其 他 的 位 置 (每 个 数据 块 的 源 
和 镜像 不 允许 放 在 同一 个 节点 上 ) 。 这 样 ， 整 体系 统 的 可 用 容量 就 相 
当 于 减 半 。 我 们 可 以 将 这 种 设计 称 为 “< 上层 分 布 式 RAID 10”， 那 么 与 
其 对 应 的 就 是 “底层 固定 式 RAID 10” 了 。 后 者 就 是 传统 的 RAID 10 系 
统 。 传 统 的 RAID 10 系 统 有 一 个 很 大 的 不 足 ， 即 不 管 Raid Group 内 分 布 
了 几 个 LUN, 或 者 甚至 有 没有 被 实体 数据 所 占用 ， 那 么 底层 均 会 将 所 
有 的 数据 块 镜像 起 来 。 


刚才 所 说 的 “有 没有 被 数据 占用 ”， 这 句 话 或 许 有 人 不 理解 ，RAID 
层 怎 么 会 判断 其 上 的 哪些 块 < 有 用 ”， 哪 些 块 * 没 用 ” 呢 ? (关于 这 个 话 
题 请 参考 附录 2 的 问题 11 和 48) 的 确 ， 正 因为 Raid 无 法 判断 ， 所 以 才 需 
要 把 有 用 没 用 的 一 同 镜像 起 来 ， 这 就 是 底层 应 该 做 的 。 负 责 判 断 有 用 
或 者 没 用 的 是 上 层 文 件 系统 ， 或 者 ， 融 是 我 们 当前 论述 的 XIV 的 郑 管 
理 系统 。 底 层 实 现 不 了 这 种 判断 的 结果 就 是 直接 导致 了 资源 浪费 ， 在 
一 块 磁盘 故障 之 后 ， 系 统 做 了 太 多 的 无 用 功 ，Rebuild 了 许多 无 用 的 数 
据 块 ， 实 在 是 划 不 来 。 


上 面 讲 了 对 应 于 “底层 ”二 字 ， 再 来 说 说 “固定 式 ” 的 缺点 。 传 统 的 
RAID 10 系 统 ， 源 和 镜像 必须 有 相同 的 磁盘 数量 和 容量 ， 一 对 一 ， 少 
一 块 都 不 行 ， 而 镜像 端的 磁盘 容量 可 以 比 源 端 的 大 ， 但 是 多 余 的 容 
量 ，RAID 又 会 将 其 砍 掉 不 用 ， 很 滑稽 ， 这 无 疑 是 一 个 巨大 的 浪费 。 是 
否 可 以 实现 一 种 另外 的 模式 呢 ? 比如 将 一 块 磁盘 上 的 数据 ， 分 开镜 像 
到 多 块 磁盘 上 ， 相 当 于 把 一 块 磁盘 再 RAID 0 化 ; 或 者 ， 将 多 块 磁盘 上 


的 数据 ， 镜 像 到 一 块 磁盘 上 。 对 于 后 者 ， 底 层 RAID 是 无 论 如 何 也 实现 
不 了 的 。 另 外 ， 底 层 固 定式 RAID 10 要 求 Raid Group 中 的 磁盘 一 定 是 在 
本 地 管理 范围 内 ， 而 不 能 跨 计 算 机 系统 ， 如 果 本 地 计算 机 系统 整体 故 
障 ， 那 么 整个 Raid Group 就 无 法 访问 了 。 


再 来 看 看 XIV 的 上 层 分 布 式 RAID 10 是 如 何 解 决 上 述 这 些 问题 的 。 


= 解决 做 无 用 功 的 问题 。 前 文 说 过 ，XIV 的 卷 管理 系统 是 一 个 粗 
线条 的 文件 系统 ， 它 当然 可 以 感知 自己 所 管理 的 文件 (LUN) 
占用 了 哪 块 磁盘 上 的 哪 块 空间 ， 既 然 这 样 ， 那 么 卷 管理 系统 就 
可 以 只 镜像 这 些 文件 ， 而 无 须 镜像 硬盘 上 没有 被 文件 以 及 元 数 
据 所 占用 的 数据 块 。 镜 像 操 作 是 由 卷 管理 层 完成 的 ， 所 以 称 之 
为 “上 层 ”。 这 就 很 好 地 解决 了 第 一 个 问题 。 

解决 磁盘 数量 必须 一 一 对 应 问题 。 既 然 卷 管理 系统 可 以 将 LUN 
像 对 待 文件 一 样 将 其 复制 到 另外 的 存储 空间 ， 那 么 为 何不 可 以 
将 这 个 文件 分 开 若 干 份 存储 于 多 个 硬盘 中 ， 或 者 将 原本 分 开 存 
放 于 多 个 硬盘 中 的 文件 的 各 个 部 分 再 合并 起 来 存放 到 一 个 硬盘 
中 呢 ? 当然 是 可 以 的 了 。 比 如 ， 某 个 LUN 被 分 为 4 块 : B1、 
B2、B3、B4。 这 4 块 数据 分 别 存 放 于 D1、D2、D3 和 D4 这 4 块 硬 
盘 当 中 。 现 在 决定 拿 掉 D1、D2 这 两 块 硬盘 而 保留 这 个 LUN， 那 
么 卷 管理 系统 会 首先 将 B1、B2 这 两 个 块 复制 到 D3 和 D4 硬盘 
上 ， 然 后 通知 可 以 拿 掉 硬 盘 。 此 时 ， 这 个 LUN 就 由 原来 分 布 于 
4 块 硬盘 上 变 成 现在 分 布 于 两 块 硬盘 上 了 ， 当 然 这 里 只 是 一 个 
RAID 0 思想 ， 并 未 涉及 到 RAID 10。 


下 面 我 们 就 来 演示 一 下 XIV 卷 管理 系统 是 如 何 解决 传统 RAID 10 模 
式 下 磁盘 数量 一 一 对 应 的 问题 的 。 


如 图 15-42 所 示 ， 传 统 RAID 10 模 式 下 ， 设 某 个 LUN 被 分 为 6 块 数 
据 块 ， 分 别 标记 为 B1~~B6， 每 个 数据 块 的 镜像 块 分 别 标记 为 M1~ 
M6。 这 些 数据 分 布 在 4 块 硬盘 上 ， 并 且 每 块 硬盘 都 有 剩余 空间 。 


图 15-42 ”传统 RAID 10 


某 时 刻 ，D1 磁 盘 故 障 ， 数 据 块 B1[、B2、B3 丢 失 。 但 是 其 镜像 M1 
天 M3 依 然 存 在 ， 此 时 ，XIV 系 统 为 了 恢复 数据 的 见 余 ， 需 要 将 M1~~ 
M3 数据 块 再 次 镜像 到 其 他 磁盘 。 如 图 15-43 左 边 部 分 所 示 ，XIV 系 统 将 
这 三 个 数据 块 镜 像 到 了 D3 磁盘 的 剩余 空间 内 。 右 半边 显示 的 是 另外 一 
种 镜像 方式 ， 即 系统 可 以 将 数据 块 镜像 到 任何 磁盘 的 任何 位 置 。 右 半 
边 所 示 的 方式 ， 同 样 可 以 保证 数据 的 元 余 性 。 


图 15-43 ”D1 故障 


假如 ，XIV 系 统 在 D1 人 磁盘 故 障 之 后 ， 成 功 地 将 M1 人 ~M3 再 次 镜像 
到 了 D3 和 D4 两 块 磁盘 之 后 ，D3 磁 盘 又 发 生 了 故障 。 那 么 此 时 可 以 判 
断 出 ， 数 据 依然 没有 丢失 。 为 了 恢复 数据 的 元 余 性 ， 此 时 系统 会 再 次 
将 只 剩 下 一 份 复制 的 数据 块 再 次 镜像 到 系统 整体 的 剩余 空间 内 。 如 图 
15-44 所 示 。 左 右 两 半边 分 别 对 应 了 两 种 方式 。 


图 15-44 ”元 余 性 恢复 了 〈 两 种 模式 ) 


当 镜 像 完成 后 ， 系 统 依然 可 以 保证 见 余 性 。 如 果 此 时 D2 或 者 D4 任 
何 一 块 磁盘 故障 ， 那 么 系统 将 没有 见 余 性 ， 但 是 数据 依然 可 以 访问 。 
当 最 后 剩余 的 磁盘 也 故障 时 ， 数 据 就 损毁 了 。 某 时 刻 ， 管 理 员 手动 添 
加 了 两 块 新 硬盘 ，XIV 系 统 会 重新 平衡 数据 分 布 ， 让 LUN 的 6 个 分 块 平 
衡 分 布 在 这 4 块 硬盘 上 。 如 图 15-45 所 示 为 重新 分 布 完成 后 的 数据 分 布 
图 。 


图 15-45 ”新 盘 加 入 之 后 数据 重新 平衡 


从 上 面 的 例子 中 我 们 可 以 体会 出 ，XIV 的 这 种 上 层 RAID 10 设 计 ， 
是 一 种 可 以 随时 迁移 数据 块 的 ， 并 且 可 以 任意 分 布 式 摆 放 数据 块 ， 不 
受 磁 盘 数 量 限制 而 只 受 系统 内 整体 剩余 空间 限制 的 新 设计 思想 。 所 以 
我 们 在 上 文 把 这 种 模式 叫做 “上 层 分 布 式 RAID 10”。 


传统 RAID 10 系 统 在 一 块 磁盘 故障 之 后 ， 只 能 将 源 磁盘 上 的 全 部 
数据 镜像 到 新 的 磁盘 中 ， 如 果 此 时 系统 已 经 没有 新 的 磁盘 ， 那 么 系统 
什么 也 不 会 做 ， 只 会 报警 通知 管理 员 快 增加 新 磁盘 。 


解决 磁盘 必须 在 本 地 的 问题 。 由 于 是 上 层 RAID ， 所 以 XIV 系 统 中 
的 每 个 节点 都 可 以 通过 后 端的 以 太 网 交换 机 与 其 他 节点 进行 内 部 通 
言 ， 以 同步 所 有 LUN 的 Distribute Map， 以 及 用 于 将 本 地 存储 的 数据 块 
镜像 到 另外 节点 上 的 磁盘 。 同 一 个 节点 中 存储 的 数据 块 中 任何 一 个 数 
据 块 的 镜像 块 都 必须 被 存放 在 非 本 节点 的 任何 一 个 或 多 个 其 他 节 点 
上 。 这 样 ， 一 旦 一 个 节点 整体 故障 ， 数 据 依然 可 以 访问 ， 同 时 剩余 的 
所 有 节点 均 会 通过 Distribute Map 来 判断 故障 节点 中 原来 所 存储 的 某 个 
或 某 些 数据 块 是 否 是 本 地 存储 的 某 个 或 某 些 数据 块 的 源 块 或 者 镜像 
块 ;， 如 果 是 ， 则 证 明 这 个 数据 块 目前 已 经 没有 了 宛 余 性 ， 需 要 下 次 将 
其 镜像 ， 则 系统 会 将 存储 于 本 地 的 这 个 或 者 这 些 数 据 块 镜 像 一 份 ， 将 
其 复制 到 另外 的 节点 中 的 剩余 空间 存放 。 


目前 所 发 布 的 XIV 系统， 最 大 配置 为 6 个 Interface Module 十 9 个 
Data Module。 最 大 磁盘 数量 =15x12 王 180 块 SATA 硬 盘 。 虽 然 系统 整 
体 容 量 不 大 ， 但 是 XIV 的 这 种 架构 设计 可 以 很 容易 地 扩充 到 更 多 的 节 
| 


\O 


此 外 ，XIV 的 一 项 非常 拿 得 出 手 的 本 领 ， 就 是 ， 只 要 系统 整体 还 
有 剩余 的 磁盘 空间 ， 那 么 只 要 磁盘 一 块 一 块 的 坏 下 去 ， 甚 至 节点 一 个 
一 个 的 故障 下 去 ， 那 么 整体 数据 的 多余 性 依然 会 被 保持 ， 直 到 没有 剩 
余 空间 不 足 为 止 。 当 然 ， 前 提 是 ， 在 一 个 磁盘 或 者 一 整个 节点 坏 掉 之 
后 ， 必 须 等 待 系统 Rebuild， 也 就 是 镜像 完成 之 后 ， 才 能 允许 再 坏 下 一 
块 磁盘 (与 上 一 块 磁盘 在 同一 节点 的 磁盘 可 以 一 下 全 坏 ) 或 者 下 一 个 
节点 ， 否 则 数据 很 大 几率 上 将 被 损毁 。 这 一 点 ， 在 经 过 上 文 演示 之 后 
相信 读者 都 可 以 充分 深 刻 地 理解 其 本 质 了 。 


还 有 ，XIV 的 另 一 项 杀手 铜 就 在 于 其 在 故障 之 后 对 系统 元 余 性 的 
恢复 速度 方面 。 很 多 人 都 表示 惊讶 。 据 资料 显示 , “一 个 1TB 容 量 的 
SAIA 磁 盘 损坏 后 ， 满 配 的 XIV 并 且 数 据 存 满 这 块 故障 的 磁盘 后 的 
Rebuild 时 间 只 需要 30 分 钟 左右 ， 相 对 传统 Raid 恢 复 来 讲 ， 速 度 有 了 人 惊 
人 的 提升 ”。 请 注意 ， 所 谓 “ 相 对 于 传统 Raid 恢 复 ”， 是 传统 RAID 5 还 是 
传统 RAID 10 呢 ? 这 可 能 会 让 人 产生 思维 定 势 ， 自 然 的 考虑 到 RAID 5 
恢复 时 所 耗费 的 时 间 ， 那 是 相当 长 的 。 但 是 XIV 本 质 是 RAID 10 啊 ， 得 
用 传统 RAID 10 来 比较 才 对 ， 下 文 会 做 详细 比较 。 


经 过 上 面 的 分 析 之 后 ， 这 种 恢复 速度 丝 野 不 让 人 惊讶 ， 因 为 其 设 
计 思 想 自然 地 就 能 够 达到 这 么 高 的 恢复 速度 ， 如 果 达 不 到 ， 那 才 是 让 
人 惊讶 之 处 。 下 面 列 出 了 几 个 让 人 不 惊讶 的 原因 及 对 应 的 分 析 。 


原因 1: 看 清楚 ， 想 清楚 。 是 RAID 10 不 是 RAID 5， 如 果 换 RAID 
5 试 试 ? XIV 的 卷 管理 系统 在 故障 恢复 和 数据 分 布 时 之 所 以 可 以 设计 得 
如 此 灵活 ， 是 因为 其 使 用 的 RAID 10 镜 像 的 思想 ， 而 不 是 RAID 5 的 
Stripe 算 XOR 的 思想 。 假 如 ，XIV 使 用 RAID 5 的 思想 ， 也 就 是 几 个 数据 
块 做 XOR， 然 后 将 校 验 值 存放 在 其 他 存储 空间 。 那 这 样 的 话 ， 每 当 卷 
管理 系统 要 将 某 LUN 的 某 个 块 移动 到 其 他 位 置 的 时 候 ， 系 统 都 要 在 新 


位 置 上 重 算 XOR ， 与 传统 RAID 5 实现 方式 没有 一 点 区 别 。 所 以 如 果 使 
用 RAID 5 或 者 RAID 4 的 话 ， 那 么 XIV 就 与 常人 无 异 了 ， 就 是 一 款 普 普 
通通 的 集群 存储 系统 ， 其 杀手 铀 也 将 不 复 存 在 。 正 因 如 此 ， 由 于 RAID 
5 的 XOR 计 算 需 要 耗费 太 多 的 计算 资源 和 IO 资源 ， 所 以 XIV 的 恢复 速度 
HRAID 5 快 十 几 倍 也 是 很 正常 的 。 


原因 2 : 分 布 式 ， 理 解 这 三 个 字 。 传统 RAID 10， 一 块 磁盘 丢失 
后 ， 镜 像 的 数据 只 能 从 那 一 块 镜像 磁盘 上 来 读 ， 然 后 还 只 能 写 到 那 一 
块 新 磁盘 上 去 ， 也 就 是 一 个 盘 读 ， 一 个 盘 写 。 而 XIV 的 卷 管理 系统 是 
将 LUN 分 块 平衡 存放 于 多 个 磁盘 的 ， 而 这 些 分 块 对 应 的 镜像 块 也 都 是 
存放 在 多 个 磁盘 上 的 ， 所 以 在 XIV 进 行 Rebuild 的 时 候 ， 是 从 多 个 盘 
读 ， 同 时 向 多 个 盘 写 ， 相 当 于 RAID 3 的 思想 ， 众 人 拾 柴火 焰 高 ， 满 配 
180 块 磁盘 ， 所 以 恢复 速度 快 是 理所当然 的 了 。 


这 里 有 必要 再 与 RAID 5 比较 一 下 。 假 设 同 样 有 180 块 硬盘 ， 组 成 
了 一 个 大 RAID 5， 坏 掉 一 块 磁盘 之 后 ， 系 统 需要 从 剩余 的 179 块 磁盘 
中 读 出 其 上 的 所 有 数据 (当然 数据 是 边 读 边 运算 的 ， 这 里 将 其 转换 为 
最 终 统计 数字 ) ， 然 后 再 将 运算 结果 写 到 新 磁盘 中 。 如 果 每 块 磁盘 容 
量 是 1TB ， 内 部 磁盘 环 路 带宽 为 4Gb 三 400MB/s， 需 要 读 出 的 总 数据 量 
为 179TB ， 需 要 耗费 的 时 间 为 (179x1024x1024/400) /3600 三 130.3 小 
时 ， 由 于 写 入 新 盘 和 读 取 剩 余 磁 盘 为 双 工 操作 ， 所 以 不 计 入 总 时 间 ， 
另外 ， 也 忽略 了 XOR 运 算 所 消耗 的 时 间 ， 而 且 磁 盘 环 路 带宽 按照 
100% 效 率 计算 。 这 个 数字 与 0.5 相 比 ， 反 差 是 巨大 的 。 但 是 一 定 要 清 
楚 ，RAID 10 与 RAID 5 在 恢复 时 间 方 面 没 有 可 比 性 。 况 且 实 际 也 不 会 
使 用 这 么 多 的 磁盘 来 形成 一 个 RAID 5 组 。 实 际 中 一 般 情 况 下 就 拿 8 盘 
RAID 5 来 算 的 话 ，Rebuild 时 间 也 要 有 8~9 个 小 时 ， 而 且 是 系统 外 部 负 
载 很 小 的 时 候 。 


我 们 不 妨 再 与 传统 RAID 10 系 统 来 比较 一 下 。 假 设 同样 由 180 块 硬 
盘 组 成 一 个 传统 RAID 10 系 统 ， 其 中 90 块 盘 与 另 90 块 盘 互 为 镜像 关 
系 。 某 时 刻 ， 其 中 一 块 磁盘 故障 ， 此 时 系统 会 从 这 块 磁盘 对 应 的 镜像 
磁盘 将 数据 读 出 同时 写 入 新 磁盘 。 由 于 不 牵扯 任何 XOR 之 类 的 额外 运 
算 ， 属 于 整 盘 复制 ，IO 类 型 属于 连续 读 与 连续 写 ， 所 以 可 以 按照 SATA 
人 硬盘 的 理论 连续 读 吞吐 量 60MB/s 来 计算 。 (1x1024x1024/60) /3600= 
4.85 小 时 。 可 以 近似 认为 180 块 硬盘 配置 的 XIV 在 Rebuild 时 耗费 的 时 间 
为 传统 RAID 10 的 110。 如 果 今 后 XIV 系 统 可 以 增加 更 多 的 节点 ， 想 必 
Rebuild 速 度 会 有 所 加 快 。 当 然 ， 系 统 整体 磁盘 越 少 ，Rebuild 时 间 也 就 
会 相应 延长 了 。 


原因 3 : 最 重要 的 原因 是 ， 不 做 无 用 功 ! 这 也 是 3 个 原因 中 最 重要 
也 是 效果 最 大 的 一 个 原因 。 人 恢复 速度 快 ， 只 重新 镜像 复制 磁盘 上 已 经 
被 LUN 所 占用 的 那些 数据 块 ， 而 不 是 整 盘 镜像 。 如 果 这 个 坏 盘 上 原先 
只 有 很 少 的 数据 块 被 占用 ， 还 用 30 分 钟 么 ?估计 一 分 钟 也 可 以 了 ， 甚 
至 几 秒 钟 都 有 可 能 ， 或 者 ， 根 本 不 用 时 间 ， 因 为 或 许 它 上 面 本 来 就 没 
有 任何 LUN 去 占用 。 


5。 XIV 系 统 很 容易 做 到 但 尚未 做 到 的 


动态 存储 分 级 数据 迁移 是 目前 正在 被 热 炒 的 几 个 存储 系统 上 层 技 
术 之 一 。 包 括 Compellent、EMC、HDS 在 内 的 多 家 厂商 都 已 经 在 这 个 
领域 有 相关 的 产品 发 布 。 但 是 IBM 只 是 在 Tivoli 软 件 中 实现 了 一 个 客户 
端 基于 文件 的 分 层 管理 工具 ， 并 未 在 存储 端 提 供 基于 卷 或 者 基于 Block 
的 动态 迁移 方案 。 


XIV 这 种 可 以 将 LUN 分 块 任意 迁移 到 其 他 节点 的 功能 ， 自 然而 然 
地 就 可 以 在 稍 加 开发 的 基础 上 做 到 Tiered Storage Management 。 


Compelent 公 司 可 以 在 其 在 线 存储 中 实现 基于 Block 的 动态 数据 迁移 ， 
HDS 可 以 在 其 存储 系统 中 做 到 基于 卷 的 手动 迁移 ，EMC 在 其 存储 系统 
中 提供 FAST 功 能 可 以 实现 基于 卷 或 者 卷 分 块 的 动态 迁移 。 可 以 看 到 ， 
这 些 技术 都 是 将 整 卷 或 者 整 卷 细 分 成 更 细小 的 块 来 做 迁移 的 。XIV 原 
生 的 技术 已 经 支持 了 卷 分 块 迁移 ， 相 比 于 上 述 厂 商 ， 所 需要 开发 的 模 
块 就 少 了 很 多 。 


遗憾 的 是 ，XIV 目 前 尚未 有 相关 技术 发 布 。 包 括 有 类 似 潜 质 的 
WAFL ， 也 未 见 动静 。 综 上 所 述 ，XIV 将 LUN 当 作 一 个 文件 ， 然 后 在 
一 个 分 布 式 多 节点 系统 内 利用 分 布 式 文件 系统 来 管理 这 些 LUN， 再 利 
用 Interface Module 将 这 些 文件 LUN 以 SCSI 块 的 形式 进行 输出 。 


6. XIV 系 统 的 理论 吞吐 量 计算 


XIV 存 储 系 统 在 节点 互 连 带 宽 方面 不 是 很 足 。 和 干粮 以 太 网 交换 
机 ， 在 15 个 节点 满 配 的 情况 下 ， 其 后 端 整 体 互 连 带 宽 也 不 过 6x6 十 9x4 
二 72Gb/s 二 9GB/s。 对 于 15 个 节点 的 存储 集群 ， 这 个 数值 是 比较 低 的 ， 
也 是 瓶颈 所 在 。 


由 于 系统 在 处 理 IO 写 的 过 程 中 ， 会 产生 2 次 或 者 3 次 IO 传输 过 程 ， 
均 会 跨越 后 端 交换 机 。 我 们 在 此 给 出 一 个 理论 计算 推导 出 来 的 XIV 满 
配 情况 下 的 最 大 读 和 写 吞 吐 量 的 计算 过 程 和 结果 。 由 于 系统 包含 6 个 
Interface Module 和 9 个 Data Module， 所 以 需要 读 写 的 数据 块 地 址 落 在 
前 者 类 型 节点 之 上 的 几率 为 6/15 二 0.4， 落 在 后 者 类 型 节点 之 上 的 几率 
为 0.6。 我 们 按照 几率 来 进行 计算 。 


1) 理论 平均 最 大 读 吞 吐 量 (Cache Miss) 


假设 ， 在 一 秒 之 内 ， 系 统 接收 到 的 所 有 读 IO 对 应 地 址 的 Primary 或 
者 Secondary 块 均 落 在 了 Interface 类 型 的 节点 之 上 。 那 么 ， 我 们 假设 IO 
类 型 为 大 块 连续 IO， 每 个 Interface Module 的 12 块 SATA 硬 盘 以 额定 速率 
发 送 数 据 ， 即 每 块 硬盘 60MB/s 的 速度 ， 总 速度 为 12x60MB/s = 
720MB/s ，6 个 节点 后 端 额 定 速 度 共 4320MB/s ， 前 端 额定 速度 为 
2x6x400MB/s 二 4800MB/s， 所 以 整体 理论 额定 速率 以 后 端 为 准 ， 为 
4320MB/s。 


假设 ， 在 一 秒 之 内 ， 系 统 接收 到 的 所 有 读 IO 对 应 地 址 的 Primary 或 
者 Secondary 块 均 落 在 了 Data 类 型 的 节点 之 上 ， 而 且 我 们 同样 假设 IO 类 
型 为 大 块 连续 IO。 此 时 ， 每 个 Interface Module 在 接收 到 读 IO 请 求 之 后 
都 需要 从 后 方 的 Data Module 上 取 数 据 。 所 有 6 个 Interface Module 的 后 
端 链 路 总 带宽 为 6x6Gb/s 二 36Gb/s 二 4.5GB/s， 而 所 有 9 个 Data Module 所 
提供 的 链 路 总 带宽 为 9x4Gb/s = 36Gb/s 二 4.5GB/s ， 与 前 方 Interface 
Module 匹 配 ， 但 是 必须 要 看 后 端 磁盘 是 否 可 以 满足 这 个 带宽 。 后 端 共 
9x12 二 108 块 SATA 硬 盘 ， 每 块 理论 最 大 带宽 60OMB/s， 总 后 端 磁盘 带宽 
二 108x60MB/s 二 6480MB/s>4.5GB/s， 所 以 ， 按 照 前 端 带宽 为 准 ， 整 体 
理论 带宽 为 4.5GB/so 


按照 几率 比例 将 结果 进行 换算 得 出 系统 读 平 均 理论 最 大 带宽 为 : 
(4.5GB/s x 0.6) 十 (4320MB/s x0.4) 三 4492.8MB/s。 除 掉 前 端 FC 协 
议 以 及 后 端 以 太 网 与 其 上 层 协 议 传 输 耗 费 的 带宽 ， 按 照 15% 来 算 ， 再 
除 掉 控 制 器 处 理 所 耗 费 的 延迟 资源 等 ， 按 照 10% 计 算 ， 则 最 终 实际 结 


果 应 该 接近 于 3369MB/s。 


2) 理论 平均 最 大 写 吞 吐 量 (Write Through) 


a 假设 IO 类 型 为 大 块 连 续 IO。 由 于 后 端 率 扯 到 Cache Mirror 过 程 ， 
所 以 计算 起 来 比较 复杂 。 


3) IO 对 应 的 地 址 落 在 Interface 节 点 (几率 0.4) 


4) IO 对 应 的 块 地 址 恰好 落 在 接收 到 IO 的 Interface 节 点 (几率 
0.4x1/6) 


5) 镜像 块 落 在 了 其 他 Interface 节 点 (几率 0.4x1/6x5/14) 


这 种 情况 下 ， 每 个 接收 到 IO 的 Interface 节 点 可 以 用 后 端 6 条 链 路 全 
速 向 镜像 块 所 在 的 节点 发 送 数据 ， 即 整体 写 吞 吐 量 为 6x6Gb/s 一 36Gby/s 
一 4.5GB/s。 


a 镜像 块 落 在 了 某 Data 节 点 (几率 0.4x1/6x9/14) 。 


这 种 情况 下 ， 同 样 由 于 每 个 接收 到 IO 的 Interface 节 点 只 能 向 一 个 
Data 节 点 发 适 数据 ， 则 只 能 够 以 Data 节 点 后 端 链 路 数 为 准 ， 即 整体 与 
吞吐 量 为 6x4Gb/s 二 3GB/so 


a IO 对 应 的 块 地 址 落 在 了 非 接 收 到 IO 的 Interface 节 点 (几率 
0.4x5/6) 。 
a 镜像 块 落 在 了 其 他 Interface 节 点 (几率 0.4x5/6x5/14) 。 


这 种 情况 下 ， 要 计算 理论 最 大 带宽 ， 需 要 让 所 有 的 节点 在 收发 数 
据 时 不 发 生 冲 突 ， 即 每 3 个 Interface 节 点 为 一 组 (接收 到 IO 的 节点 、 
次 转发 节点 、 二 次 转发 节点 ) ， 共 两 组 。 整 体 传输 带宽 为 : 2x6Gb/s 三 
1.5GB/so 


a 镜像 块 藻 在 了 某 Data 节 点 (几率 0.4x5/6x9/14) 。 


这 种 情况 下 ， 要 计算 理论 最 大 带宽 ， 需 要 让 所 有 的 节点 在 收发 数 
据 时 不 发 生 冲 突 ， 即 每 两 个 Interface 节 点 为 一 组 (接收 IO 的 节点 、 一 
次 转发 到 的 节点 ) ， 共 3 组 。 但 是 这 三 组 接收 传送 组 的 终点 是 各 自 对 应 
的 Data 节 点 ， 所 以 按照 Data 节 点 的 最 大 链 路 来 计算 。 整 体 否 吐 量 为 
3x4Gb/s 二 1.5GB/so 


将 以 上 所 有 结果 乘 以 各 自 对 应 的 几率 ， 我 们 得 出 第 一 种 情况 的 吞 
吐 量 贡献 值 为 0.736GB/s。 


a IO 对 应 的 地 址 落 在 Data 节 点 (几率 0.6) 。 
= 镜像 块 落 在 了 Interface 节 点 (几率 0.6x6/14) 。 


在 这 种 情况 下 ， 一 个 接收 转发 组 由 接收 到 IO 的 节点 、 一 次 转发 
Data 节 点 和 二 次 转发 Interface 节 点 组 成 。 二 次 转发 Interface 节 点 又 可 作 
为 接收 到 IO 的 节点 ， 依 次 类 推 串 联 ， 每 个 转发 组 都 不 会 与 其 他 转发 组 
冲突 。 这 样 一 共 是 5.5 组 。 以 Data 节 点 链 路 数量 为 准 计算 ， 整 体 否 吐 量 
为 5.5x4GB/s 二 2.75GB/s。 


= 镜像 块 落 在 了 其 他 Data 节 点 (几率 0.6x8/14) 。 


在 这 种 情况 下 ， 一 个 接收 转发 组 由 接收 到 IO 的 节点 、 一 次 转发 
Data 节 点 和 二 次 转发 Data 节 点 组 成 ， 共 可 组 成 4.5 组 。 以 Data 节 点 链 路 
数量 为 准 计算 ， 整 体 吞吐 量 为 4.5x4GB/s 二 2.25GB/s。 


将 以 上 所 有 结果 乘 以 各 自 对 应 的 几率 ， 我 们 得 出 第 二 种 情况 的 吞 
吐 量 贡献 值 为 1.478GB/s。 


将 第 一 种 和 第 二 种 情况 的 贡献 值 相 加 得 出 系统 整体 理论 写 吞 吐 量 
为 2.214GB/s。 除 掉 协 议 层 耗 费 的 带宽 以 及 控制 器 处 理 延迟 总 开销 共 


25%， 得 出 最 后 实际 写 吞 吐 量 应 接近 1.66GB/s。 


XIV 系 统 在 读 和 写 同 时 进行 的 时 候 ， 由 于 后 端 链 路 会 发 生 严重 的 
冲突 ( 读 和 写 都 需要 后 端 链 路 进行 发 送 和 接收 动作 ) ， 所 以 理论 值 更 
是 达 不 到 上 述 分 析 结 果 了 。 其 次 ， 由 于 多 个 LUN 都 均匀 分 布 于 所 有 节 
点 的 所 有 硬盘 ， 所 以 ， 在 多 LUN 并 发 连续 大 块 IO 读 或 者 写 的 时 候 ， 很 
有 可 能 会 造成 硬盘 寻 道 冲突 ， 大 大 降低 吞吐 量 (这 个 冲突 作用 我 们 会 
在 性 能 优化 章节 中 介绍 和 分 析 ) 。 而 对 于 小 块 随 机 IO， 即 OLTP 类 型 的 
IO， 分 布 式 的 LUN 的 设计 会 随 着 节点 的 增加 而 IOPS 正 比 升 高 。 


如 图 15-46 所 示 为 XIV 系 统 的 吞吐 量 实测 值 ， 我 们 看 到 与 推导 值 较 
为 接近 ， 但 是 误差 比较 大 ， 这 个 无 法 避免 。 


图 15-46 ”吞吐 量 实测 值 


如 图 15-47 所 示 为 XIV 系 统 的 IOPS 实 测 值 (Cache Miss) ， 可 以 看 
到 这 个 值 对 于 一 个 由 180 块 SATA 盘 组 成 的 集群 系统 来 讲 还 是 比较 可 观 
的 。 


图 15-47 IOPS 实 测 值 
7。 全 打 散 式 LUN 分 布 方式 的 致命 缺点 


当 遇 到 多 主机 用 大 块 连续 IO 的 方式 并 发 访问 多 个 LUN 的 时 候 ， 此 
时 系统 整体 的 性 能 会 骤 降 ， 具 体 原 因 可 以 参考 本 书后 面 章节 。 机 械 磁 
盘 最 怕 寻 道 ， 加 上 XIV 使 用 的 都 是 SATA 盘 ， 平 均 寻 道 速 度 更 慢 ， 此 时 
便 是 XIV 最 难受 的 时 候 。 


15.6.2”3PAR 公 司 Inserv-T800 集 群 存储 系统 


1。JInserv-T800 系 统 硬件 架构 简 述 


3PAR 公司 设计 的 Inserv-T800 为 一 款 X86 集 群 式 存储 系统 。 整 个 集 
群 系统 可 以 由 2~8 个 节点 组 成 ， 其 中 节点 必须 成 对 添加 ， 每 1 对 为 1 个 
单元 ， 这 1 对 节点 共享 的 带 起 后 端的 两 串 磁 盘 扩 展柜 (每 串 4 个 ) , 一 
个 节点 对 不 能 直接 访问 男 一 个 节点 对 所 管理 的 磁盘 。 


每 一 个 节点 都 是 一 台中 高 配置 的 X86 Server。 系 统 内 的 所 有 节点 
间 两 两 直通 ， 每 两 个 节点 都 使 用 一 条 独立 的 100MHz 64bPCI-X 总 线 相 
连 。 在 一 个 8 节 点 的 系统 内 ，1 个 节 扣 需 要 与 男 外 7 个 节点 互 连 ， 所 以 ， 
每 个 节点 都 需要 7 条 PCI-X 总 线 连接 到 背 板 ， 形 成 一 个 具有 28 条 直通 
PCI-X 总 线 的 星 形 结构 ， 如 图 15.48 右 侧 所 示 。 但 是 由 于 PCI-X 为 半 双 工 
传输 ， 所 以 整体 系统 内 部 互联 带宽 为 28x800MB/s 二 21.875GB/s。 由 于 
PCI-X 并 非 一 种 包 交 换 网 络 传输 模式 ， 所 以 背 板 并 不 需要 加 电 ， 是 一 
块 布 满 导线 和 接口 的 被 动 式 的 背 板 ，PCI-X 编 解码 和 传输 电路 都 位 于 
节点 内 部 。 同 样 是 由 于 被 动 背 板 的 原因 ， 如 果 系 统 节 点 数量 达 不 到 8 
个 ， 比 如 只 有 两 个 ， 那 么 此 时 只 能 用 到 后 端的 一 条 PCI-X 线 路 作为 互 
联 ， 因 为 背 板 没 有 智能 到 判断 连接 的 节点 数量 并 自动 将 电路 开关 切换 
以 便 让 当前 连接 的 节点 尽 可 能 多 地 使 用 后 端的 所 有 总 线 。 


如 图 15-48 所 示 为 单个 节点 内 部 的 架构 。 每 个 节点 使 用 两 个 双核 
Intel 的 CPU ， 并 使 用 4GB 内 存 作为 3PAR 的 ImForm 操 作 系统 的 运行 空 
间 。 另 外 加 一 块 ASIC 心 片 来 负责 数据 在 前 端 和 后 端 之 间 的 传输 、 与 其 
他 节点 的 缓存 镜像 操作 、RAID XOR 运 算 、 节 点 间 相 互通 信 以 及 
ThinProvision 和 LUN Shrink 功 能 。 这 款 ASIC 的 功能 是 非常 多 的 ， 而 且 
最 新 奇 的 是 ，ThinProvision 以 及 LUN Shrink 的 功能 也 被 内 藤 到 了 这 款 
心 片 中 来 执行 ， 这 在 其 他 厂商 是 从 未 见 过 的 ， 也 是 3PAR 的 一 大 亮点 。 


目前 这 款 攻 片 最 新 的 一 代为 第 三 代 。 世 片 内 部 有 3 个 133MHz 64b 的 
PCI-X 总 线 用 于 连接 前 端 和 后 端的 接口 卡 ; 以 及 7 个 100MHz 64b 的 PCI- 
X 总 线 专门 用 于 连接 其 他 节点 。ASIC 芯 片 直接 控制 着 12GB 的 数据 缓 
存 。 


图 15-48 ”控制 器 架构 示意 图 


如 图 15-49 所 示 为 节点 控制 器 的 实物 图 。 可 以 看 到 共有 6 个 PCI-X 扩 
展 卡 插 槽 ， 它 们 共享 3 条 PCI-X 总 线 。 图 15-50 左 侧 所 示 为 系统 的 背 板 ， 
可 以 看 到 其 上 的 8 个 高 密度 针 接口 对 应 着 8 个 节点 。 图 15-50 右 侧 所 示 为 
磁盘 扩展 柜 实物 图 。3PAR 的 扩展 柜 很 有 特色 ， 在 4U 的 空间 内 放置 了 
40 块 3.5 英 寸 硬盘 ， 其 原因 是 由 于 磁盘 竖 置 并 且 紧 密 排列 并 且 解 决 了 散 
热 和 共振 问题 ， 这 在 其 他 厂商 产品 中 也 是 没有 过 的 。 并 且 ， 节 点 后 端 
的 每 个 FC Loop 仅 连接 一 个 扩展 柜 ， 即 40 块 硬盘 。 扩 展柜 同样 也 是 双 
Loop 结 构 ， 一 个 节点 对 中 的 每 个 节点 各 拿 出 一 个 后 端 FC 接口 来 连接 一 
串 (4 个 级 联 ) 扩展 柜 ， 每 个 节点 再 拿 出 另外 一 个 FC 口 连 接 对 方 节点 
的 扩展 柜 。 这 样 ， 每 个 节点 对 最 多 可 以 共同 连接 8 个 扩展 柜 ， 即 320 块 
盘 ，4 个 节点 对 (8 个 节点 ) 共 可 以 连接 的 最 大 磁盘 数 为 1280 块 。 


图 15-49 “控制 器 实物 图 


图 15-50” 背 板 和 扩展 柜 实物 图 


图 15-51 所 示 为 8 个 节点 与 各 自 扩展 柜 的 连接 情况 示意 图 。 每 个 节 
操 对 最 大 可 以 连接 8 个 扩展 柜 ， 图 中 未 标识 出 。 


图 15-51 8 节点 互联 


图 15-52 所 示 为 Inserv-T400 系 统 ， 最 大 4 节点 系统 的 机 柜 ， 机 柜上 
部 为 磁盘 扩展 柜 ， 下 部 可 以 放置 4 个 节点 控制 器 。 左 侧 的 背 板 为 8 接 
口 ， 是 对 应 T800 的 ， 这 里 只 是 示意 图 。T400 使 用 的 是 4 接口 的 背 板 。 


图 15-52 T400 系 统 示意 图 
2 。Inserv 集 群 存储 系统 架构 简 评 


Inserv 集 群 存 储 系统 是 一 款 特点 很 多 的 产品 。 


首先 ， 它 使 用 直 连 的 廉价 PCI-X 总 线 作 为 节点 间 互 连 的 通道 ， 但 
是 由 于 PCI-X 半 双 工 的 限制 ， 使 得 8 节点 间 互 连带 宽 只 有 21.875GB/so 
而 且 由 于 采用 点 对 点 直 连 而 非 交 换 方式 ， 这 就 造成 系统 的 扩展 性 大 受 
限制 ，N 节 点 的 系统 就 要 求 每 个 节点 提供 N 一 1 条 PCI-X 总 线 ， 不 适合 
扩充 到 更 多 的 节点 。 


其 次 ， 节 点 内 部 使 用 专用 ASIC 图 15-53 Thin ASIC 
来 实现 大 部 分 数据 操作 ， 并 还 负责 
执行 ThinProvision 和 LUNShrink 《或 者 叫 LUN Space Reclaiming) 的 功 
能 ， 这 又 会 大 大 降低 系统 主 CPU 的 负担 。 再 次 ， 磁 盘 扩展 柜 的 高 密度 
设计 ， 大 大 减少 了 空间 占用 以 及 连 线 ， 一 定 程度 上 也 降低 了 耗 电 。 如 
图 15-53 所 示 为 这 款 ASIC 心 片 的 实物 图 。 


Inserv 集 群 存储 系统 的 一 个 比较 显著 的 瓶颈 点 在 于 每 个 节点 使 用 3 
条 1GB/s 的 PCI-X 总 线 来 支撑 6 个 扩展 卡 共 24 个 4Gb/s 的 FC 接口 ， 这 实在 
有 点 捉襟见肘 。 这 也 注定 了 这 款 产 品 在 满 配 8 个 节点 ， 前 端 128 个 4Gb/s 


的 FC 接 口 的 情况 下 ， 系 统 整体 带宽 吞吐 量 上 不 去 ， 停 留 在 不 到 6.5GB/As 
的 级 别 上 。 


但 是 系统 整体 的 IOPS 否 吐 量 是 很 不 错 的 ， 如 图 15-54 所 示 ，SPC-1 
测试 取得 了 224990 IOPS 的 成 绩 。 而 且 曲 线 非常 平滑 和 趋 级， 显示 了 系 
统 整体 极 高 的 IO 消化 能 力 。 


图 15-54 IOPS SPC-1 值 
15.6.3 EMC 公司 Symmetrix V-MAX 集 群 存储 系统 
1。Symmetrix VMAX 集 群 存储 系统 硬件 架构 简 述 


Symmetrix V-MAX 是 EMC 在 2009 年 中 旬 推 出 的 一 款 集群 存储 系 
统 。 其 使 用 X86 Server 作 为 节点 ， 每 个 节点 配备 两 颗 四 核 Intel CPU 以 
及 几 十 GB 的 内 存 ， 若 干 扩展 卡 ， 另 外 当然 也 少不了 用 于 节点 互联 的 网 
络 通 道 卡 一 RapidIO 适 配 卡 。V-MAX 集 群 采用 RapidIO 网 络 来 作为 集 
群 内 部 互联 通道 ， 整 体 采用 两 个 外 部 独立 RapidIO 交 换 机 来 提供 交换 介 
质 通 道 。 


如 图 15-55 所 示 为 V-MAX 系 统 满 配 时 的 拓扑 图 ， 共 16 个 Director 
(节点 ) ， 每 两 个 Director 组 成 一 对 共同 挂 起 后 端 一 串 磁 盘 扩展 柜 。 每 
对 Director 被 称 做 一 个 Engine， 满 配 最 大 8 个 Engine。 如 图 15-55 右 侧 所 
示 为 单个 节点 (Director) 内 部 的 带宽 情况 。 节 点 硬件 指标 方面 ， 这 里 
就 不 作 过 多 描述 了 ， 因 为 x86 Server 都 差不多 。 这 里 主要 描述 一 下 
RapidIO 这 个 网 络 。 


图 15-55” 满 配 时 示意 图 


15-56 所 示 为 单个 Engine 的 物理 视图 。 两 个 Director 组 成 一 个 
Engine 并 放置 于 同一 个 机 箱 之 内 。 


图 15-56 ”单个 Engine 物 理 视 图 


RapidIO 是 一 种 高 速 网 络 ， 目 前 被 广泛 用 于 藤 入 式 半 导体 器 件 之 间 
的 互 连 。 像 任何 高 速 传输 网 络 协议 集 一 样 ，RapidIO 也 定义 了 一 套 自己 
的 传输 协议 层次 ， 在 OSI 各 层 都 有 相关 定义 。 物 理 层 可 以 采用 并 行 传 
输 或 者 串 行 传输 ， 但 是 目前 广泛 被 应 用 的 是 串 行 传输 ，8/10b 编 码 机 
制 ， 目 前 单 向 传输 速率 为 3.125GBaud/s， 合 2.5Gb/s 二 312.5MB/s。 同 样 
可 以 4 条 申 行 链 路 捆绑 形成 4x 链 路 ， 加 上 全 双 工 设计 ， 一 条 4X 的 
RapidIO 链 路 可 以 提供 双向 20Gb/s 二 2.5GB/s 的 带宽 。 链 路 层 采 用 成 帧 
传输 ， 具 有 链 路 层 流 控 和 传输 层 流 控 机 制 。 网 络 层 ，RapidIO 定 义 了 8b 
或 者 16b 的 地 址 用 于 路 由 /交换 每 个 Packet。 传 输 层 ，RapidIO 根 据 不 同 
应 用 行为 规定 了 多 种 传输 类 型 。 相 比 Fibre Channel 来 讲 ，RapidIO 协 议 
更 加 高 效 。 目 前 最 多 支持 一 个 交换 域内 16 个 端点 ， 所 以 这 个 限制 也 是 
目前 V-MAX 存 储 系统 的 节点 限制 ， 即 16 个 节点 。 


RapidIO 目 前 已 经 成 为 一 种 标准 开放 的 心 片 通信 网 络 标准 ， 有 多 家 
厂商 参与 了 这 个 标准 的 制定 和 维护 ， 比 如 德州 仪器 、 朗 讯 、EMC 等 。 
RapidIO 下 个 速率 级 别 为 6.25Baud/s， 合 单 向 20Gb/s 的 速率 。 


RapidIO 提 供 对 所 有 节点 共享 内 存 的 支持 ， 即 在 一 个 RapidIO 网 络 
之 内 的 所 有 节点 上 的 内 存 共 同 组 成 一 个 逻辑 的 大 内 存 空间 ， 每 个 节点 
都 可 以 寻 址 这 个 全 局 内 存 。 当 目标 地 址 位 于 本 地 内 存 的 时 候 ， 数 据 请 
求 无 须 经 过 外 部 网 络 ; 当 目 标 地 址 位 于 其 他 节点 的 内 存 的 时 候 ， 那 么 
本 地 节点 的 数据 请 求 会 经 过 外 部 RapidIO 网 络 被 发 送 到 对 应 的 节点 并 将 


对 应 数据 取 回 。 如 果 本 地 寻 址 不 命中 ， 则 由 于 经 过 了 外 部 网 络 ， 所 以 
整体 响应 时 间 就 会 增加 。 


Symmetrix V-MAX 系 统 就 是 一 个 共享 全 局 内 存 的 集群 存储 系统 。 
2. Symmetrix V-MAX 集 群 存储 系统 TIO 处 理 流程 示例 


每 个 Director 的 内 存 被 分 为 三 大 区 域 : CS (Control Store) 、GM 
(Global Memory) 和 S andF (Store and Forward) 。CS 区 域 保存 着 运 
行 在 每 个 Director 上 的 操作 系统 所 必需 的 运行 时 数据 ; GM 区 域 用 于 存 
放 被 缓存 的 写 IO 数 据 或 者 被 Prefetch 的 待 读 IO 数 据 ; S and F 区 域 用 来 存 
放 Director 后 端 之 间 相 互 等 待 交换 的 数据 队列 。 下 面 我 们 通过 几 个 示例 
来 了 解 这 些 逻 辑 区 域 的 角色 。 


1) 1 个 Director 参 与 ， 本 地 Read Hit 


如 图 15-57 所 示 ， 某 Direcor 某 时 刻 接收 到 了 一 个 主机 发 送 的 读 IO 请 
求 ，Director 在 接收 到 这 个 IO 请 求 之 后 ， 查 询 系 统 全 局 内 存 中 是 否 有 针 
对 这 个 IO 地 址 的 缓存 数据 存在 。 本 例 中 ，Director 恰 好 发 现 对 应 的 缓存 
Slot 就 在 本 地 的 GM 中 ， 所 以 Director 在 S and F 区 域 生成 一 条 针对 这 份 
数据 在 GM 区 域 中 的 指针 ， 然 后 追加 到 S and F 区 域 队 列 尾部 等 待 发 
送 。 随 着 $ and F 区 域 队列 不 断 被 执行 ， 这 份 数 据 被 发 送 到 主机 客户 


二 LU 
oO 


上 师 
图 15-57 IO 流程 1 


2) 两 个 Director 参 与 ，Read Hit 于 远程 Director 


如 图 15-58 所 示 ，Director1 接 收 到 主机 的 一 个 读 IO 请 求 ， 首 先 查 询 
系统 全 局 GM 是 否 有 对 应 的 缓存 Slot， 发 现在 远程 Director2 的 GM 中 存 
在 针对 这 个 IO 地 址 的 缓存 数据 Slot，Director1 立 即 通过 后 端 RapidIO 网 
络 向 Director2 发 起 请 求 ， 将 Director2 的 GM 中 对 应 的 数据 通过 RapidIO 
网 络 传送 到 Director1 的 S and F 区 域 队列 中 。 数 据 收 到 后 ， 随 着 
Director1 的 S and F 区 域 队 列 不 断 被 执行 ， 这 份 数据 最 终 被 发 送 到 主机 
客户 端 。 


图 15-58 ”IO 流 程 2 
3) 3 个 Director 参 与 ，Read Miss 


如 图 15-59 所 示 ，Director1 接 收 到 主机 的 一 个 读 IO 请 求 ， 首 先 查 询 
系统 全 局 GM 中 是 否 有 针对 这 个 IO 地 址 的 缓存 Slot， 发 现 系统 全 局 GM 
内 没有 针对 这 个 地 址 的 缓存 Slot， 所 以 Director1 会 为 这 个 IO 对 应 的 地 址 
分 配 一 段 缓存 ， 此 时 Director1 会 根据 某 种 策略 ， 在 集群 内 任何 一 个 节 
点 的 GM 上 都 可 以 进行 分 配 。 本 例 中 假设 Director1 选 择 了 在 Director2 的 
GM 中 为 这 个 IO 对 应 的 地 址 分 配 缓存 ， 则 Director1 会 通过 RapidIO 网 络 
向 Director2 发 起 这 个 命令 请 求 。Director2 收 到 命令 后 ， 在 本 地 GM 为 这 
个 IO 地 址 分 配对 应 的 缓存 ， 并 同时 根据 IO 地 址 来 判断 这 个 IO 所 请 求 的 
数据 存在 于 哪个 节点 的 磁盘 上 。 本 例 中 假设 数据 存在 于 Director3 的 磁 
盘 上 ， 则 Director2 向 Director3 请 求 这 份 数据 ，Director3 收 到 请 求 后 ， 从 
其 后 挂 的 磁盘 中 将 这 份 数 据 读 出 并 存 入 本 地 S and F 区 域 等 待 被 发 送 。 
Director2 收 到 Director3 发 送 的 数据 后 ， 将 其 放 入 已 经 分 配 的 位 于 GM 中 
的 缓存 Slot 中 ， 并 在 本 地 S and F 区 域 队列 尾部 追加 这 份 数 据 在 GM 中 的 
指针 。 最 终 ， 队 列 中 这 份 数据 被 发 送 到 了 Director1， 然 后 被 发 送 到 主 
机 客户 端 。 


图 15-59 IO 流程 3 


上 面 这 个 例子 中 所 述 的 过 程 可 能 有 点 让 人 琢磨 不 透 ， 即 为 何 此 时 
Director2 会 参与 进来 ， 在 发 生 Read Cache Miss 时 ， 系 统 为 何不 直接 根 
据 IO 对 应 的 卷 和 卷 中 的 地 址 来 判断 所 请 求 的 数据 落 在 哪个 节点 管理 的 
后 端 磁盘 中 。 如 果 直 接 在 包含 IO 请 求 数 据 对 应 磁盘 的 那个 节点 来 分 配 
缓存 ， 那 么 就 会 节省 一 次 多 余 的 数据 传送 过 程 ， 节 约 后 端 网 络 带 宽 。 
对 于 这 个 问题 ， 后 文 会 有 前 述 。 


4) 4 个 Director 参 与 ，Write IO 


如 图 15-60 所 示 ，Directorl 接 收 到 主机 的 一 个 写 IO 操作 ，Direcotrl 
根据 这 个 IO 针对 的 卷 和 卷 中 的 地 址 判断 ， 对 应 数据 的 磁盘 不 在 本 地 ， 
所 以 立即 在 系统 全 局 GM 中 分 配 两 份 缓存 以 用 于 保存 这 份 IO 数 据 。 本 
例 中 ，Director1 选 择 了 在 Director2 和 3 的 GM 中 各 分 配 一 块 缓存 用 于 存 
放 这 份 数据 ，Director1 将 数据 指针 追加 至 本 地 S and F 区 域 队列 准备 发 
送 到 Director2 和 3 为 其 分 配 的 缓存 中 。 至 此 ， 这 份 写 IO 数据 成 功 的 在 系 
统 内 部 保留 了 两 份 ， 避 免 了 单 点 故障 ， 可 防止 一 旦 数据 未 写 入 硬盘 之 
前 整个 节点 发 生 故 障 所 造成 的 数据 丢失 。Director 在 完成 缓存 镜像 的 操 
作 之 后 ， 立 即 向 主机 返回 写 入 成 功 的 消息 。 之 后 ，Director2 和 3 中 的 一 
个 (Primary 镜像 ) ， 比 如 Director2 ， 根 据 IO 针 对 的 卷 和 卷 中 的 地 址 判 
断 出 此 IO 的 目标 数据 对 应 的 磁盘 存在 于 Director4 上 ， 所 以 Director2 将 
数据 指针 追加 到 本 地 S and F 中 ， 将 数据 发 送 到 Director4 的 S and F 中 ， 
Director4 收 到 数据 之 后 将 其 写 入 后 端 对 应 的 硬盘 中 。 


图 15-60 IO 流程 4 


对 于 写 IO 的 处 理 ，V-MAX 也 同样 可 能 产生 额外 的 不 必要 操作 。 比 
如 上 个 例子 中 ， 数 据 完全 可 以 只 在 接收 到 IO 的 Director 即 Director1 与 数 
据 所 保存 的 磁盘 所 在 的 Director 即 Director4 的 GM 中 保存 两 份 即 可 ， 当 
数据 写 入 硬盘 之 后 ， 对 应 GM 中 的 缓存 Slot 自然 变 为 Prefetch 类 型 的 缓 
存 。 但 是 上 个 例子 中 ， 数 据 被 多 余 的 传送 了 两 次 。 


当然 上 面 所 有 示例 中 的 情况 都 是 最 极端 的 情况 ， 实 际 中 有 可 能 接 
收 到 IO 的 Director 缓 存 将 被 耗 尽 ， 或 者 处 理 资源 耗 尽 ， 或 者 由 于 其 他 各 
种 原因 ， 导 致 缓存 Slot 必 须 在 其 他 节点 分 配 ， 这 种 情况 是 有 可 能 发 生 
的 ,一 旦 发 生 ， 就 需要 额外 的 操作 来 解决 这 些 问题 ， 同 时 ， 额 外 的 操 
作 使 得 系统 IO 响应 时 间 延 长 ， 相 应 主机 端 IO 的 压力 就 会 随 之 降低 ， 使 
得 系统 资源 状况 得 以 恢复 ， 然 后 再 次 轮回 发 生 ， 这 也 在 一 定 程度 上 做 
到 了 压力 目 缓解 。 


对 于 一 个 集群 存储 系统 ， 主 机 理应 可 以 连接 到 集群 中 任何 一 个 节 
点 来 向 整个 集群 中 存在 的 卷发 起 IO 请 求 而 不 关心 这 个 卷 对 应 的 实际 数 
据 存放 在 哪个 节点 上 或 自己 是 否 就 正在 向 这 个 节点 发 送 IO 请 求 。 当 主 
机 将 IO 发 送 到 一 个 其 所 挂 的 后 端 磁盘 中 并 不 包含 对 应 数据 的 节点 的 时 
候 ， 就 要 求 节 点 通过 后 端 互 连 通道 进行 数据 转发 动作 了 ， 这 一 点 是 无 
论 如 何不 可 避免 的 。 因 为 不 可 能 强制 让 主机 连接 到 磁盘 上 有 对 应 数据 
的 节点 ， 这 样 的 话 就 失去 了 集群 的 意义 。 况 且 ， 有 些 集群 比如 XIV 会 
将 卷 数 据 分 块 存放 于 集群 中 的 每 个 节点 的 磁盘 上 。 虽 然 集 群 内 部 数据 
互 转 在 所 难免 ， 但 是 我 们 依然 需要 考虑 节约 后 端 有 限 的 互联 带宽 。 


V-MAX 的 这 种 设计 使 得 缓存 Slot 可 以 脱离 数据 对 应 的 磁盘 所 依附 
的 节点 而 存在 于 任何 节点 上 ， 游 离 于 各 个 节点 之 间 ， 厅 合 非常 松 ， 有 
很 大 的 灵活 性 和 压力 目 缓解 功能 。 当 系统 资产 压力 不 大 的 时 候 ， 系 统 


应 当选 择 最 优 的 缓存 分 配方 式 以 降低 IO 延 迟 和 节约 后 端 互 连 通 道 带 
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V-MAX 的 这 种 设计 可 以 说 与 操作 系统 内 核 使 用 Page Cache 机 制 
( 见 本 书后 面 章节 ) 是 同 源 的 ， 操 作 系统 可 以 将 各 种 实体 比如 文件 、 
设备 映射 到 内 存 空间 中 ， 访 问 内 存 空间 就 等 于 访问 文件 或 者 设备 对 应 
的 地 址 。 实 际 上 ，V-MAX 采 用 某 种 hash 算 法 (比如 DHT) ， 根 据 IO 的 
发 出 主机 、 目 标 地 址 、 长 度 等 信息 ， 做 一 致 性 hash 计 算 ， 从 而 映射 到 
集群 中 的 某 个 节点 ， 对 应 该 目标 地 址 的 缓存 一 定位 于 某 固定 节点 中 固 
定 的 内 存 区 域 ， 使 用 这 种 算法 可 以 避免 每 次 IO 都 查 表 来 确定 其 缓存 位 
置 ， 能 够 节省 计算 资源 ， 提 升 速度 ， 但 是 却 可 能 由 于 多 次 转发 而 降低 


速度 ， 这 是 个 矛盾 。 其 思想 与 缓存 与 RAM 之 间 的 映射 类 似 ， 都 各 有 收 
蔓 和 牺牲 。 


FC SAN 集 群 存 储 系 统 小 论 : EMC 与 3PAR 之 间 一 直 火 药 味 比 
较 深 ，EMC 长 期 以 来 一 直 诉 病 3PAR 的 PCI-X 总 线 、 不 支持 
8Gb 的 FC 和 10Gb 的 以 太 网 、 不 支持 SSD 和 不 支持 分 级 迁移 
等 。3PAR 也 时 常 调侃 EMC 的 一 些 策略 。HDS 和 EMC 之 间 也 
在 互相 拿 对 方 的 架构 指 指点 点 。 其 实 本 来 就 没什么 可 指点 
的 ， 表 现 上 可 能 不 一 样 ， 但 是 骨子里 却 都 一 个 样 。 

这 次 ，EMC 来 了 个 大 翻转 ， 一 改 DMX 的 直 连 矩阵 架构 ， 全 面 
转向 基于 包 交 换 互联 网 络 的 集群 存储 架构 ， 一 改 PowerPC， 
全 面 转向 开放 的 Intelx86。 仔 细 的 读者 可 能 会 发 现 ，V-MAX 
甚至 与 3PAR 的 Inserv-T 系 列 集群 架构 有 些许 相似 之 处 ， 即 节 
点 都 是 成 对 出 现 。3PAR 和 V-MAX 之 所 以 必须 以 节点 对 的 形 
式 出 现 ， 是 为 了 使 用 这 一 对 节点 共同 连接 一 串 磁 盘 扩展 柜 ， 
以 避免 单 点 故障 。 比 如 ， 一 旦 某 个 节点 Down 机 故障 ， 如 果 其 


后 挂 的 扩展 柜 没 有 另外 节点 来 接管 的 话 ， 那 么 所 有 存储 于 这 
串 扩展 柜上 的 数据 将 无 法 再 被 访问 到 。 这 里 不 得 不 提 一 下 
XIV，XIV 的 镜像 保护 方式 和 动态 随时 迁移 数据 的 设计 ， 让 
其 可 以 只 用 一 个 节点 连接 后 端的 磁盘 ， 虽 然 它 目前 还 没有 扩 
展柜 ， 但 是 不 见得 未 来 不 支持 扩展 ， 毕 竟 X86 Server 是 个 很 
开放 的 架构 ， 只 要 插 上 一 堆 扩 展 卡 ， 没 有 做 不 到 的 事情 。 
V-MAX 在 节点 内 部 使 用 了 PCI-E，8Gb 的 FC 和 10Gb 的 以 太 
网 ， 节 点 互 连 通道 使 用 了 基于 包 交 换 的 RapidIO 网 络 ， 这 些 用 
料 比 起 3PAR 来 可 是 足 足 高 了 不 少 。 

目前 HDS 公 司 尚未 发 布 集群 存储 系统 ， 并 一 贯 坚 持 着 其 基于 
Crossbar 的 大 型 主机 架构 控制 器 。 随 着 IBM、EMC 这 两 家 巨 
头 相 继 发 布 了 纯 集群 存储 系统 ， 不 知道 这 三 家 巨头 中 的 最 后 
一 家 HDS 还 能 坚持 多 久 。 

目前 X86 系统 越 来 越 普及 ， 性 价 比 越 来 越 高 ， 作 为 开放 系 
统 ， 逐 渐 地 被 存储 厂商 用 于 新 的 集群 存储 系统 上 来 。 而 存储 
厂商 可 以 基于 这 些 开放 系统 ， 研 发 更 加 高 级 、 更 加 智能 化 和 
移植 性 良好 的 存储 软件 模块 ， 可 能 这 就 是 激发 X86 集群 普遍 
被 应 用 的 原因 之 一 。 

存储 系统 中 ， 硬 件 的 发 展 前 景 已 经 变 得 缓慢 ， 而 真正 更 加 需 
要 的 ， 不 是 数据 存储 方面 ， 而 是 数据 管理 方面 。 

集群 NAS 系 统 和 集群 文件 系统 : 前 面 介绍 并 分 析 了 几 个 基于 
Block SAN 方 式 访问 的 集群 存储 系统 。 另 一 大 阵营 ， 即 NAS 
存储 系统 ， 一 样 可 以 集群 化 ， 而 且 已 经 变 成 了 一 种 趋势 。 促 
成 集群 NAS 发 展 的 一 个 最 大 原因 就 是 因为 NAS 系 统 前 端 以 太 
网 速率 较 低 ， 传 统 NAS 设 备 单个 控制 器 性 能 不 高 ， 能 够 满足 
的 吞吐 量 也 很 低 ， 导 致 传统 NAS 存 储 系统 常用 于 二 线 应 用 ， 
比如 文件 共享 或 者 一 些 非 关键 而 且 对 性 能 要 求 不 高 的 应 用 。 


然而 ， 一 些 特殊 的 应 用 ， 需 要 多 点 共同 读 写 某 个 文件 的 应 用 
系统 ， 比 如 3D 泻 染 集 群 、 电 影 泻 染 集群 等 ， 这 些 集群 中 包含 
几 百 甚至 上 千 台 服务 器 节点 ， 它 们 可 能 需要 同时 读 或 者 写 某 
个 大 文件 ， 这 种 需求 如 果 使 用 Block 级 别 的 存储 系统 的 话 ， 那 
么 务必 需要 在 应 用 程序 中 引入 文件 锁 机 制 ， 就 会 大 大 造成 应 
用 程序 设计 的 负担 并 且 不 具有 通用 性 ， 每 种 应 用 都 自行 设计 
集群 模块 ， 是 没有 必要 的 。 此 时 ， 需 要 一 个 公共 的 集群 层 ， 
而 NAS (NFS、CIFS) 自身 就 已 经 有 文件 锁 机 制 ， 所 以 只 
应 用 程序 在 设计 的 时 候 调 用 对 应 NAS 协 议 提 供 的 锁 API 即 
吕 。 

苦于 NAS 系 统 的 性 能 问题 ， 在 客户 端 节点 过 多 而 NAS 服 务 端 
性 能 又 太 低 时 ， 系 统 整体 的 性 能 将 会 很 差 。 这 就 迫切 需要 
NAS 存 储 系统 进行 集群 化 扩展 ， 将 客户 端的 IO 压力 分 摊 到 集 
群 中 的 每 个 节点 上 。 除 了 将 NAS 系 统 集 群 化 之 外 ， 还 有 另 一 
种 选择 ， 即 集群 文件 系统 。 

下 面 介绍 几 种 集群 NAS 系 统 或 者 称 集群 文件 系统 的 设计 架 
构 。 

所 谓 “ 谁 才 是 真正 的 Scale-Out? ”: IBM 自 从 亮相 了 XIV 之 
后 ，EMC 接 着 出 了 V-Max， 接 着 HDS 也 推出 了 VSP。 这 三 者 
都 宣称 自己 是 Scale-Out 架 构 ， 在 业界 也 引发 了 一 些 讨论 ， 有 
人 认为 只 有 XIV 才 是 真正 的 Scale-Out， 而 V-Max 与 VSP 则 不 算 
Scale-Out。 对 于 这 个 问题 ， 我 是 这 么 看 的 。 

大 家 知道 服务 器 多 CPU 架构 变迁 过 程 ， 一 开始 是 单 CPU， 后 
来 发 展 到 双 CPU 或 者 多 CPU 的 SMP 架 构 ， 也 就 是 多 CPU 共享 
相同 的 内 存 、 总 线 、 操 作 系 统 等 资源 ， 每 个 CPU 访问 全 局 内 
存 任何 地 址 耗费 的 时 间 都 是 相等 的 。 还 有 一 类 AMP 架 构 ， 即 
不 同 CPU 做 的 事情 是 不 同 的 。 但 是 由 于 共享 访问 冲突 ，SMP 


架构 扩展 性 -效率 曲线 已 经 达到 瓶颈 。 为 了 进一步 提高 CPU 数 
量 的 同时 保证 效率 ，NUMA 架 构 出 现 了 ， 也 就 是 将 多 个 SMP 
进行 松 一 点 的 耦合 ， 多 个 SMP 之 间 通 过 CrossBar Switch 高 速 
交换 矩阵 互联 ， 每 个 SMP 都 有 各 自 自 己 的 内 存 ， 一 个 SMP 内 
部 的 CPU 访问 自己 的 内 存 时 与 之 前 没什么 两 样 ， 但 是 要 访问 
其 他 SMP 处 的 内 存 ， 就 需要 走 交 换 矩 阵 ， 导 致 延迟 增加 ， 所 
以 ，NUMA 通 过 牺牲 了 内 和 存 访问 的 时 延 来 达到 更 高 的 扩展 
性 ， 比 如 可 以 将 数 百 个 CPU 组 成 NUMA 架 构 。SMP 和 NUMA 
架构 对 于 软件 程序 方面 的 影响 不 大 ， 同 一 台 主 机 内 都 使 用 单 
一 操作 系统 。 但 是 由 于 NUMA 访 问 远 端 内存 时 的 时 延 问题 ， 
导致 NUMA 架 构 下 的 效率 也 不 能 随 着 CPU 数量 的 增加 而 线性 
增长 ， 只 是 比 SMP 要 好 罢了 。 此 时 ，MPP 架 构 就 出 现 了 。 
MPP 可 以 说 已 经 与 CPU 已 经 关系 不 大 了 ，MPP 说 白 了 就 是 将 
多 台独 立 的 主机 使 用 外 部 网 络 来 组 成 一 个 集群 ， 显 然 MPP 架 
构 下 ， 每 个 节点 都 有 各 自 的 CPU、 内 存 、IO 总 线 和 操作 系 
统 ， 属 于 最 松 的 耦合 ， 而 且 运 行 在 MPP 集 群 中 的 软件 程序 的 
架构 也 需要 相应 改变 ， 变 为 大 范围 并 行 化 ， 并 尽量 避免 节点 
之 间 的 消息 传递 。 由 于 软件 程序 发 生 了 变化 ， 那 么 MPP 的 效 
率 随 节点 数量 的 增长 就 可 以 呈 线 性 关系 了 了。 其实， 如 果 在 
NUMA 架 构 下 ， 软 件 也 可 以 避免 尽量 少 读 取 远 端 内 存 的 话 ， 
那么 NUMA 效 率 也 会 线性 增长 ， 但 是 NUMA 架 构 下 的 操作 系 
统 仍然 是 同一 个 ， 内 存 仍然 是 全 局 均匀 的 ， 而 程序 架构 又 尽 
量 保持 不 变 ， 那 么 就 不 可 避免 的 时 不 时 访问 远 端 内 存 了 。 
MPP 相 当 于 把 内 存 强 制 分 开 ， 把 操作 系统 强制 分 开 ， 把 程序 
架构 也 强制 改变 从 而 保持 海量 计算 下 的 效率 线性 增长 。 

那么 再 说 回 到 存储 系统 。 与 服务 器 CPU 架构 演进 相同 ， 可 以 
把 存储 系统 的 控制 器 类 比 为 CPU， 而 后 端 磁盘 柜 类 比 为 一 条 


条 的 内 存 。 一 开始 的 单 控 ， 后 来 的 双 控 互 备份 (传统 双 控 存 
储 ) ， 一 直到 双 控 并 行 处 理 (目前 只 有 HDS 的 AMS2000 存 储 
系统 为 双 控 并 行 架构 ) ， 到 这 个 阶段 就 类 似 于 AMP ( 双 控 互 
备 ) 和 SMP ( 双 控 并 行 ) 架构 ， 后 来 则 有 多 控 并 行 对 称 处 理 
架构 ，Oracle 的 RAC 集 群 也 可 以 视 作 一 种 多 点 SMP， 各 种 共 
享 底层 存储 的 集群 文件 系统 及 基于 这 种 文件 系统 所 构建 的 存 
储 系统 也 属于 多 点 对 称 SMP。 

同样 ， 由 SMP 到 NUMA 的 过 度 也 出 现在 了 存储 系统 中 ， 比 如 
EMC 的 V-Max， 相 当 于 多 个 SMP (一 对 控制 器 组 成 一 个 
Director 等 价 于 一 个 SMP 和 矩阵 ) 利用 高 速 交 换 和 矩阵 
(RapidIO) 来 共享 访问 每 个 SMP 上 掌管 的 内 存 。 

由 NUMA 到 MPP 的 过 度 一 样 也 出 现在 存储 系统 中 ，IBM 的 
XIV 就 属于 松 耦 合 MPP 架 构 ， 多 个 节点 之 间 彻 底 松 耦合 ， 各 
自 都 有 各 自 的 CPU/ 内 存 /总 线 /磁盘 /IO 接口 ， 使 用 外 部 以 太 网 
交换 机 ， 使 用 TCPIP 协 议 互相 通信 。 而 HDS 的 VSP 则 更 像 是 
一 个 紧 耦 合 的 MPP，MPP 对 软件 架构 变化 很 大 ， 所 以 传统 存 
储 厂商 很 难 将 之 前 的 架构 演变 到 MPP 上 来 。 另 外 一 种 属于 
MPP 架 构 的 存储 系统 就 是 各 种 分 布 式 文件 系统 (注意 ， 并 非 
共享 存储 的 集群 文件 系统 ) 。 

至 于 谁 才 是 真正 的 Scale-Out， 这 个 是 个 无 定论 的 问题 了 。 
SMP/NUMA/MPP 其 实 都 算 Scale-Out， 只 不 过 程度 和 形态 都 
不 同 罢 了 。 有 人 说 MPP 才 是 真正 的 Scale-Out， 可 能 是 基于 
MPP 流 行 的 原因 。 但 是 不 能 一 概 而 论 。MPP 架 构 的 存储 ， 例 
如 XIV， 由 于 特定 场景 下 ， 由 于 单 路 IO 就 可 能 导致 整个 MPP 
集群 中 的 磁盘 资源 全 部 牵动 (每 磁盘 同一 时 刻 只 能 执行 一 个 
IO) ， 在 多 路 大 块 连续 IO 并 发 的 情况 下 ， 反 而 效率 很 差 ( 比 
如 多 流 大 块 连续 地 址 IO) ; 而 某 些 特定 场景 下 ， 多 路 IO 之 间 


牵制 很 少 ， 则 表现 出 线性 增长 的 性 能 (比如 小 块 高 随机 
IO) 。 这 也 可 以 类 比 为 将 一 个 程序 并 行 分 解 成 多 个 执行 颗粒 
(类 比 为 高 随机 IO) ， 颗 粒 间 的 关联 性 越 少 ， 则 节点 间 通 信 
量 就 越 少 ， 则 并 行 执行 的 效率 越 高 ， 一 个 道理 ， 所 以 MPP 自 
身 为 Share-Nothing 架 构 ， 那 么 运行 在 它 上 面 的 程序 颗粒 之 间 
最 好 也 Share-Nothing。 对 XIV 的 具体 分 析 可 以 参见 后 面 的 一 
To 

SMP、NUMA 和 MPP 各 有 各 的 好 处 ， 也 各 有 各 的 应 用 场景 。 
比如 SMP 适 用 于 扩展 性 要 求 不 太 高 而 又 不 想 对 程序 改变 太 大 
的 场景 ， 而 MPP 则 使 用 海量 数据 下 的 高 扩展 性 需求 场景 ， 需 
要 对 程序 有 较 大 改变 才能 获得 良好 性 能 。 同 样 对 于 存储 也 是 
这 样 ， 比 如 一 旦 决定 用 MPP 架 构 的 存储 ， 那 么 就 需要 面 对 多 
流 大 块 连续 IO 场景 下 性 能 不 佳 以 及 效率 -扩展 曲线 的 线性 不 佳 
这 两 个 事实 。 或 者 你 去 修改 上 层 应 用 ， 将 大 块 连续 IO 改 为 高 
随机 IO ， 而 这 显然 荒唐 。 并 且 为 了 适应 存储 去 修改 应 用 ， 这 
一 般 是 不 可 能 被 接受 的 。 而 MPP 架 构 却 被 广泛 用 于 互联 网 运 
营 商 的 底层 Key-Value 分 布 式 数据 库 ， 其 高 随机 小 块 读 访 问 场 
景 下 能 获得 巨 量 的 性 能 以 及 线性 的 效率 -扩展 曲线 。 


15.7 ”集群 NAS 系 统 和 集群 文件 系统 
15.7.1 HP 公司 的 Ibrix 集 群 NAS 系 统 


IBRIX 是 一 家 专 做 集群 文件 系统 的 公司 ， 近 年 来 被 HP 收购 。 
IBRIX 的 集群 文件 系统 称 为 “Fusion”， 其 架构 中 包含 Fusion Segment 
Server/Client 和 和 Fusion Manager。 下面 了 解 一 下 IBRIX 的 架构 。 


如 图 15-61 所 示 为 IBRIX Fusion 集群 文件 系统 部 署 之 后 的 整体 系统 
架构 示意 图 。Fusion Segment Server 是 IBRIX 集 群 的 主体 软件 包 ， 需 要 
将 其 安装 到 集群 中 的 每 一 台 PC Server 中 。 集 群 中 的 所 有 节点 从 后 端的 
磁盘 阵列 中 获取 存储 空间 以 便 存放 文件 ， 这 些 存储 空间 可 以 被 所 有 节 
点 共享 ， 也 可 以 单个 节点 独 享 。 集 群 中 的 节点 也 可 以 使 用 本 地 存储 空 
间或 者 DAS 直 连 存 储 的 存储 空间 来 存放 文件 。 推 荐 使 用 共享 存储 空 
间 ， 因 为 一 旦 某 个 节点 发 生 故障 ， 那 么 系统 会 自动 将 共享 的 存储 空间 
挂 载 到 正常 节点 之 上 继续 提供 服务 。 客 户 端 主机 可 以 使 用 三 种 方式 来 
访问 Fusion 集 群 : NFS、CIFS、Fusion Client。 集群 中 的 每 个 节点 都 有 
各 自 的 不 同 的 IP 地 址 ， 客 户 端 只 要 访问 任何 一 个 节点 即 可 访问 到 集群 
内 所 有 的 数据 资源 。 集 群 内 的 节点 各 自 有 各 自 所 管理 的 文件 系统 和 
Mount Point， 但 是 每 个 节点 都 可 以 向 外 部 Export 所 有 节点 上 的 Mount 
Point (Export 其 他 节点 的 Mount Point 之 前 ， 本 地 节点 中 必须 提前 也 创 
建 这 个 Mount Point。 当 然 也 可 以 手动 控制 那些 只 有 Export 自 己 管理 的 
Mount Point) ， 客 户 端 如 果 一 旦 试图 访问 不 受 本 地 管理 的 数据 ， 那 么 
这 个 节点 就 会 从 管理 这 份 数 据 的 那个 节点 将 这 份 数据 对 应 的 Metadata 
拿 过 来 ， 然 后 通过 Metadata 来 获取 这 份 数 据 在 后 端 存 储 空间 内 的 位 
置 ， 比 如 哪个 volume， 哪 个 磁盘 ， 然 后 通过 后 端 存储 网 络 将 数据 读 出 
来 再 返回 给 客户 端 。 如 果 使 用 非 共享 存储 ， 则 收 到 IO 请 求 的 节点 会 通 
过 前 端 以 太 网 从 保存 对 应 数据 的 节点 把 数据 拿 到 本 地 然后 返回 给 客户 


O 


学 


一 上 
E 


图 15-61 IBRIX 整 体 拓扑 图 


客户 端 可 以 采用 NFS 或 者 CIFS 方 式 访问 集群 节点 ， 也 可 以 安装 一 
个 Fusion Client 代 理 程 序 从 而 通过 这 个 代理 来 访问 集群 节点 。NFS 和 
CIFS 方 式 下 ， 如 果 某 节点 所 连接 的 客户 端 试 图 访问 一 个 不 受 本 地 管理 


的 目录 或 者 文件 的 话 ， 就 会 发 生 上 文 所 述 的 过 程 ， 需 要 耗费 一 定 的 开 
销 。 但 是 如 果 使 用 Fusion Client 代 理 来 访问 集群 的 话 ，Fusion Client 会 
预先 从 集群 中 将 Metadata 拿 到 客户 端 缓存 ， 这 个 Metadata 描 述 了 哪些 
Mount Point 受 哪些 节点 管理 ， 所 以 ，Fusion Client 会 将 客户 端 发 出 的 访 
问 请 求 转发 到 集群 中 实际 管理 被 请 求 数 据 的 那个 节点 。 这 样 ， 虽 然 客 
户 端 只 显 式 挂 载 了 集群 中 一 个 节点 上 的 Mount Point， 但 是 Fusion Client 
却 会 在 底层 隐 了 式 地 将 所 有 请 求 对 号 入 座 转发 到 对 应 的 节点 ， 这 样 就 避 
免 了 节点 之 间 互 相 要 求 Metadata 的 开销 ， 系 统 性 能 有 所 提升 。 


如 图 15-62 所 示 为 上 图 中 所 示 的 一 个 Fusion Segment Server 内 部 的 
软件 层次 架构 图 。Segment Server 首 先 包 含 了 一 个 Cluster Aware Logical 
Volume Manager， 即 CLYM。 由 于 集群 中 多 个 节点 可 以 共享 后 端 存 
储 ， 所 以 这 里 的 卷 管理 软件 也 要 支持 多 节点 共享 卷 。 其 他 功能 与 普通 
LVM 无 异 ，LVM 先 将 物理 LUN 组 成 YG， 然后 在 VG 中 最 终 做 成 的 
Logical Volume 即 LV， 被 Segment Server 称 为 一 个 “Segment”， 即 分 段 的 
意思 。 每 个 Segment 必 须 只 隶属 于 一 个 Segment Server 管 理 ， 但 是 一 个 
Segment Server 可 以 管理 多 个 LV， 即 Segment。 当 某 个 节点 故障 之 后 ， 
正常 的 节点 可 以 直接 接管 故障 节点 原先 所 管理 的 Segment， 并 且 接 管 故 
障 节点 原本 承担 的 所 有 前 端 数 据 访 问 (如 果 某 个 Segment 存 储 空间 为 非 
共享 的 ， 那 么 管理 这 个 Segment 的 节点 故障 后 ， 正 常 节点 无 法 接管 ) 。 
Segment 之 上 便 是 IBRIX Fusion 文 件 系统 ，Fusion FS 对 Segment 进 行 格 
式 化 ， 并 且 将 Segment 挂 载 到 一 个 Single Name Space 路 径 之 下 ， 每 个 节 
点 的 挂 载 动作 都 会 通知 到 集群 中 所 有 节点 以 避免 冲突 和 统一 口径 。 集 
群 内 的 通信 和 是 通过 以 太 网 进行 的 ， 后 端 数据 路 径 则 通过 后 端 SAN 交 换 
机 或 者 本 地 存储 和 DAS 直 连 存储 ， 后 端的 SAN 可 以 是 FC 方 式 也 可 以 是 
iSCSI 方式 ， 本 地 存储 或 者 DAS 的 话 可 以 是 通过 RAID 卡 挂 JBOD 或 者 本 
地 磁盘 等 。 


图 15-62 Segment Server 内 部 架构 图 


在 Segment 上 创建 文件 系统 的 时 候 ， 可 以 只 使 用 一 个 Segment 作 为 
这 个 文件 系统 对 应 的 存储 空间 。 然 而 ， 也 可 以 使 用 多 个 Segment 作 为 这 
个 文件 系统 的 存储 空间 ， 每 个 Segment 又 可 以 隶属 于 单一 或 不 同 的 
Segment Server 来 管理 ， 文 件 和 目录 在 多 个 Segment 之 间 的 存放 策略 由 
Allocation Policy 模 块 管理 ， 其 提供 了 多 种 Polic， 比 如 ROUNDROBIN 
(新 文件 或 者 目录 轮流 地 在 各 个 Segment 之 间 存 放 ) 、STICKY (新 文 
件 或 者 目录 都 存放 到 某 个 固定 Segment 中 直到 这 个 Segment 的 剩余 容量 
达到 一 定 阅 值 ) 、DIRECTORY (新 文件 或 者 目录 将 被 存放 在 与 其 父 
目录 所 在 Segment 相 同 的 Segment 上 ) 、LOCAL (将 新 文件 或 目录 存放 
到 接受 客户 端 请 求 的 节点 所 管理 的 Segment 中 ) 、RANDOM (新 文件 
或 者 目录 随机 选择 一 个 Segment 进 行 存放 ) 等 。 


这 些 策略 可 以 让 管理 员 充 分 调节 以 平衡 系统 的 负载 。 如 果 客 户 端 
使 用 Fusion Client 来 访问 集群 ， 由 于 其 可 以 直接 与 所 有 Segment Server 
通信 ， 所 以 这 些 策 略 必 须 放 到 Client 端 执行 ; 如 果 客 户 端 使 用 
NFS/CIFS 协 议 来 访问 集群 ， 则 由 于 客户 端 只 能 直接 访问 它 所 Mount 的 
那个 Segment Server， 所 以 Policy 必 须 在 所 有 Segment Server 上 执行 。 
Segment 有 三 种 类 型 ， 第 一 种 是 只 可 以 存放 目录 的 ， 第 二 种 是 文件 目录 
都 可 以 存放 的 (Mixed) ， 第 三 种 是 只 可 以 存放 文件 的 ， 除 非 有 特殊 
用 途 ， 默 认 情 况 下 皆 使 用 Mixed 模 式 。 


Segment 的 Owner 可 以 动态 地 从 一 个 Segment Server 迁 移 到 另 一 
个 ， 迁 移 过 程 对 前 端 访问 没有 影响 。 由 于 集群 底层 使 用 了 CLVM,， 在 
一 个 节点 上 创建 的 Segment， 在 其 他 节点 上 都 会 同步 显示 。 人 在 选择 一 个 
或 者 几 个 Segment 建 立 文件 系统 的 时 候 ， 可 以 指定 用 何 种 Policy 以 及 将 
哪个 Segment 分 配给 哪个 节点 。Segment 的 大 小 可 以 不 同 。 如 果 使 用 多 


个 Segment 来 作为 某 文件 系统 的 存储 空间 ， 那 么 在 创建 文件 系统 的 时 候 
可 以 指定 其 中 哪个 为 Root Segment， 谁 管理 Root Segment， 谁 就 是 掌控 
这 个 文件 系统 MounVUnmount 的 首席 执行 者 。 


文件 系统 被 创建 之 后 ， 需 要 在 图 15-63 ” 挂 载 点 之 下 的 Segment 

Segment Server 上 创建 Mount Point。 

可 以 只 在 一 个 或 多 个 或 者 全 部 节点 上 创建 某 Mount Point。 创 建 Mount 
Point 其 实 就 是 在 系统 虚拟 目录 下 创建 一 个 新 路 径 ， 创 建 命令 只 需要 在 
一 个 节点 上 执行 ， 指 定 所 有 需要 创建 Mount Point 的 节点 ， 即 可 将 同时 
在 对 应 节点 上 创建 。Mount Point 被 创建 之 后 ， 就 需要 将 先前 创建 好 的 
文件 系统 挂 载 到 Mount Point 中 ， 可 以 选择 只 在 一 个 或 者 多 个 或 者 全 部 
节点 上 挂 载 某 个 文件 系统 到 某 个 Mount Point; 同样 ， 命 令 也 只 需要 在 
一 个 节点 上 执行 ， 但 是 这 个 节点 必须 是 管理 Root Segment 的 节点 。 文 
件 系 统 可 以 通过 向 其 中 加 入 新 Segment 的 方式 进行 空间 扩展 。 如 图 15- 
63 所 示 为 一 个 名 为 TESTEFS 的 文件 系统 的 底层 存储 空间 由 4 个 Segment 
组 成 ， 第 一 个 Segment 为 Root Segment， 这 个 文件 系统 被 挂 载 到 了 路 
径 /cluster/datal 之 下 。 


挂 载 了 文件 系统 之 后 ， 如 果 需 要 访问 对 应 数据 的 应 用 程序 与 
Segment Server 处 于 同一 操作 系统 内 ， 那 么 就 可 以 直接 读 写 了 。 然而， 
Fusion 集 群 还 可 以 将 这 个 Mount Point 以 NFS 或 者 CIFS 的 方式 Export 出 
去 ， 可 以 选择 在 一 台 、 多 人 台 或 者 全 部 节点 上 Export， 当 然 ， 这 些 节点 
必须 已 经 Mount 了 对 应 的 文件 系统 。 


Export 之 后 ， 客 户 端 就 可 以 通过 NFS 或 者 CIFS 协 议 来 访问 对 应 的 
目录 了 。 也 可 以 使 用 Fusion Client 来 访问 。Fusion Client 并 不 直接 访问 
集群 ， 而 也 是 通过 下 层 的 NFS _ Client 或 者 CIFS _ Client 来 访问 集群 。 


Fusion Client 只 不 过 在 NFS Client 和 CIFS Client 之 上 再 增加 一 层 控制 逻 
辑 以 便 执行 更 多 功能 比如 File Allocation 等 。 


Fusion Manager 是 运行 在 一 个 单独 PC 上 的 组 件 ， 通 过 前 端 以 太 网 
来 与 集群 所 有 万 点 通信 ， 可 以 用 来 管理 和 监控 整个 集群 ， 但 是 集群 数 
据 IO 的 过 程 并 不 经 过 Fusion Manager。 创 建 VG、LV、FS、Mount Point 
等 任务 可 以 在 Fusion Manager 中 进行 。Fusion Client 的 Mount Point 信 
息 、Mounted Filesystem 信 息 都 需要 从 Fusion Manager 中 获取 ， 所 以 对 
于 Fusion Clietn 来 讲 ，Fusion Manger 是 必需 的 。 


IBRIX 已 经 与 Mellanox 公司 进 行 了 合作 ， 推 出 了 可 以 使 用 
Infiniband 网 络 来 传输 NFS 协 议 的 集群 系统 ， 其 后 端 使 用 Fusion FS， 前 
端 使 用 NFS Gateway，Gateway 使 用 Mellanox 公 司 提供 的 NFS/RDMA 
SDK 以 实现 NFS over Infiniband。 实 测 结 果 令 人 兴奋 ， 单 个 Gateway 的 
否 吐 量 就 可 以 达到 读 1400MB/s 和 写 400MB/s。 通 过 增加 更 多 的 
Gateway， 整 体系 统 性 能 会 线性 增长 。 


说 明 : 至 此 ， 第 10 章 的 最 终 幻想 也 被 实现 ， 只 有 想不到 ， 没 
有 做 不 到 ， 这 就 是 科技 。 


15.7.2 ”Panasas 和 pNEFS 


Panasas 公 司 是 一 家 生产 高 性 能 集群 NAS 存 储 系统 的 厂商 。 其 生产 
的 ActiveStor 集 群 存储 系统 由 于 使 用 了 刀片 设计 ， 密 度 非常 高 ， 在 一 个 
机 箱 中 可 以 插 满 11 个 刀片 ， 其 中 每 个 刀片 包含 一 块 1TB 的 SATA 硬 盘 和 
一 块 32GB 的 SSD 硬 盘 以 存放 Metadata ， 加 速 Metadata 的 存 取 。 每 个 刀 
片 最 大 4GB 的 内 存 ， 这 样 每 个 机 箱 就 可 以 包含 10TB 的 数据 存储 空间 、 


320GB 的 Metadata 存 储 空 间 以 及 40GB 的 内 存 空间 。 最 大 10 个 机 箱 可 以 
共同 加 入 集群 。 如 图 15-64 所 示 为 ActiveStor 存 储 系 统 示意 图 。 


图 15-64 ”ActiveStor 示 意图 


Panasas 将 上 自己 的 集群 文件 系统 称 为 PanFS。 与 IBRIX 所 不 同 的 是 ， 
PanFS 集 群 中 不 是 每 个 节点 都 可 以 提供 NFS 或 者 CIFS 服 务 端 功能 的 ， 
每 个 机 箱 中 只 有 几 个 特殊 的 刀片 (节点 ) 可 以 提供 Mount Point 和 Share 
Directory， 客 户 端 只 能 与 这 些 节点 通信 才能 够 挂 载 相关 目录 。 只 有 这 
些 节点 上 维护 着 整个 集群 的 文件 目录 映射 信息 ， 所 以 这 些 节点 又 被 称 
为 Metadata Server， 即 MDS。 整 个 集群 内 的 所 有 MDS 形 成 一 个 小 集 
群 ， 专 门 负责 提供 客户 端 访问 入 口 和 维护 集群 内 所 有 Metadata， 以 及 


锁 管理 。 


与 IBRIX 相 同 ，PanFS 也 向 外 提供 了 三 种 访问 方式 : NFS、CIFS、 
DirectFlow。 像 IBRIX 一 样 ， 前 两 种 访问 方式 下 ， 客 户 端 并 不 能 并 行 的 
直接 访问 集群 内 其 他 节点 ， 数 据 只 能 够 从 MDS 获 得 ， 对 于 不 在 MDS 上 
存储 的 数据 ，MDS 会 先 向 数据 所 被 存储 的 节点 请 求 这 份 数 据 然后 再 将 
其 发 送 给 客户 端 。 而 DirectFlow 方 式 就 类 似 于 IBRIX 中 的 Fusion 
Client。 其 实 ，DirectFlow 其 本 质 是 基于 Object Storage 的 pNFS (Parallel 
NFS， 即 NFS 4.1) ，pNFS 是 一 个 IETF 的 标准 协议 。pNFS 的 架构 其 本 
质 与 Fusion Client 的 实现 方式 相同 ， 即 客户 端 首先 从 MDS 上 获取 需要 
访问 的 目标 文件 分 块 所 被 存储 的 所 有 节点 的 信息 ， 包 括 地 址 、 分 块 信 
息 等 ， 然 后 客户 端 根 据 得 到 的 映射 信息 ， 并 行 的 向 分 块 所 被 存储 的 所 
有 节点 发 起 数据 请 求 将 数据 取 回 。 


提示 : PanFS 另 一 个 最 大 的 特点 是 使 用 对 象 存储 方式 。 关 于 
对 象 存储 我 们 在 下 面 章节 会 有 介绍 。 另 一 个 集群 文件 系统 


Lustre 的 架构 与 PanFS 基 本 上 类 似 ， 这 里 就 不 做 过 多 介绍 了 。 
15.7.3 ”此 “文件 系统 ” 非 彼 “ 文 件 系统 ” 


传统 意义 上 的 文件 系统 ， 比 如 FAT16/32、NTFS、EXT2/3、JFS1/2 
等 ， 都 是 实 实在 在 的 文件 系统 ， 也 就 是 说 ， 它 们 是 真正 管理 着 某 个 文 
件 和 底层 存储 卷 上 某 个 Sector 或 者 Block 的 对 应 关系 的 。 而 所 谓 “ 网 络 文 
件 系 统 ”"， 它 们 根本 不 管理 文件 与 扁 区 的 对 应 ， 所 以 称 NFS/CIFS 等 为 
一 个 文件 系统 ， 从 某 种 角度 来 讲 有 一 点 歧义 ， 更 准确 地 可 以 称 
NFS/CIFS 等 为 “网 络 文件 访问 系统 ”， 而 NTFS 等 传统 文件 系统 可 以 更 
准确 地 称 为 “文件 管理 系统 ”。 


同样 ， 对 于 集群 并 行 分 布 式 文件 系统 或 者 San 文 件 系 统 来 讲 ， 在 
Unix 平 台 下 它们 底层 有 些 则 直接 使 用 Ext3 文 件 管理 系统 来 管理 文件 ， 
而 Windows 平 台 则 使 用 NTFS。 有 些 厂 商 则 对 EXT3 进 行 了 些许 修改 之 
后 来 使 用 ， 比 如 Lustre; 有 些 则 选择 全 部 重 写 一 套 自己 的 FS， 比 如 


Sotrnexto 


在 底层 文件 管理 系统 之 上 ， 增 加 一 层 集 群 分 布 式 文件 映射 管理 系 
统 ， 外 围 再 包 应 上 一 层 NFS/CIFS 网 络 文件 访问 系统 ， 便 成 了 一 个 分 布 
式 集 群 并 行文 件 系统 了 。 


如 图 15-65 所 示 为 集群 文件 系统 与 操作 系统 文件 系统 生态 图 。 
图 15-65 ”底层 文件 系统 与 上 层 集群 文件 系统 的 关系 


15.7.4 ”什么 是 Single Name Space 


Single Name Space 被 翻译 为 “统一 命名 空间 ”。 在 理解 这 个 名 词 之 
前 ， 首 先 要 理解 文件 系统 对 外 提供 的 访问 方式 。 我 们 都 知道 文件 系统 
在 底层 管理 着 上 层 文 件 对 应 底层 存储 卷 或 者 磁盘 上 的 启 区 的 情况 。 在 
上 层 ， 文 件 系统 将 文件 放 到 某 个 目录 中 ， 然 后 目录 还 可 以 在 目录 中 。 
当 我 们 需要 访问 某 个 文件 的 时 候 ， 必 须 首 先知 道 这 个 文件 在 哪个 目录 
中 ， 比 如 Windows 下 的 “DD: \data\file.exe” 就 是 一 个 文件 的 路 径 ， 它 表 
示 D 分 区 下 的 Data 目 录 下 的 file.exe 文 件 。 又 例如 Unix 系 统 下 的 
“usersomeone/file.exe”。 为 何 Unix 不 像 Windows 有 C 盘 、D 盘 之 类 的 盘 
符 呢 ? 这 个 问题 完全 取决 于 设计 方式 。Windows 默 认 就 是 以 各 个 分 区 
为 总 入 口 ， 然 后 在 入 口 下 建立 一 级 一 级 的 目录 。 而 Unix 的 文件 系统 则 
是 以 全 局 为 入 口 ， 各 个 分 区 都 被 * 挂 载 ? 到 某 个 目录 下 。 比 如 ， 可 以 将 
分 区 sda2 挂 载 到 “homemnt” 下 ， 那 么 我 们 如 果 要 访问 分 区 sda2 中 的 数 
据 ， 就 需要 进入 “/home/mnt”， 就 相当 于 进入 了 sda?2 分 区 文件 系统 的 根 
入 口 。 当 然 ， 如 果 用 户 习 惯用 Windows， 想 让 Unix 文 件 访 问 方式 与 
Windows 类 似 ， 那 么 可 以 将 分 区 sdal 挂 载 到 “/sdal1”， 分 区 sda2 挂 载 到 
“/sda2”， 依 此 类 推 。 其 实在 windows 上 也 可 以 将 分 区 挂 载 到 某 个 其 他 
目录 下 。 这 种 目录 叫做 虚拟 目录 ， 或 者 Virtual Directory， 即 目录 中 存 
放 的 并 不 是 原本 隶属 于 这 个 目录 下 的 文件 或 目录 ， 而 是 另外 一 个 存储 
空间 的 目录 树 。 虚 拟 目 录 更 应 该 理解 为 一 个 路 径 ， 这 种 意义 上 的 路 径 
与 目录 和 文件 本 身 没有 直接 关联 了 ， 路 径 的 唯一 意义 就 是 提供 一 个 标 
记 ， 就 像 路 牌 一 样 ， 路 牌 上 对 应 的 路 名 并 不 等 于 那 条 路 本 身 。 


在 一 个 多 点 集群 环境 中 ， 每 个 节点 都 有 各 自 的 虚拟 目录 ， 或 者 说 
路 径 。 然 而 ， 集 群 之 所 以 称 为 集群 ， 是 因为 这 个 集群 对 外 应 当 表 现 为 
一 个 整体 ， 内 部 不 存在 冲突 或 者 重复 的 事物 。 比 如 这 个 集群 对 外 用 
NFS Export 的 某 个 路 径 “/cluster/datal1”， 客 户 端 不 管 向 集群 中 的 哪个 节 
点 发 起 请 求 使 用 NFS 来 Mount 这 个 Export 之 后 ， 所 看 到 的 数据 内 容 都 应 


当 是 相同 的 。 这 就 要 求 集群 内 部 不 会 在 多 个 节点 上 共同 存在 多 份 独立 
的 “/cluster/datal1”。 比 如， 集群 中 的 某 个 节点 A 将 自己 所 管理 的 某 个 分 
区 sdal 挂 载 到 了 “clusterdatal1” 路 径 下 面 ， 而 这 个 路 径 是 将 要 被 NFS 
Export 出 去 供 客户 端 访问 的 ， 那 么 这 个 节点 就 应 当 同 时 通知 其 他 所 有 
节点 都 生成 这 条 Mount Point， 只 不 过 其 他 节点 会 感知 到 这 个 路 径 对 应 
的 实际 存储 空间 并 不 位 于 本 地 所 管理 的 存储 空间 ， 而 位 于 节点 A 上 。 
那么 一 旦 非 A 的 其 他 节点 接收 到 针对 这 个 路 径 的 访问 请 求 ， 就 需要 将 
请 求 发 送 到 A 节点 执行 然后 取 回 结果 并 返回 给 客户 端 (节点 后 端 不 共 
享 存储 ) ,或 者 向 节点 A 发 起 请 求 将 这 个 路 径 对 应 的 实体 数据 空间 的 
映射 信息 传送 过 来 ， 然 后 自己 从 后 端 存储 空间 中 读 取 数 据 并 返回 给 客 
户 端 (节点 共享 后 端 存储 ) 。 已 经 被 某 节点 使 用 的 路 径 ， 不 能 再 在 其 
他 节点 上 再 次 挂 载 ， 因 为 会 引起 冲突 ， 但 是 其 他 节点 可 以 将 自己 所 管 
理 的 存储 空间 挂 载 到 “/cluster/datal” 的 下 一 级 路 径 比 如 
“clusterdatal/othernode” 中 ， 这 样 是 不 冲突 的 。 


在 一 个 非 集群 环境 中 ， 如 果 有 两 个 NAS Server 端 ， 同 时 存在 两 个 
名 称 相同 的 路 径 比 如 “clustervdatal”， 而 且 都 使 用 NFS Export 出 去 了 ， 
此 时 客户 端 挂 载 的 就 是 两 份 完全 不 同 的 独立 存储 空间 了 。 集 群 中 所 有 
节点 上 的 供 客户 端 挂 载 的 路 径 不 重复 并 且 所 有 节点 统一 协作 ， 统 一 口 
径 ， 对 外 表现 一 台 单 一 的 NAS Server， 这 就 是 所 谓 “Single Name 


Space”o 
15.7.5 Single Filesystem Image 与 Single Path Image 


前 面 提 到 过 Single Name Space， 也 就 是 所 谓 的 全 局 统一 命名 空 
间 。 这 个 词 的 反义词 就 是 非 全 局 多 命名 空间 ， 也 就 是 说 有 多 个 独立 的 
文件 系统 空间 。 这 两 个 词 都 是 用 于 集群 文件 系统 环境 中 的 。 


实现 单一 命名 空间 有 两 种 方式 。 第 一 种 是 将 分 布 到 多 个 节点 上 面 
的 多 个 独立 文件 系统 进行 松绑 定 。 比 如 将 a 节点 上 的 /fs/a 以 及 b 节 点 上 
的 /fs/b 绪 定 成 同一 个 /fs 下 面 的 两 个 目录 : /fs/a 和 /人 sb， 客户 端 访问 集群 
中 的 任何 一 个 节点 ， 比 如 访问 a 节点 ， 那 么 客户 端 所 看 到 的 目录 就 
是 /fs/a 或 者 /fs/b， 在 未 实现 单一 命名 空间 之 前 ， 客 户 端 通 过 a 节点 只 能 
到 /fs/a 而 看 不 到 /fs/b。 或 者 也 可 以 这 样 搞 : 两 个 集群 节点 各 自 管理 自 
己 的 文件 系统 空间 ， 用 一 个 虚拟 化 模块 将 这 两 个 实际 的 文件 系统 空间 
虚拟 成 一 个 大 空间 ， 上 比如 原来 是 /a 和 /b， 而 虚拟 化 之 后 ， 这 两 个 目录 共 
同 融 合成 了 一 个 /a， 人 心 下 面 的 子 目 录 和 文件 现在 都 融合 到 了 /a 下 面 。 或 
者 /a 和 夕 下 的 数据 都 被 虚拟 到 了 一 个 虚拟 目录 /c 下 面 。 通 过 这 样 的 简单 
松 耦 合 方式 来 实现 将 多 个 独立 文件 系统 空间 虚拟 化 融合 成 一 个 大 艇 套 
空间 的 做 法 ， 就 属于 Multiple Filesystem Image， 因 为 这 种 整合 方式 并 
没有 影响 到 各 个 节点 上 的 本 地 文件 系统 ， 只 是 在 其 上 层 做 了 一 层 必 盖 
虚拟 化 ， 只 是 将 目录 路 径 进 行 了 绊 套 虚拟 ， 这 就 必然 导致 其 颗粒 度 将 
会 非常 大 ， 比 如 某 个 文件 或 者 某 个 目录 的 内 容 只 能 被 存放 在 集群 中 的 
一 个 节点 上 。 当 客户 端 通 过 a 挂 载 /fs 目录 却 发 起 了 对 /fs/b 下 某 文件 的 访 
问 ， 那 么 此 时 a 节点 会 将 这 个 请 求 通过 集群 间 内 部 互联 网 络 发 送 给 b 节 
点 ，b 节 点 处 理 之 后 将 结果 返回 给 8a9， 然 后 a 再 将 结果 封装 返回 给 客户 
端 。 所 以 说 ，Multiple Filesystem Image 更 准确 的 应 该 被 称 为 Single Path 
Image， 即 单一 路 径 影像 。 


相对 于 Single Path Image，Single Filesystem Image 则 是 直接 在 每 个 
节 点 的 文件 系统 中 作 彻 底 的 架构 改变 。 当 然 ， 这 里 所 谓 “ 彻 底 ” 只 是 相 
对 的 ， 很 多 Single Filesystem Image 实 现 方式 其 实 还 是 在 诸如 EXT3 这 样 
的 本 地 文件 系统 之 上 增加 一 层 虚 拟 化 逻辑 ， 只 不 过 这 层 逻 辑 与 本 地 文 
件 系统 以 及 其 他 节点 之 间 结 合 得 更 加 紧密 了 ， 颗 粒度 大 大 降低 ， 属 于 
一 种 紧 耘 合 方式 了 。 比 如 某 个 文件 虽然 在 客户 端 看 来 是 存放 在 /fs/a 下 


面 ， 但 是 底层 可 能 是 这 个 文件 的 前 半 部 分 被 放 在 a 节 点 ， 而 后 半 部 分 则 
被 存放 在 b 节 点 中 。 在 Single Filesystem Image 中 ， 集 群 中 的 所 有 节点 都 
可 以 看 到 整个 集群 中 的 这 个 大 的 虚拟 的 文件 系统 ， 并 且 知 道具 体 哪 个 
目录 或 者 哪个 文件 的 哪个 部 分 存放 在 集群 中 的 哪个 节点 ， 多 个 节点 相 
当 于 被 同一 个 文件 系统 所 管理 的 多 个 “磁盘 ”。 而 Single Path Image 模 式 
下 的 集群 ， 每 个 节点 只 能 看 到 和 管理 它 本 地 所 存储 的 文件 ， 对 于 其 他 
节点 上 的 文件 ， 更 准确 地 说 应 该 是 路 径 ， 是 靠 一 个 松 耦 合 的 虚拟 化 层 
简单 的 能 套 来 实现 的 。 


松 耦 合 可 以 容易 地 实现 更 多 节点 的 扩充 ， 紧 耦合 就 不 是 那么 好 扩 
展 了 ， 紧 耦合 需要 维护 的 状态 、 元 数据 等 信息 量 都 显著 提升 ， 随 着 集 
群 中 的 节点 数量 增加 ， 维 护 和 传输 这 些 元 数据 以 及 状态 就 需要 更 多 的 
计算 资源 以 及 网 络 资源 。 在 实现 难度 上 ，Single Path Image 基 本 上 没有 
太 大 难度 ， 而 Single Filesystem Image 则 实现 难度 很 大 。 


SPI 其 实 就 是 多 个 独立 文件 系统 的 松 耦 合 ， 如 果 客 户 端 程序 从 节点 
a 进 入 ， 而 访问 的 文件 却 位 于 节点 b， 那 么 此 时 a 会 将 收 到 的 IO 请 求 直接 
通过 内 部 网 络 通路 转发 给 b， 同 理 ， 其 他 节点 所 收 到 的 针对 b 节 点 中 文 
件 的 访问 都 会 被 直接 转发 给 5p， 这 样 就 相当 于 b 这 个 独立 文件 系统 像 传 
统 方式 一 样 接受 外 部 的 IO。 而 在 SFI 模 式 下 ， 接 收 到 客户 端 IO 请 求 的 
节点 需要 将 对 应 的 IO 进行 解析 ， 获 得 这 个 IO 对 应 的 数据 到 底 沙 在 哪个 
或 者 哪些 节点 上 ， 然 后 将 IO 拆 分 后 分 别传 送 到 对 应 的 集群 节点 中 进行 
读 取 或 者 瑟 入 。 


15.7.6 ”集群 中 的 分 布 式 锁 机 制 


在 单个 节点 的 单一 操作 系统 内 ， 存 在 多 个 应 用 程序 进程 ， 如 果 某 
时 刻 ， 应 用 程序 A 试图 访问 一 个 记录 文件 F，F 中 包含 有 地 址 湾 和 电话 


信息 ，A 将 其 打开 之 后 ， 又 有 一 个 应 用 程序 B 也 将 F 打 开 ， 此 时 ，F 同 时 
存在 于 A 和 B 的 Buffer 内 。 之 后 ，A 将 F 中 的 对 应 某 人 的 电话 号 码 做 了 更 
改 ， 并 且 将 更 改写 入 了 F。 而 此 时 B 的 Buffer 中 的 F 的 内 容 依然 是 A 做 更 
改 之 前 的 ， 此 时 B 将 F 中 对 应 这 个 人 的 电话 号 码 改 成 了 与 A 之 前 改 的 所 
不 同 的 值 ， 并 且 保 存 到 了 F 中 ， 那 么 ，EF 的 内 容 就 会 变 为 B 所 更 改 的 ，A 
做 的 更 改 将 丢失 。 在 Windows 系 统 下 ，MS Office 在 打开 文件 时 是 对 整 
个 文件 加 锁 的 ， 而 记事 本 是 不 加 锁 的 。 大 家 可 以 做 个 实验 ， 打 开 两 个 
记事 本 程序 ， 打 开 同 一 个 文件 各 自 编辑 ， 谁 最 后 一 个 保存 退出 ， 谁 做 
的 编辑 就 被 保存 到 了 文件 中 。 我 们 也 可 以 使 用 CIFS 协 议 来 分 别 打开 一 
个 文本 文件 和 一 个 Word 文件 ， 如 图 15-66 所 示 ， 在 数据 包 中 ， 上 面 为 打 
开 TXT 文 档 时 程序 的 行为 ， 可 以 看 到 程序 并 没有 对 文件 加 任何 锁 ， 甚 
至 允许 删除 〈 在 本 地 也 是 同样 的 行为 ， 已 经 打开 的 TXT 文件 可 以 被 其 
他 程序 删除 ) 。 下 面 为 用 MS Word 程 序 打开 Word 文 档 时 的 数据 包 ， 可 
以 看 到 程序 只 允许 其 他 程序 读 取 此 文件 。 


图 15-66 ” ”Word 文件 与 TXT 文 件 的 加 锁 情 况 


这 显然 是 一 个 很 大 的 问题 。 所 以 ， 所 有 文件 系统 都 会 提供 一 种 
API， 让 一 个 程序 在 打开 一 个 文件 的 时 候 ， 顺 便 给 这 个 文件 上 锁 ， 其 
他 程序 不 可 以 打开 或 者 只 能 以 只 读 方式 打开 这 个 文件 ， 只 有 当 加 锁 的 
程序 退出 之 后 ， 或 者 将 锁 释 放 了 之 后 ， 其 他 程序 才 可 以 修改 这 个 文 
件 。 即 ， 一 旦 遇 到 多 个 程序 需要 修改 同一 个 文件 ， 那 么 这 些 程序 只 能 
排队 一 个 一 个 的 来 ， 如 果 某 个 程序 给 文件 加 了 锁 ， 但 是 却 迟 迟 不 作 
为 ， 比 如 操作 员 离 开 ， 而 其 他 操作 员 终 端 就 只 能 等 待 ， 那 么 时 间 就 被 
白白 的 浪费 了 。 上 图 中 所 示 的 Share Mode 只 是 Windows 下 提供 给 程序 
的 一 个 简易 粗 粒 度 锁 API， 以 整个 文件 为 单位 设 定 共享 模式 ，Windows 
还 提供 了 Lockfile Extend 高 级 锁 API ( 见 下 文 ) 。 


不 锁 不 是 ， 锁 也 不 是 ， 那 么 有 没有 两 全 其 美的 解决 办 法 呢 ? 当然 
有 。 


1. 字 节 锁 (Byte Range Lock) 


应 用 程序 可 以 不 要 求 加 锁 整 个 文件 ， 而 是 只 加 锁 文 件 中 的 某 段 或 
者 某 几 段子 节 ， 这 些 字 节 是 这 个 程序 当前 读 入 并 且 打 算 更 改 的 。 而 其 
他 程序 如 果 访 问 这 个 文件 的 字 节 偏 移 不 处 于 被 加 锁 的 范围 内 ， 则 多 个 
程序 就 可 以 并 行 地 读 写 这 个 文件 的 不 同 部 分 ， 互 不 影响 。 这 样 ， 锁 的 
粒度 就 被 极 大 的 降低 了 ， 对 应 地 可 以 并 行 读 写 同一 个 文件 的 程序 也 就 
可 以 并 行 执 行 了 ， 提 高 了 系统 性 能 。 


2. 并 行 冲突 访问 锁 仲裁 


在 Byte Range Lock 的 基础 上 ， 如 果 有 多 个 应 用 程序 同时 访问 一 段 
字 节 ， 或 者 访问 的 字 节 段 有 交集 ， 那 么 一 次 只 能 够 由 一 个 应 用 程序 掌 
握 对 这 段 交 集 的 更 改 权 ， 其 他 应 用 程序 可 以 处 于 只 读 状态 。 


应 用 程序 一 般 不 会 被 设计 为 多 个 进程 同时 写 同 一 文件 的 同一 段 字 
节 ， 如 果真 的 需要 这 种 应 用 场景 ， 那 么 必须 加 锁 一 更 改 一 释放 ， 之 后 
由 其 他 程序 再 加 锁 一 更 改 一 释放 ， 这 样 才 可 以 保证 一 致 性 。 


3. 集群 中 的 分 布 式 锁 


同样 ， 一 个 集群 惑 相当 于 一 台大 的 虚拟 的 独立 系统 ， 集 群 外 的 多 
个 客户 端 就 相当 于 多 个 应 用 程序 ， 它 们 共同 并 行 地 访问 集群 中 的 资 
源 ， 如 果 它 们 也 需要 同时 并 行 访问 一 个 文件 或 者 一 个 文件 的 各 个 字 节 
段 ， 那 么 同样 也 需要 锁 机 制 。 如 果 要 保证 一 臻 性， 那么 程序 在 打开 文 


件 的 时 候 必 须 显 式 地 对 对 应 字 节 段 加 对 应 权限 的 锁 。 然 而 ， 由 于 集群 
毕竟 是 由 多 个 节点 而 组 成 ， 那 么 维护 所 有 的 锁 这 件 工 作 需 要 由 哪个 节 
点 负责 呢 ? 一 般 有 两 种 实现 方式 ， 第 一 种 是 在 集群 所 有 节点 中 选择 一 
个 节点 专门 负责 锁 的 维护 ;第 二 种 是 所 有 的 节点 共同 维护 锁 ， 锁 信息 
在 所 有 节点 上 同步 。 前 者 称 为 集中 式 锁 管理 ， 用 于 非 对 称 式 集群 ; 后 
者 则 称 为 分 布 式 锁 管 理 ， 用 于 对 称 式 集群 。 


4. 元 数据 锁 与 实际 数据 锁 


在 一 个 共享 存储 型 的 对 称 式 集群 ( 见 下 文 ) 中 ， 所 有 节点 均 可 以 
掌管 文件 系统 元 数据 ， 所 有 节点 中 的 元 数据 信息 是 完全 同步 的 ， 一 个 
节点 的 元 数据 变化 均 要 通知 到 其 他 节点 。 当 某 个 节点 需要 为 某 个 文件 
分 配 物理 存储 空间 的 时 候 ， 会 锁 住 相关 受 影 响 的 元 数据 ， 比 如 空余 空 
间 位 图 。 为 何 要 锁 住 ? 因为 此 时 只 有 这 个 节点 知道 具体 要 分 配 哪些 空 
余 块 给 这 个 文件 ， 如 果 不 锁 住 位 图 ， 其 他 节点 如 果 也 在 分 配 空余 块 给 
其 他 文件 ， 那 么 这 两 个 节点 所 分 配 的 空余 块 就 有 可 能 冲突 ， 导 致 文件 
数据 被 错误 覆盖 ， 后 果 严 重 。 所 以 这 个 节点 需要 利用 分 布 式 锁 机 制 来 
通知 其 他 所 有 节点 ， 此 时 由 它 来 操控 位 图 ， 分 配 完成 之 后 ， 将 元 数据 
的 变化 通告 给 所 有 其 他 节点 ， 其 他 节点 同步 更 新 自己 的 元 数据 缓存 。 
元 数据 锁 的 重要 性 就 体现 在 这 里 。 而 实际 数据 的 锁 一 般 是 由 应 用 自己 
来 申请 的 ， 集 群 各 个 节点 不 会 自己 去 锁定 用 户 实 际 文件 的 某 段 字 节 。 
元 数据 锁 是 集群 为 了 保证 自身 一 致 性 而 必须 要 有 的 ， 用 户 是 见 不 到 也 
调用 不 到 这 种 锁 的 。 而 实际 数据 锁 是 文件 操作 语义 层面 的 。 元 数据 锁 
与 实际 数据 锁 要 分 清 。 


15.7.7 集群 文件 系统 的 缓存 一 致 性 


集群 文件 系统 一 般 都 会 有 读 缓存 ， 即 在 集群 中 的 每 个 节点 上 都 会 
维护 一 个 读 缓 存 ， 一 旦 某 个 客户 端 应 用 程序 更 改 了 某 个 节点 上 存储 的 
内 容 ， 而 这 段 内 容 恰好 又 与 其 他 节点 缓存 中 的 缓存 数据 有 交集 ， 那 么 
有 交集 节点 的 缓存 中 对 应 的 数据 就 会 被 作废， 不 再 缓存 ， 或 者 读 入 最 
新 数据 继续 缓存 。 利 用 这 种 “ 写 即 作废 ”(Invalidate on Write) 机 制 来 
保证 全 局 缓存 一 致 性 。 


对 于 共享 存储 方式 的 集群 ， 写 入 数据 的 时 候 最 好 刷 盘 ， 这 样 其 他 
节点 就 可 以 通过 读 磁盘 来 看 到 这 些 最 新 的 数据 。 相 当 于 公用 物品 ， 用 
完 之 后 要 放 回 原 处 别人 才 可 以 继续 用 ， 而 不 能 先 暂 存在 你 这 里 。 某 些 
复杂 的 系统 也 可 以 使 用 写 缓存 ， 对 于 缓存 的 脏 数据 会 通知 到 集群 中 所 
有 其 他 节点 作废 对 应 的 缓存 ， 同 时 其 他 节点 针对 这 上段 数据 的 操作 都 与 
缓存 脏 数 据 的 节点 联系 而 获取 这 段 数据 而 不 是 从 磁盘 读 入 ， 其 他 节点 
如 果 需 要 更 改 这 段 数据 ， 则 作废 之 前 的 其 他 节点 上 对 应 的 这 上段 脏 数 
据 ， 写 一 次 即 可 。 


而 对 于 非 共 享 存储 的 集群 ， 写 入 的 数据 可 以 缓存 在 本 节点 中 而 无 
须 考虑 缓存 一 致 性 问题 ， 因 为 所 有 其 他 节点 谁 想 访问 这 份 数据 的 话 就 
必须 从 这 拿 > 所 以 不 存在 不 一 致 性 问 题 。 


对 于 共享 存储 型 集群 ， 由 于 底层 卷 是 所 有 节点 共享 的 ， 所 以 除了 
元 数据 之 外 其 他 实际 数据 最 好 都 不 要 缓存 ， 以 便 将 数据 实时 地 体现 在 
底层 共享 卷 中 ， 谁 用 谁 拿 。 写 缓存 最 好 关闭 ， 但 是 也 可 以 有 ,， 一旦 写 
缓存 被 打开 ， 那 么 系统 需要 化 费 额外 的 沟通 成 本 来 保证 缓存 一 致 性 
了 。 读 缓存 一 般 都 是 有 的 。 对 于 非 共享 存储 的 集群 ， 读 写 缓 存 都 有 。 


如 果 某 集群 文件 系统 是 作为 一 个 外 服务 的 存储 集群 而 存在 的 ， 那 
么 写 缓存 最 好 一 律 关闭 ， 因 为 集群 节点 中 并 没有 类 似 SAN 磁 盘 阵 列 一 


样 的 电池 保护 机 制 ， 一 旦 掉 电 ， 缓 存 中 的 脏 数 据 将 丢失 。 
15.7.8 ”集群 NAS 的 本 质 


集群 NAS， 说 白 了 ， 就 是 一 网 络 文件 系统 RAID 0 (或 者 RAID 
10) 。 如 果 建 立 几 个 独立 的 NAS Server， 客 户主 机 分 别 Mount 这 些 
Server， 然 后 将 不 同 的 数据 手动 分 类 存放 在 不 同 Server 的 目录 内 ， 这 样 
也 可 以 做 到 一 定 的 负载 均衡 能 力 ， 其 本 质 与 集群 NAS 要 解决 的 问题 相 
司 ， 只 不 过 在 其 他 方面 不 如 集群 NAS 系 统 灵活 。 统 一 集群 NAS 相 对 于 
手动 Mount 多 个 NFS Server 所 带 来 的 好 处 如 下 。 


(1) 能 做 到 Single Name Space。 比 如 某 个 应 用 程序 需要 在 一 个 目 
录 下 存放 几 十 万 个 小 文件 ， 而 如 果 将 这 么 多 文件 放 在 传统 非 集群 NAS 
上 的 同一 个 目录 下 ， 其 性 能 往往 是 非常 低下 的 。 此 时 ， 需 要 考虑 将 这 
些 文 件 分 在 NAS 中 分 开 不 同 的 目录 存放 以 提升 性 能 。 但 是 这 样 做 的 结 
果 是 ，NAS 系 统 必 须 对 每 个 目录 都 Export 出 来 ， 应 用 服务 器 上 也 必须 
对 每 一 个 Export 点 进行 Mount， 所 以 也 会 显示 为 多 个 目录 。 这 就 无 法 满 
足 应 用 程序 的 要 求 了 。 你 难道 可 以 强行 更 改 这 个 应 用 程序 ， 比 如 ， 和 
开发 人 员 商 量 一 下 ， 别 让 他 将 这 么 多 的 文件 都 放 在 一 个 目录 下 ， 能 不 
能 分 多 个 目录 放 ? 如 果 是 某 个 系统 管理 员 提 出 这 种 要 求 的 话 ， 那 就 非 
常 不 合适 和 无 理 了 。 遇 到 性 能 冲突 的 时 候 ， 修 改 应 用 程序 只 能 是 最 后 
的 对 应 方法 。 而 集群 NAS 却 可 以 在 解决 性 能 问题 的 基础 上 又 不 影响 应 
用 ， 比 如 将 这 个 文件 系统 承载 于 多 个 Segment 上 ， 每 个 Segment 又 分 配 
到 不 同 的 Segment Server 主 机 上 进行 管理 ， 而 Export 的 时 候 只 需要 
Export 一 个 单一 Mount Point， 应 用 主机 也 只 需要 Mount 单 一 目录 ， 这 就 
很 好 地 解决 了 问题 。 


(2) 能 做 到 统一 管理 、 故 障 切 换 和 在 线 迁移 平衡 负载 。 手 动 部 署 
多 个 NAS Server，Mount 多 个 目录 ， 手 动 平衡 负载 ， 不 但 会 与 应 用 程序 
设计 造成 冲突 ， 而 且 还 有 其 他 诸多 不 便 。 比 如 ， 如 果 某 个 NAS Server 
出 现 性 能 瓶颈 ， 而 其 他 NAS Server 的 负载 却 很 低 ， 此 时 只 能 是 望 洋 兴 
叹 ， 权 的 累 死 ， 闪 的 闪 死 。 而 对 于 集群 NAS 系 统 来 说 就 大 不 一 样 了 ， 
可 以 随时 将 负载 过 高 的 节点 上 对 应 的 Segment 动 态 迁 移 到 负载 低 的 
Segment Server 上 同时 又 不 影响 上 应用， 而且 这 种 迁移 根本 不 涉及 到 数据 
移动 过 程 (Segment Server 之 间 共 享 后 端 存 储 ) ， 执 行 的 速度 是 非常 快 
的 ， 得 到 的 性 能 提升 也 是 立竿见影 的 。 其 次 ， 如 果 多 台独 立 NAS 
Server 中 某 台 发 生 故 障 ， 那 么 它 所 管理 的 数据 也 就 无 法 访问 了 ， 而 集 
群 NAS 系 统 由 于 后 端 可 以 共享 存储 ， 所 以 在 某 节点 发 生 故 障 之 后 ， 可 
以 由 正常 的 节点 接管 所 有 资源 ， 包 括 后 端 Segment 以 及 前 端 接口 IP 地 
址 ， 客 户 端 访问 继续 执行 ， 当 然 集 群 NAS 也 允许 任何 节点 使 用 非 共 享 
存储 。 但 使 用 非 共 享 存储 就 不 会 享受 到 HA 切换 和 在 线 迁移 Segment 所 
市 来 的 好 处 了 。 最 后 ， 多 台独 立 的 NAS Server 已 经 形成 了 数据 孤岛 ， 
不 便于 数据 统一 管理 ， 比 如 Snapshot、Mirror 等 。 


将 集群 文件 系统 中 的 文件 用 NAS 协 议 输 出 ， 这 就 是 集群 NAS。 使 
用 SPI 模 式 或 者 SFI 模 式 的 集群 文件 系统 均 可 以 输出 为 集群 NAS 系 统 ， 
其 表现 出 来 的 优 劣 与 SPI 和 SFI 集 群 文 件 系统 本 身 的 优 劣 相同 。 


15.7.9“” 块 级 集群 与 NAS 集 群 的 融合 猜想 


统一 存储 这 个 概念 是 近 几 年 一 直 在 炒 的 概念 ， 即 在 同一 台 存 储 设 
备 中 同时 实现 FC、ISCSI、NFS 和 CIFS 等 存储 协议 支持 ， 也 就 是 常 说 
的 SAN 和 NAS 融 合 。 对 于 传统 的 非 Scale-Out 存 储 系 统 ，NAS 与 SAN 的 
融合 一 般 都 是 通过 在 SAN 设 备 前 加 一 个 NAS 机 头 来 实现 ，NetApp 则 是 


完全 通过 一 个 机 头 来 实现 ， 其 他 诸如 EMC、HDS 等 都 是 采用 前 一 种 方 
式 。 


面 对 市 场 上 如 此 多 的 集群 NAS 系 统 以 及 集群 文件 系统 ， 可 以 说 它 
们 早 就 实现 了 Scale-Out 架 构 。SAN 方 面 也 是 从 2008 年 开始 由 EMC 的 V- 
Max 以 及 IBM 的 XIV 两 款 产品 宣布 了 SAN 存 储 也 开始 走向 Scale-Out 架 
构 ， 其 实在 此 之 前 3PAR 的 SAN 设 备 也 早 就 属于 Scale-Out 架 构 了 ， 一 时 
间 包 括 Dell Equalogic、HP P4000、Infortrend ESVA 等 可 横向 扩展 的 x86 
集群 SAN 存 储 系统 都 突然 变 得 被 广泛 关注 ， 这 些 产 品 共 同 打造 出 了 所 
谓 “ 新 型 高 端 " 存 储 ， 开 始 侵蚀 以 EMC Symmtrix DMX 和 HDS USP 为 代 
表 的 传统 高 端 SAN 阵 列 市 场 。 


至 此 ，Scale-Out 架 构 的 硬件 同时 承载 了 NAS 和 SAN， 它 们 二 者 势 
必 也 要 进行 融合 ， 以 后 ，SAN 与 NAS 将 会 共同 被 承载 于 Scale-Out 架 构 
的 硬件 平台 之 上 。 


15.8 ”对 象 存储 系统 


对 象 存储 系统 (Object Storage System，OSS) ， 或 者 也 叫 对 象 存 
储 设备 (Object Storage Device，OSD) ， 本 书 选 用 OSD 作 为 这 种 技术 
的 代名词 。 


OSD 的 雏形 是 由 卡耐基 梅 隆 大 学 的 Garth Gibson 在 1994 年 提出 的 ， 
当时 被 叫做 Network Attached Secure Disks (NASD) 。 几 年 后 ， 
National Storage Industry Consortium (NSIC) 对 NASD 进 行 了 完善 和 
修改 ， 最 终 被 ANSIT10 收 录 成 为 一 个 标准 项 上 目 ， 命 名 为 T10/1355-D。 
几 年 之 后 ， 也 就 是 2004 年 ，SNIA 组 织 对 这 个 技术 改头换面 ， 成 为 了 


ANSIT10 SCSI OSD v1 标准 ， 随 后 又 继续 对 其 进行 发 展 ， 形 成 了 ANSI 
T10 SCSI OSD v2 标准 。 


那么 ，OSD 到 底 是 为 何 而 生 的 呢 ? 我 们 都 知道 NAS 协 议 设备 ， 主 
机 客户 端 不 需要 维护 文件 一 块 映射 ， 只 需要 将 对 文件 的 操作 请 求 发送 
到 NAS 服 务 端 即 可 得 到 相应 回复 ，NAS 相 当 于 把 文件 系统 逻辑 Offload 
到 了 主机 之 外 。NAS 协 议 中 的 NFS 协 议 是 Sun 公 司 在 1984 年 左右 提出 
的 。10 年 之 后 ， 也 就 是 1994 年 ， 卡 耐 基 梅 隆 大 学 所 发 布 的 NASD 也 同 
样 使 用 这 种 将 文件 系统 底层 存储 映射 管理 外 置 的 思想 ， 即 把 块 映射 逻 
辑 移出 主机 之 外 ， 放 到 外 部 存储 设备 中 执行 。 但 是 ， 与 NFS 不 同 的 
是 ，NASD 的 设计 之 初 的 构想 是 把 文件 系统 逻辑 直接 放置 在 磁盘 中 ， 
因为 设计 者 认为 磁盘 内 部 处 理 心 片 已 经 足够 强大 到 可 以 执行 这 些 高 层 
复杂 逻辑 了 。 这 样 的 话 ， 主 机 直接 可 以 并 行 地 访问 每 块 硬盘 来 获取 文 
件数 据 ， 而 不 是 块 数据 。 如 图 15-67 所 示 为 NASD 的 系统 架构 示意 图 。 


图 15-67 NASD 架 构 示 意图 


NASD 设 计 之 初 就 与 NFS 在 架构 上 有 着 本 质 不 同 ， 针 对 同一 个 
Export 目 录 ，NFS 客 户 端 只 能 够 从 一 个 NFS 服 务 节点 Mount 一 次 ， 而 且 
今后 所 有 针对 这 个 目录 中 文件 的 IO 访问 都 只 能 够 发 送 给 这 个 NFS 服 务 
节点 来 处 理 ， 一 个 节点 的 处 理 能 力 、 网 络 带 宽 都 是 有 限 的 。 而 NASD 
打算 打破 这 种 限制 ，NASD 可 以 让 客户 端 主机 直接 并 行 地 访问 所 有 
Disk， 所 有 Disk 同 时 为 客户 端 主 机 服务 ， 这 样 ， 就 打破 了 传统 NFS 的 
瓶颈 ，IO 访 问 数据 就 可 以 并 行 地 被 处 理 和 传输 ， 性 能 有 很 大 提升 。 然 
而 主机 客户 端 如 何 知道 要 访问 的 文件 被 存储 在 哪个 Disk 上 呢 ? 难道 需 
要 在 客户 端 本 地 维护 一 份 映 射 信息 么 ? 这 样 做 不 就 与 普通 文件 系统 无 
异 了 么 ? 解决 这 个 问题 的 办 法 是 ，NASD 在 系统 中 引入 了 一 个 独立 的 
Metadata Server (MDS) ， 这 人 台 Server 上 维护 着 整个 系统 内 的 “文件 一 


所 在 Disk 及 块 " 映 射 天 系 ， 任 何 客户 端 访问 任何 文件 ， 都 需要 先 通过 网 
络 向 MDS 进 行 查询 目标 文件 所 被 存储 的 Disk 和 块 列表 ( 某 个 文件 可 以 
以 Stripe 的 形式 分 散 到 存储 在 多 个 Disk 上 ) ; 任何 客户 端 打算 创建 文件 
或 者 对 文件 进行 号 入 ， 也 需要 首先 告知 MDS， 由 MDS 来 决定 文件 将 被 
存储 在 哪个 或 者 哪些 Disk 块 上 ， 并 将 信息 返回 给 客户 端 。 在 得 到 列表 
及 其 他 必要 信息 之 后 ， 客 户 端 主 机 直接 向 对 应 的 Disk 地 址 发 起 数据 IO 
请 求 来 读 出 或 者 写 入 数据 。MDS 不 仅 负 责 元 数据 管理 ， 而 且 还 负责 客 
户 端 认 证 以 及 文件 权限 认证 ， 只 有 通过 认证 的 客户 端 才能 够 访问 Disk 
以 及 对 应 的 文件 、 目 录 等 。 


以 上 仅 为 NASD 设 想 中 的 理想 状况 ， 请 勿 对 号 入 座 。 我 们 知道 ， 
将 文件 系统 逻辑 移 到 Disk 上 这 个 构想 ， 至 今 仍然 只 是 一 个 梦 。 在 磁盘 
上 实现 高 级 复杂 的 逻辑 的 想法 毕竟 太 过 超前 与 疯狂 ， 甚 至 比 集群 化 并 
行 访问 的 思想 更 加 超前 ， 所 以 我 真是 佩服 Garth Gibson。 


我 们 总 结 一 下 NASD 的 设计 架 图 15-68 单 侣 主机 内 部 

构 : 将 文件 系统 逻辑 从 主机 端 移出 

放 到 网 络 上 的 一 台 MDS 上 ， 所 有 的 智能 Disk 也 放 到 网 络 上 ， 主 机 端 通 
过 某 种 NASD 客 户 端 程序 来 向 MDS 获 取 元 数据 信息 ， 并 且 在 得 到 信息 
之 后 根据 这 些 信息 直接 访问 网 络 上 的 智能 Disk 存 储 文件 。 我 们 再 仔细 
思考 一 下 这 种 架构 ， 这 其 实 和 单 台 主机 的 内 部 架构 本 质 上 没 哈 两样。 
如 图 15-68 所 示 ， 在 传统 的 单 台 主 机 内 部 ， 程 序 如 果 打 算 访问 某 个 文 
件 ， 文 件 系统 也 会 查找 对 应 的 元 数据 以 获得 对 应 文件 所 处 的 Disk 以 及 
Disk 上 的 Setcor 的 位 置 ， 查 到 之 后 ， 也 会 通过 磁盘 控制 器 来 并 行 地 对 多 
块 磁盘 进行 访问 (Raid) 以 存 取 数 据 。 它 与 NASD 的 架构 的 差别 只 在 
于 : 文件 系统 块 映射 逻辑 在 主机 中 运行 ，Disk 位 于 磁盘 控制 器 之 后 而 
不 是 网 络 上 。 但 是 单 台 主机 所 获得 的 性 能 可 是 要 远 高 于 NASD， 因 为 


文件 系统 运行 在 主机 内 存 中 ， 通 信也 是 在 内 存 中 ; 磁盘 控制 器 的 主机 
总 线 以 及 控制 器 连接 磁盘 的 总 线 速 率 均 远 高 于 外 部 网 络 。 


虽然 NASD 的 架构 设计 并 不 能 取代 传统 主机 客户 端的 文件 访问 ， 
但 是 它 却 可 以 超越 传统 的 NFS/CIFS 架 构 。 


如 图 15-69 所 示 ， 左 侧 的 传统 NAS 访 问 架 构 ， 虽 然 磁盘 数量 相同 ， 
但 是 NFS 客 户 端 只 能 够 通过 一 条 网 络 链 路 来 访问 NFS 服 务 端 节点 ， 而 
且 每 份 数据 都 是 串 行 存 取 的 ，NFS 服 务 端 节点 也 只 有 一 条 链 路 连接 网 
络 ; 而 右 侧 的 NASD 架 构 中 ， 磁 盘 数量 没有 变化 ， 但 是 每 个 NFS 客 户 
端 节点 却 可 以 直接 并 行 地 访问 每 个 数据 服务 端 节点 (Disk) ， 并 且 ， 
随 着 服务 端 节点 (Disk) 的 增多 ， 系 统 性 能 会 线性 增长 。 而 如 果 向 传 
统 的 NFS 服 务 端 中 增加 再 多 的 磁盘 ， 其 所 获得 性 能 也 没有 什么 本 质 提 
升 。 


图 15-69 NASD 与 传统 NAS 架 构 比较 


那么 是 否 传统 的 NAS 也 可 以 改 为 这 种 架构 呢 ? 当然 可 以 ， 我 们 可 
以 手动 地 将 文件 分 别 放 入 多 个 节点 的 多 个 Export 中 存放 ， 再 在 客户 端 
主机 上 分 别 Mount 这 些 NFS Server 所 输出 的 目录 ， 然 后 修改 应 用 程序 ， 
访问 A 文 件 请 走路 径 a， 访 问 B 文 件 请 走路 径 b。 这 样 也 可 以 达到 并 行 访 
问 的 目的 ， 但 是 由 于 同一 个 文件 只 能 放 到 同一 个 Server 节 和 点， 所 以 不 
能 并 行 同 一 个 文件 ; 而 且 这 样 做 也 是 不 可 行 的 ，Mount 多 个 节点 、 修 
改 应 用 程序 ， 这 是 完全 的 强 资 逻辑。 所以， 传统 NAS 虽 然 在 物理 上 也 
可 以 改 为 这 种 架构 ， 但 是 ， 由 于 传统 文件 系统 中 的 目录 、 文 件 、 路 径 
等 概念 ， 以 及 NFS 所 使 用 的 Mount Point 的 做 法 ， 却 注定 它 不 能 够 实现 
对 同一 文件 的 并 行 。NASD 并 没有 Mount 的 概念 ， 它 对 “文件 ”和 “目录 ” 


等 抽象 概念 进行 重新 定义 和 封装 〈 详 见 下 文 ) ， 正 因 如 此 ，NASD 才 
可 以 做 到 对 任何 要 访问 对 象 的 并 行 操作 。 


至 此 我 们 明白 了 NASD 的 价值 所 在 。Disk 这 个 词 是 不 是 可 以 在 
NASD 的 概念 中 消失 了 呢 ? 因为 至 今 也 没有 实现 智能 Disk。 所 以 下 文 
中 不 再 用 Disk， 而 将 Disk 改 为 OSD， 即 Object Storage Device。 这 里 何 
谓 “Object* 呢 ? 如 图 15-70 所 示 为 OSD 层 在 系统 IO 路 径 中 的 示意 图 。 
中 右 侧 下 部 即 为 一 个 OSD。 左 侧 则 为 传统 Block 级 访问 模型 。 


图 15-70 ”OSD 协议 在 系统 IO 路 径 中 的 位 置 和 作用 方式 


可 以 看 到 ，OSD 在 协议 层面 与 NAS 协 议 本 质 上 是 相同 的 。 它 之 所 
以 被 称 为 “Object Storage Device”， 是 因为 在 OSD 的 概念 中 ， 文 件 不 叫 
File 了 ， 册 Object; 目录 也 不 叫 Directory 了， 出 Partition。 在 此 之 上 ， 
OSD 相 比 NAS 增 加 了 一 些 改进 ， 比 如 安全 认证 等 方面 。 其 次 ，OSD 中 
每 个 Object 都 用 一 个 128b 的 Object ID (OID) 表示 ， 说 白 了 这 个 OID 也 
就 对 应 了 NAS 协 议 中 的 File Handle。 


如 图 15-71 所 示 为 OSD 中 的 各 种 主要 概念 。 像 普通 文件 系统 一 样 ， 
OSD 设 备 一 样 需要 维护 每 个 文件 ， 哦 ， 应 该 说 是 Object 的 块 映 射 、 元 
数据 、 属 性 和 OID 等 信息 。Object 分 为 多 种 类 型 ， 每 种 类 型 的 Object 含 
义 如 下 。 


图 15-71 ”OSD 中 的 各 种 概念 


" Root Object: 表示 OSD 设 备 本 身 。 
" User Object : 被 客户 端 主机 所 创建 的 Objecto 


" Collection Object : 一 组 按照 某 种 条 件 而 聚集 起 来 的 Object 组 
合 ， 比 如 “*.exe”， 即 “所 有 exe 文 件 的 集合 ”就 是 一 种 Collection 


Objecto 
=。 Partition Object : 一 个 用 来 盛 放 User Object 的 容器 ， 相 当 于 目 
录 。 


OSD 不 可 能 由 一 个 磁盘 来 充当 了 ， 那 么 谁 来 充当 呢 ? 当然 只 能 用 
一 台独 立 的 服务 器 来 充当 。 这 人 台 服 务 器 与 NFS 服 务 器 底层 处 理 方式 类 
似 ， 都 是 维护 一 个 本 地 文件 系统 ， 管 理 Object 与 底层 磁盘 块 的 映射 关 
系 以 及 其 他 元 数据 等 信息 ， 对 外 使 用 一 种 专门 的 协议 来 供 客户 端 访问 
其 保存 的 Objecte 


可 以 说 NASD 是 一 种 极其 超前 的 思想 和 技术 。 它 早 就 将 集群 环境 
考虑 在 内 ， 可 惜 的 是 ，20 世 纪 80 年 代 ， 集 群 并 未 得 到 发 展 ， 所 以 
NASD 也 并 没有 成 为 潮流 技术 ， 而 被 随后 出 现 的 NFS 和 SMB 协 议 超 过 
了 


但 是 NASD 却 一 直 没 有 停止 发 展 ， 一 直到 被 SNIA 推 进 并 最 终 在 
2004 年 被 收入 T10， 成 为 一 个 标准 ， 也 就 变 为 现在 俗称 的 OSD 了 。 


有 人 可 能 会 问 : T10 不 是 专门 搞 SCSI 协 议 的 组 织 么 ? 怎么 开始 搞 
起 文件 级 访问 协议 了 呢 ? 说 对 了 。 也 正 是 因为 T10 只 搞 SCSI， 所 以 才 
会 收录 它 ， 因 为 ，OSD 就 是 使 用 SCSI CDB 来 传输 针对 文件 的 IO 请 求 
的 。 对 于 当初 NASD 是 否 也 是 使 用 SCSI， 不 得 而 知 ， 但 是 SNIA 提 交 到 
T10 的 OSD 协 议 确实 是 使 用 了 SCSI CDB 来 描述 文件 级 的 请 求 。 如 图 15- 
72 所 示 为 OSD 协 议 在 SCSI 协 议 层次 中 所 处 的 位 置 。 


图 15-72” OSD 协议 在 SCSI 协 议 层次 中 所 处 的 位 置 


思考 : 其 实 读者 此 时 应 该 已 经 早 就 了 解 了 所 谓 的 “IO 三 大 件 ” 
了 ， 每 个 IO， 不 管 是 标准 协议 ， 还 是 私有 函数 调用 ， 基 本 上 
都 是 由 “目标 " “起 始 地 址 > 和“ 长度” 这 三 大 件 组 成 的 。 对 于 
块 IO， 这 三 大 件 就 是 目标 LUN ID、 起 始 LBA 地 址 、 要 IO 的 
LBA 地 址 长 度 ; 而 对 于 文件 IO ， 这 三 大 件 就 是 文件 名 、 起 始 
字 节 地 址 、 要 IO 的 字 节 长 度 。 可 以 看 到 文件 和 块 这 两 种 IO 方 
式 ， 其 本 质 是 一 样 的 ， 本 来 文件 底层 也 就 是 对 应 的 数据 块 ， 
文件 系统 只 不 过 做 了 一 层 地 址 翻译 封装 和 组 织 。 那 么 这 两 种 
IO 从 本 质 上 来 讲 就 可 以 被 融合 。 对 象 存 储 系 统 从 某 种 意义 上 
讲 结合 了 块 级 访问 的 高 效 与 文件 访问 的 灵活 性 和 便捷 性 。 


OSD 将 文件 访问 协议 也 统一 到 了 SCSI 协 议 集中 ， 做 到 了 Block 和 文 
件 级 访问 的 大 统一 。NASD 所 做 的 最 大 贡献 其 实 并 不 是 Object， 也 不 是 
后 来 被 标准 化 的 OSD 协 议 ， 而 是 其 针对 集群 环境 下 文件 的 高 性 能 访问 
所 作 的 设计 ， 这 个 思想 最 终 催生 了 一 大 批 有 着 类 似 架 构 的 集群 文件 系 
统 ， 包 括 Lustre、PolyServe、Ibrix、PanFS 等 。 


这 些 集群 文件 系统 拥有 共同 的 基础 架构 ， 如 图 15-73 所 示 为 这 种 架 
构 的 示意 图 。 


图 15-73 ”基于 OSD 的 集群 文件 系统 普遍 架构 


它们 有 些 使 用 OSD 来 作为 访问 协议 ， 也 有 些 使 用 私有 的 但 是 与 
OSD 类 似 的 协议 。 目 前 几乎 所 有 的 集群 文件 系统 都 同时 提供 了 基于 
NAS (CIFS/NFS) 的 访问 接口 。 客 户 端 主机 可 以 选择 使 用 OSD 或 者 
NAS 方 式 来 访问 集群 。 至 于 具体 的 访问 方法 ， 请 参考 本 章 其 他 部 分 ， 
这 里 就 不 做 过 多 介绍 了 。 


部 署 OSD， 不 但 需要 OSD 存 储 设备 ， 还 需要 在 客户 端 主机 上 安装 
OSD Initiator， 就 像 NFS 或 CIFS 需 要 使 用 对 应 的 NFS Client 模 块 和 SMB 
模块 一 样 。Panasas 的 DirectFlow 就 是 一 种 OSD Initiator。 


用 户 程 序 本 身 无 须 做 任何 更 改 即 可 使 用 OSD 作 为 存储 设备 。 用 户 
可 以 挂 载 一 个 由 MDS 虚 拟 出 来 的 路 径 ， 当 在 这 个 路 径 下 创建 一 个 文件 
或 者 访问 这 个 路 径 中 的 某 个 文件 时 ，OSD Initiator 会 与 操作 系统 内 核 的 
目录 虚拟 层 (比如 Linux 下 的 VFS 层 ) 进行 对 接 ， 将 用 户 程 序 针对 VFS 
路 径 下 被 Mount 的 OSD 路 径 下 某 文 件 的 访问 ， 翻 译 封 装 为 相应 的 OSD 
SCSI CDB 并 发 向 OSD 设 备 以 执行 这 个 IO 请 求 ， 当 然 ， 之 前 应 当先 去 
MDS 查 询 待 访问 目标 所 被 存储 的 OSD 设 备 和 块 列 表 。OSD Initiator 向 
OSD 发 送 的 请 求 中 只 需要 给 出 Object ID 即 可 ， 而 无 须 像 传统 NAS 协 议 
一 样 给 出 这 个 Object 的 绝对 路 径 。OSD 设 备 会 自行 查找 这 个 OID 所 对 应 
的 底层 块 并 做 相应 操作 。 


OSD 目 前 被 使 用 的 非常 少 。 根 据 一 些 极力 推广 OSD 的 厂商 的 态 
度 ， 他 们 认为 传统 的 文件 系统 ， 不 管 是 从 底层 的 元 数据 组 织 方式 上 ， 
还 是 上 层 的 访问 接口 方面 来 讲 ， 已 经 不 能 够 满足 海量 文件 的 存储 和 访 
问 了 。 而 OSD 却 能 够 从 根本 上 解决 这 个 问题 。 


集群 文件 系统 提供 的 NFS 或 者 CIFS 访 问 接口 ， 客 户 端 主机 只 能 够 
从 集群 中 的 某 人 台 节 点 上 来 Mount 某 个 Export 输 出 目录 ， 而 所 有 的 数据 IO 
也 都 是 通过 这 个 节点 进行 ， 这 也 就 从 根本 上 限制 住 了 传统 NAS 协 议 访 
问 集群 所 能 够 获得 的 最 大 性 能 。 而 OSD 从 一 开始 就 考虑 到 了 这 种 限 
制 ，OSD 冲 破 了 这 种 限制 。 所 有 使 用 OSD 协 议 访问 集群 的 客户 端 主 
机 ， 它 们 都 首先 从 Metadata Server 上 查询 待 访问 的 目标 文件 /Object 都 分 
布 在 哪些 OSD 节 点 上 ， 得 到 所 需 的 信息 之 后 ， 客 户 端 主机 的 OSD 


Initiator 会 同时 并 行 地 向 所 有 存储 有 这 个 目标 文件 碎片 的 OSD 节 点 发 起 
IO 请 求 ， 并 行 地 存 取 数 据 ， 这 就 比 传统 的 NAS 协 议 有 了 质 的 飞跃 。 


思考 : 我 们 观察 一 下 图 15-73， 可 以 发 现 一 些 玄妙 的 东西 。 
即 ， 在 这 整个 集群 内 ，OSD 相 当 于 Disk，MDS 相 当 于 FS， 每 
个 Client 主 机 相当 于 应 用 程序 ， 以 太 网 交换 机 相当 于 系统 总 
线 。 我 们 仔细 思考 一 下 ， 这 整个 集群 ， 是 不 是 就 像 一 台 单 独 
的 计算 机 一 样 呢 ? 多 个 应 用 程序 同时 通过 文件 系统 来 访问 磁 
盘 上 的 数据 。 


而 我 们 再 仔细 观察 一 下 图 15-69 左 侧 的 传统 NAS 架 构 ， 再 观察 一 下 
右 侧 的 NASD 架 构 。 你 发 现 这 其 中 的 奥妙 了 么 ? 是 的 。NASD 相 当 于 把 
上 面 所 述 的 “系统 总 线 ” 扩 充 了 ， 由 单条 串 行 改 为 多 条 并 行 ; 还 有 ， 
NASD 相 当 于 把 底层 做 了 Raid0 了 。 


这 就 是 “轮回 ”二 字 的 奥妙 所 在 。 


传统 NAS 也 不 甘 示 弱 ，NFS 的 最 新 升级 版 NFS 4.1， 即 PNFS 
(Parallel NFS) ， 也 采用 了 这 种 集群 架构 以 及 OSD 访 问 协议 标准 。 而 
CIFS/SMB 协 议 的 始祖 Microsoft 在 其 Windows Vista/Server 2008/7 操 作 系 
统 中 提供 了 SMB 1.0 的 升级 换代 版 一 一 SMB 2.0， 其 在 单机 访问 时 相 比 
SMB 1.0 有 了 很 大 的 效率 和 速度 提升 ， 而 使 用 MS 提供 的 DFS 也 可 以 达 
到 与 集群 FS 类 似 的 效果 ， 但 并 不 是 那么 纯粹 。 传 统 NAS 与 OSD 将 会 走 


向 融合 。 


15.9 ”当前 主流 的 集群 文件 系统 架构 分 类 与 对 比 


存储 系统 中 的 集群 系统 可 以 分 为 两 大 部 分 ， 一 个 是 像 VMax、 
XIV、InserveT 这 样 的 集群 SAN 系 统 ， 它 们 的 集群 化 对 客户 端 来 说 是 完 
全 透明 的 ; 第 二 种 就 是 集群 文件 系统 ， 集 群 文件 系统 又 可 以 分 为 其 他 
多 种 类 别 。 下 面 我 们 从 不 同 的 角度 分 析 一 下 目前 的 集群 文件 系统 的 分 


类 。 


15.9.1 ”共享 与 非 共享 存储 型 集群 


如 果 某 个 集群 中 的 所 有 节点 是 共享 使 用 后 端 存储 的 (这 里 的 共享 
不 是 说 共享 一 台 磁 盘 阵 列 ， 而 是 共享 访问 同一 个 或 者 多 个 LUN) ， 那 
么 这 个 集群 就 属于 共享 存储 型 集群 ， 否 则 便 是 非 共 享 存储 型 集群 。 如 
图 15-74 所 示 ， 左 侧 为 共享 存储 型 集群 示意 图 ， 右 侧 为 非 共 享 存储 型 。 
但 是 不 要 被 图 中 所 示 的 场景 所 误导 ， 非 共享 存储 型 集群 不 一 定 每 个 节 
点 都 必须 用 自己 本 地 的 磁盘 ， 节 点 当然 也 可 以 连接 到 一 台 或 者 几 台 磁 
盘 阵列 中 来 获取 各 自 的 存储 空间 ， 但 是 各 自 的 存储 空间 只 能 自己 访 
问 ， 其 他 节点 不 可 访问 ， 这 就 是 非 共 享 的 意义 。 


图 15-74 ”共享 存储 与 非 共享 存储 型 集群 架构 


共享 与 非 共享 存储 型 集群 对 比如 下 。 


(1) 非 共 享 模式 的 集群 文件 系统 ， 当 某 节 点 需要 访问 其 他 节点 上 
的 数据 时 ， 这 些 数 据 需 要 在 前 端 交 换 机 中 (一 般 是 以 太 网 ) 传输 ， 速 
度 偏 慢 ; 而 共享 存储 型 则 每 个 节点 可 以 直接 对 后 端 存储 设备 对 应 的 
LUN 进 行 读 写 ， 在 前 端 传输 的 只 有 集群 间 的 元 数据 沟通 流量 而 不 是 实 
际 数据 流量 。 


(2) 缓存 一 致 性 ， 共 享 式 需要 考虑 ， 非 共享 式 不 需要 考虑 。 


(3) 对 于 非 共享 式 集群 文件 系统 ， 为 了 防止 单 点 故障 ， 需 要 将 每 
个 节点 上 的 数据 镜像 一 份 存在 其 他 节点 ， 而 共享 式 集群 ， 一 个 节点 故 
障 ， 另 外 的 节点 可 以 同时 接管 前 端 和 后 端 ， 因 为 后 端 存 储 是 所 有 节点 
共享 访问 的 。 


(4) 非 共享 式 集群 可 以 不 使 用 SAN 阵 列 ， 服 务 器 节点 本 地 槽 位 多 
的 话 使 用 本 地 磁盘 也 可 以 满足 大 部 分 需求 ， 不 可 以 使 用 DAS 磁 盘 箱 
等 共享 存储 型 集群 则 必须 使 用 SAN 阵 列 。 


非 共享 存储 型 文件 系统 又 可 被 称 为 “分 布 式 文件 系统 ”， 即 数据 被 
分 布 存 放 在 集群 中 多 个 市 点 之 上 。 


15.9.2 ”对 称 式 与 非 对 称 式 集群 


如 图 15-75 所 示 为 对 称 式 集群 示意 图 。 所 谓 对 称 式 集群 文件 系统 是 
指 集群 中 所 有 节点 的 角色 和 任务 都 相同 ， 完 全 等 价 。 在 对 称 式 集群 文 
件 系统 中 ， 每 个 节点 都 很 “聪明 ”， 它 们 每 时 每 刻 都 能 够 保持 精确 的 沟 
通 与 合作 ， 共 同 掌管 着 全 局 文件 系统 的 元 数据 ， 每 个 节点 要 更 新 某 元 
数据 时 都 会 先 锁 住 ， 这 样 其 他 节点 就 必须 等 待 ， 就 这 样 轮 值 执行 任 
务 , 保证 了 文件 系统 元 数据 的 一 致 性 ， 同 时 也 精确 地 保持 着 缓存 一 致 
性 。 各 个 节点 间 沟 通 量 很 大 。 


图 15-75 ”对 称 式 集群 文件 系统 架构 


如 图 15-76 所 示 为 非 对 称 式 集群 示意 图 。 在 非 对 称 式 集群 中 ， 只 有 
少数 节点 是 “聪明 ”的 ， 其 余 都 是 傻 节 点 。 也 就 是 说 ， 只 有 少数 节点 
(一 般 为 两 个 主 备 关 系 的 节点 ) 掌管 着 系统 内 全 局 的 文件 系统 信息 ， 
其 他 节点 均 不 清楚 。 当 其 他 节点 需要 访问 某 文 件 时 ， 需 要 首先 联系 这 
个 聪明 节点 ， 后 者 将 前 者 要 访问 的 文件 所 对 应 的 具体 信息 (比如 存放 


在 后 端 哪个 LUN 的 哪 段 地 址 ， 或 者 存放 在 哪个 节点 中 ) 告诉 前 者 ， 前 
者 得 到 这 些 信息 之 后 便 直接 从 后 端的 LUN 或 者 对 应 节点 中 访问 该 数 
据 。 每 个 傻 节点 上 安装 一 个 代理 客户 端 程序 来 与 聪明 节点 通信 。 图 中 
可 以 看 到 一 些 具 体 的 通信 过 程 。 这 个 “聪明 ”节点 叫做 *Metadata 
Server”， 简 称 MDS 或 者 MDC (Metadata Controller) 。MDS 是 系统 中 
唯一 掌握 文件 系统 元 数据 的 角色 ， 下 文中 还 会 有 涉及 MDS 的 描述 ， 请 
注意 阅读 和 关联 理解 。 


图 15-76 ” 非 对 称 式 集群 文件 系统 架构 


对 称 式 集群 文件 系统 的 典型 代表 有 Veritas ClusterFS、HP Ibrix。 非 
对 称 式 集群 文件 系统 的 典型 代表 有 Stornext SNFS、EMC MPFS、IBM 
SanFS。 显 然 ， 由 于 第 二 种 方式 易于 实现 ， 集 群 间 沟通 成 本 低 ， 所 以 
对 应 的 产品 也 多 。 对 于 对 称 式 集群 ， 客 户 端 可 以 通过 挂 载 任何 一 个 节 
点 上 的 目录 输出 即 可 访问 到 集群 中 所 有 数据 ， 或 品行 或 并 行 ， 但 是 对 
于 非 对 称 式 集群 ， 客 户 端 只 能 通过 MDS 节 点 来 挂 载 ， 一 定 程 度 上 造成 
MDS 节 点 瓶颈 。 但 是 由 于 对 称 式 集群 的 沟通 复杂 度 太 高 ， 不 利于 扩展 
到 太 多 节点 数量 ; 而 非 对 称 式 集群 可 以 通过 引入 多 个 MDS 节 点 来 均 摊 
负载 。 在 节点 数量 较 少 ， 也 就 是 在 对 称 式 集群 的 可 容忍 范围 之 内 时 ， 
对 称 式 集群 由 于 每 个 节点 都 可 以 充当 非 对 称 式 集群 中 MDS 的 角色 ， 所 
以 往往 能 够 表现 出 更 好 的 性 能 。 


15.9.3 ”自助 型 与 服务 型 集群 


上 面 图 示 中 的 拓扑 结构 均 为 “自助 型 "文件 系统 集群 。 何 谓 “ 自 助 
型 "， 顾 名 思 义 ， 也 就 是 谁 用 谁 束 形成 集群 ， 目 我 集群 ， 自 种 自 收 。 比 
如 有 个 视频 编辑 应 用 集群 ，100 台 PC Server， 每 个 节点 上 装 有 视频 编 
辑 程序 ， 形 成 了 应 用 集群 ， 现 在 这 些 节点 想 使 用 一 种 集群 文件 系统 来 


共享 地 访问 系统 内 的 所 有 文件 ， 那 么 就 可 以 在 这 些 应 用 节点 上 直接 安 
装 部 署 集群 文件 系统 ， 应 用 集群 同时 也 变 成 了 文件 系统 集群 ， 每 个 节 
点 既是 形成 集群 的 服务 者 ， 同 时 还 是 数据 的 生产 者 (数据 由 其 上 的 应 
用 程序 生产 ) ， 同 时 又 是 直接 访问 底层 文件 数据 的 消费 者 ， 这 就 是 所 


谓 “ 目 助 型 ”的 含义 。 


那么 再 来 看 看 图 15-77 所 示 的 拓扑 染 构 ， 框 内 的 是 一 个 集群 文件 系 
统 ， 框 外 又 增加 了 一 排 客户 端 主机 ， 左 右 两 侧 分 别 为 对 称 式 和 非 对 称 
式 集群 。 在 这 个 拓扑 中 ， 集 群 内 的 服务 节点 目 身 并 不 是 数据 的 消费 
者 ， 而 只 是 服务 者 、 提 供 者 ， 而 集群 之 外 的 客户 端 主 机 通过 某 种 访问 
协议 来 访问 集群 内 的 文件 数据 。 这 就 是 所 谓 “ 服 务 型 集群 文件 系统 ”。 


图 15-77 服务 型 集群 文件 系统 架构 


为 何 会 出 现 服务 型 文件 系统 集群 呢 ? 自助 型 不 是 很 好 么 ? 还 市 约 
了 服务 器 主机 的 数量 。 究 其 原因 主要 有 如 下 两 个 。 


= 降低 成 本 。 自 助 型 集群 中 每 个 节点 均 需 要 高 速 1O 适 配器 比如 FC 
来 访问 阵列 存储 空间 ， 随 着 集群 规模 扩大 ， 适 配 卡 、 交 换 机 、 
线 绕 等 的 成 本 不 断 攀 升 。 

可 以 接 入 更 多 的 客户 端 。 服 务 型 集群 可 以 用 较 少 的 集群 节点 服 
务 于 较 多 的 客户 端 主机 。 集 群 内 部 的 沟通 成 本 可 以 控制 ， 实 现 
高 速 高 效 。 同 时 外 部 客户 端 之 间 不 需要 互相 沟通 ， 所 以 客户 端 
数量 可 以 大 幅 增 加 。 对 于 上 自助 型 集群 ， 如 果 节 和 点 数量 太 多 的 
话 ， 集 群 内 部 沟通 信息 量 以 及 复杂 度 将 会 成 几何 数量 上 升 ， 不 
利于 扩充。 


15.9.4 ”SPI 与 SFI 型 集群 


为 了 实现 集群 所 必须 实现 的 Single Name Space， 有 两 种 方式 ， 如 
图 15-78 所 示 。 


图 15-78 ”SFI 与 SPI 集 群 文件 系统 架构 


= 懒 人 做 法 : 既然 每 个 节点 上 都 有 各 自 的 文件 系统 ， 我 就 把 他 们 
输出 的 路 径 虚 拟 化 一 下 ， 倒 一 下 手 ， 集 中 管理 起 来 ， 然 后 再 次 
向 外 输出 成 一 个 Single Path Image (SPI) 。 我 只 管 路 径 统一 ， 
不 管 文件 放 在 哪里 。 典 型 代表 : 微软 的 DFS。 

" 勤快 人 做 法 : 每 个 节点 都 知道 所 有 文件 的 位 置 ， 在 文件 系统 底 
层 进 行 整合 而 不 是 表层 的 路 径 整 合 ， 即 Single Filesystem Image 

(SFI) 。 典 型 代表 : CFS 等 大 多 数 集群 FS。 


一 分 耕耘 一 分 收获 ，SFI 可 以 做 到 将 一 个 文件 切 开 分 别 存放 到 各 个 
节点 中 ; 而 SPI 无 法 做 到 。 但 有 时 也 不 得 不 服 投机 取 巧 的 效果 : SFI 往 
往 扩展 能 力 有 限 ， 而 SPI 则 可 以 整合 大 量 的 路 径 (节点 ) 。 


因为 对 于 SFI 模 式 的 集群 FS ， 其 节点 之 间 需 要 时 刻 同步 各 种 复杂 
的 状态 ， 每 个 节点 所 维护 的 状态 机 非常 复杂 ， 同 步 这 些 状 态 需 要 不 少 
通信 量 ， 但 是 外 部 网 络 速度 永远 比 不 上 内 存 速度 ， 所 以 这 些 通信 会 增 
加 每 个 节点 状态 机 变化 的 延迟 ， 导 致 处 理 速 度 有 所 降低 。 尤 其 是 当 节 
点 数量 增多 时 ， 比 如 几 十 个 甚至 上 百 个 ， 那 么 对 于 SFI 模 型 的 汲取 FS 
来 讲 就 是 梦 族 了 ， 几 十 个 状态 机 之 间 的 相互 协作 ， 加 上 外 部 网 络 带 来 
的 延 运 ， 此 时 所 有 这 些 劣 势 将 会 加 成 ， 可 能 导致 性 能 不 升 反 降 。 而 SPI 
模式 的 集群 FS 就 没有 这 个 问题 ， 节 点 之 间 相 互 独 立 ， 所 以 需要 同步 的 
言 息 很 少 ， 如 果 主 机 端 不 使 用 特殊 客户 端 访问 ， 而 只 是 通过 传统 的 


ee 点 间 可 能 会 出 现实 际 数据 的 交 
换 ， 此 时 就 需要 一 个 高 速 的 内 部 交换 矩阵 才能 获得 较 高 的 性 能 。 


15.9.5“” 串 行 与 并 行 集群 


II Gd ina i 
供 的 数据 : 第 一 种 是 串 行 方式 ， 即 客户 端 通过 挂 载 集 群 中 某 个 节点 所 
并 行 访问 方式 ， 首 先 客 户 端 初始 时 也 是 通过 集群 中 的 某 个 节点 挂 载 对 
应 的 输出 目录 ， 但 是 挂 载 之 后 ， 客 户 端 只 通过 这 个 节点 来 获取 待 访问 
文件 的 元 数据 信息 〈 见 图 15-76 所 示 的 过 程 ) ， 得 到 文件 对 应 的 块 地 址 
等 信息 之 后 ， 客 户 端 可 以 直接 利用 所 获得 的 信息 访问 集群 中 的 其 他 节 
点 来 访问 对 应 的 数据 ， 如 果 某 两 个 文件 分 别 存放 在 集群 中 不 同 的 节 
点 ， 或 者 某 个 文件 被 分 散 存放 在 多 个 节点 中 ， 那 么 客户 端 可 以 并 行 地 
访问 这 多 个 节点 从 而 并 行 地 读 写 对 应 的 文件 。 

图 15-79 所 示 为 对 称 / 非 对 称 式 两 种 模式 并 行 访问 文件 系统 集群 架 
构 示 意图 。 如 图 15-80 所 示 为 一 个 非 对 称 式 集群 并 行 访问 过 程 中 的 示意 
图 。 图 中 的 OID 表 示 对 象 存 储 协 议 中 的 Object ID。 对 于 并 行 访 问 集群 
来 讲 ， 客 户 端 一 般 是 采用 对 象 存储 协议 来 访问 集群 中 的 数据 节点 的 
(比如 Lustre、Panasas 等 ) ， 当 然 ， 也 有 依然 采用 NFS 方 式 来 并 行 访 
问 集群 中 数据 节点 的 (比如 Ibrix 的 Fusion Client) 。 

图 15-79 ”两 种 并 行 访问 模式 


图 15-80 ”并 行 访问 集群 时 的 步 又 示意 图 


并 行 访问 集群 与 品行 访问 集群 对 比如 下 。 


。 在 单条 链 路 速率 相同 的 情况 下 ， 并 行 永远 强 于 串 行 。 

a 目前 前 端 客户 端 一 般 都 是 用 1GbE 以 太 网 来 访问 集群 ， 如 果 是 串 
行 方式 ， 客 户 端 只 能 与 一 个 节点 通过 这 条 链 路 通信 ， 如 果 这 个 
节点 的 处 理 能 力 不 足 或 者 本 地 带宽 饱和 ， 那 么 对 应 的 客户 端 所 
获得 的 数据 带宽 也 就 会 受 限 ， 可 能 连 1Gb 带 宽 都 远 未 达到 。 为 
此 ， 让 这 个 客户 端 并 行 地 与 多 个 节点 通信 来 访问 数据 ， 则 可 以 
最 大 程度 地 饱和 链 路 带宽 。 实 际 测试 显示 ，10GbE 的 链 路 下 ， 
单条 NFS 流 远 远 无 法 满足 带宽 ， 最 差 时 可 能 只 有 10% 的 带宽 能 
够 利用 。 这 也 是 之 后 pNFS 并 行 访问 协议 被 引入 的 原因 。 


提供 并 行 访问 能 力 的 集群 典型 代表 : Ibrix、EMC MPFS、Lustre、 
Panasas。 基 本 上 所 有 的 集群 文件 系统 都 提供 并 行 访问 客户 端 。 


15.9.6 ”集群 /并 行 /分 布 式 /共享 文件 系统 各 论 


大 家 平时 可 能 听 到 过 多 种 叫 法 : 集群 文件 系统 、San 共 享 文件 系 
统 、 分 布 式 文件 系统 、 并 行文 件 系 统 是 四 种 主流 的 叫 法 ， 那 么 这 些 概 
念 之 间 到 底 有 什么 联系 呢 ? 


"San 共享 式 文件 系统 : 其 实 这 种 叫 法 狭义 上 指 的 就 是 自助 型 、 共 
享 存储 型 的 集群 文件 系统 。 广 义 上 则 也 可 以 泛 指 共享 存储 型 的 
集群 文件 系统 ， 可 以 是 自助 型 ， 也 可 以 是 服务 型 。 但 是 最 常用 
的 还 是 诸如 Stornext 和 IBM SanFS 这 样 的 自助 型 共享 存储 集群 。 
San 共 享 文件 系统 又 可 被 简称 为 “San 文 件 系统 ”。 Stornext 的 
SNFS 共 享 文件 系统 最 新 版 本 已 经 发 布 了 Distributed Lan Client 

(DLC) ， 从 自助 型 转向 了 服务 型 ，DLC 可 以 让 集群 外 的 客户 
端 并 行 地 访问 集群 节点 ， 也 就 是 并 行文 件 系 统 所 提供 的 并 行 访 
问 客户 端 代理 程序 。 


" 分布 式 文件 系统 : 同一 个 文件 系统 下 的 文件 (或 者 同一 个 文件 
的 多 个 部 分 ) 不 是 被 放 在 单一 节点 内 ， 而 是 被 分 开 存 放 在 多 个 
节点 之 内 ， 这 就 是 所 谓 “ 分 布 式 ” 的 意义 。 分 布 式 与 共享 式 是 对 
立 的 ， 所 以 分 布 式 文件 系统 等 价 于 非 共享 存储 型 的 集群 文件 系 


统 。 


并 行文 件 系 统 : 可 以 提供 并 行 访问 的 集群 文件 系统 。 客 户 端 访 
问 这 些 被 分 开 存 放 的 文件 时 ， 可 以 直接 从 多 个 节点 并 行 地 读 取 
多 个 文件 ， 或 者 一 个 文件 的 多 个 部 分 ， 也 就 是 并 发 地 直接 从 存 
有 对 应 数据 的 节点 上 来 读 写 这 些 数 据 ， 这 就 是 所 谓 * 并 行 ”。 相 
对 于 并 行 的 是 串 行 ， 串 行文 件 系统 ， 就 是 指 客户 端 只 能 从 所 有 
世 点 中 的 一 个 节 点 来 读 写 所 有 数据 ， 如 果 需 要 恋 写 的 效 据 不 在 
所 连接 的 节点 上 ， 那 么 需要 由 这 个 节点 来 向 存 有 对 应 数据 的 节 
点 发 起 请 求 ， 将 数据 从 对 应 的 节点 通过 内 部 交换 矩阵 传输 过 来 
之 后 ， 再 传递 给 客户 端 。 也 就 是 说 数据 是 串 行 地 传输 的 。 分 布 
不 一 定 并 行 ， 但 是 并 行 一 定 是 分 布 的 。 并 行文 件 系统 均 需 要 在 
主机 客户 端 安装 一 个 代理 ， 或 者 一 个 新 的 文件 系统 挂 载 器 ， 用 
来 专门 实现 并 行 访问 。 

集群 文件 系统 : 分 布 式 文件 系统 、 并 行文 件 系统 、 共 享 式 文 件 
系统 ， 三 者 统称 集群 文件 系统 。“ 分 布 式 * 和 “共享 式 ” 措 的 是 集 
群 中 数据 分 布 的 方式 ， 而 “并 行 ” 指 的 是 用 户 对 这 些 数 据 的 访问 
方式 。 分 布 、 访 问 ， 两 个 层面 ， 两 种 含义 。 


15.9.7 ”集群 NAS 系 统 的 三 层 架 构 


这 里 再 提 一 下 集群 NAS。 一 个 集群 NAS 系 统 其 实 可 以 被 分 为 三 层 
架构 ， 第 一 层 是 底层 存储 空间 层 ， 这 一 层 可 以 是 Share Everything ( 共 
享 型 ) 或 者 Share Nothing 《〈 非 共享 型 ) 两 种 模式 ; 第 二 层 是 集群 FS 


层 ， 集 群 FS 层 建 立 在 底层 任何 一 种 模式 (共享 或 者 非 共享 型 的 存储 
空间 之 上 ， 这 一 层 可 以 做 成 Single Path Image 和 Single Filesystem 
Image。 对 应 第 一 层 ， 第 一 层 模 式 为 Share Everything 的 一 般 都 在 第 二 层 
使 用 Single Filesystem Image 模 式 ; 而 第 一 层 使 用 Share Nothing 模 式 
的 ， 第 二 层 既 可 以 使 用 Single Path Image 模 式 ， 也 可 以 使 用 Single 
Filesystem Image 模 式 。 第 三 层 就 是 NAS 协 议 输出 层 了 ， 这 一 层 有 四 种 
访问 模式 : 传统 CIFS、 传 统 NFS、pNFS 并 行 客户 端 以 及 私有 客户 端 。 
后 两 者 可 以 并 行 访 问 ， 前 两 者 只 能 串 行 访问 。 


15.9.8 ”实际 中 的 各 种 集群 拓扑 一 览 


上 面 介绍 了 5 大 类 共 10 种 不 同 角度 的 集群 文件 系统 架构 ， 利 用 这 10 
种 不 同 的 方式 ， 可 以 两 两 组 合成 任意 模式 的 集群 文件 系统 。 下 面 列 一 
下 实际 中 主要 的 集群 FS 拓扑 。 


1。 直 连 后 端 FC/ISCSI SAN 


这 种 形式 的 集群 文件 系统 就 是 上 文 所 述 的 SAN 共 享 文件 系统 。 客 
户 端 代理 程序 在 查询 MDC 得 到 信息 后 直接 访问 后 端的 SAN 磁 盘 阵 列 ， 
查询 MDC 的 时 候 走 前 端 以 太 网 ， 执 行 实际 IO 请 求 的 时 候 走 后 端 FC 
网 ，IO 请 求 遵 循 SCSI3 SBC 纯 磁盘 级 块 协议 ， 如 图 15-81 所 示 。 这 种 模 
式 的 集群 文件 系统 典型 代表 有 : Stomext SNFS、EMC MPFS、IBM 
SanFSo 


图 15-81 ” 直 连 后 端 FC/ISCSI SAN 


2。 引 入 IO 节点 


在 上 图 中 再 插入 一 层 处 理 模块 ， 将 后 端的 LUN 虚 拟 化 管理 起 来 ， 
然后 再 通过 另外 一 种 形式 进行 输出 从 而 被 客户 端 以 另外 的 方式 访问 ， 
那么 系统 的 以 构 如 图 15-82 所 示 。 如 果 在 LUN 上 层 引 入 一 种 对 象 存 储 网 
关 设 备 ， 那 么 客户 端 就 需要 使 用 支持 OSD 协 议 的 客户 端 代 理 ， 比 如 
pNFS 客 户 端 ， 如 果 引 入 一 种 厂商 自行 开发 的 私有 设备 ， 比 如 Ibrix 的 
Segment Server， 那 么 客户 端 也 需要 安装 相应 的 代理 程序 ， 如 果 被 引入 
的 是 一 个 NAS 头 ， 那 么 客户 端 只 需要 使 用 标准 的 NFS 或 者 CIFS 客 户 端 
即 可 。 至 于 引入 IO 节 点 的 原因 和 优势 ， 请 参考 后 文 的 论述 。 这 种 模式 
的 典型 代表 有 : Panasas、Lustre、Ibrix。 其 中 Panasas 使 用 标准 的 OSD 
节点 以 及 pNFS 协 议 ; Lustre 则 也 是 用 OSD 节 点 ， 但 是 客户 端 并 非 使 用 
标准 pNFS 协 议 访 问 ， 而 是 一 种 私有 协议 ;Ibrix 则 使 用 独自 设计 的 IO 节 
点 ， 客 户 端 代理 也 是 使 用 私有 协议 访问 IO 节 点 。 


图 15-82 ”引入 IO 节点 之 后 

3. 用 OSD 作 为 IO 节点 

同上 ， 其 结构 如 图 15-83 所 示 。 典 型 代表 : Panasas、Lustre。 
图 15-83 ”用 OSD 作 为 IO 节点 

4. 使 用 标准 pNFS 协 议 访问 IO 节 点 


见 上 文 ， 其 结构 如 图 15-84 所 示 。 典 型 代表 : Panasas。 (Pnasas 的 
IO 节点 并 非 连接 SAN 后 端的 LUN， 而 是 使 用 自己 本 地 的 磁盘 。 ) 


图 15-84 用 pNFS 协 议 访问 IO 节点 


5。 使 用 标准 NFS/CIFS 协 议 访问 IO 节 点 


如 图 15-85 所 示 为 一 个 Isilon 的 OneFS 架 构 简 图 。 其 实 并 不 复杂 ， 
Isilon 使 用 多 个 NAS 头 联合 起 来 组 成 一 个 集群 NAS 系 统 ， 每 个 NAS 头 都 
是 用 自己 本 地 磁盘 作为 存储 空间 ， 所 有 NAS 头 的 角色 都 相同 。 整 个 系 
统 可 以 做 到 Single Name Space， 访 问 任何 一 台 NAS 头 ， 就 可 以 访问 到 
全 局 的 数据 。 如 果 待 访问 的 目标 数据 不 在 所 连接 的 NAS 头 管辖 范围 
内 ， 那 么 对 应 的 NAS 头 会 通过 后 端的 以 太 网 或 者 IB 网 络 从 管辖 对 应 数 
据 的 那个 NAS 头 上 将 数据 取 过 来 然后 返回 给 客户 端 ， 写 也 是 类 似 动 
作 。 这 种 架构 本 身 并 没有 对 单 客户 端 或 者 单 文件 访问 的 速度 有 任何 加 
成 作用 ， 但 是 它 却 做 到 了 所 有 节点 平等 化 以 及 真正 的 全 局 命名 空间 。 


图 15-85 ”使 用 标准 NFS/CIFS 协 议 访问 IO 节 点 
6. 所 有 节点 角色 一 致 的 集群 系统 


见 图 15-61。 典 型 代表 : Ibrix、TIsilon。 这 种 模式 下 ， 和 集群 中 所 有 
的 节点 既 充当 IO 节 点 ， 又 充当 MDC 控 制 器 ， 访 问 任何 一 个 节点 均 可 访 
问 到 全 局 数据 。 


7. 所 有 IO 节 点 均 使 用 本 地 磁盘 的 集群 系统 


见 图 15-64。 典 型 代表 : Isilon、Panasas。Isilon 使 用 机 架 式 服务 
器 ，Panasas 使 用 刀片 服务 器 。 这 种 模式 下 ，IO 节 点 并 不 连接 后 端 第 三 
方 磁盘 阵列 来 获取 存储 空间 ， 而 是 使 用 每 个 刀片 或 者 机 架 中 本 地 的 磁 
盘 ， 利 用 大 量 的 节点 来 获取 高 容量 存储 空间 。 


综 上 所 述 ， 集 群 文件 系 统 其 实 最 后 演化 为 了 两 大 阵营 : 一 个 是 客 
户 端 直接 访问 后 端 SAN 的 模式 ， 另 一 个 则 是 在 客户 端 和 后 端 FC SAN 
LUN 之 间 引 入 基于 以 太 网 链 路 访问 的 IO 节 点 的 模式 。 后 者 又 可 以 根据 
客户 端 访问 IO 节点 使 用 协议 的 不 同 而 分 为 更 多 的 种 类 。 


两 大 阵营 各 有 利 浆 。 直 接 访 问 后 端 SAN 的 模式 下 ， 客 户 端 与 后 端 
的 磁盘 阵列 之 间 没 有 任何 其 他 处 理 模块 ， 所 以 其 IO 的 效率 是 最 高 的 ， 
而 且 加 上 FC 网 络 的 速度 ， 整 个 系统 的 速度 和 效率 均 较 高 。 但 是 相对 来 
讲 ， 其 成 本 也 将 随 着 客户 端 数 量 的 增 大 而 正比 增加 ， 因 为 目前 FC 适 配 
卡 的 价格 依然 居 高 不 下 ， 如 果 为 每 个 客户 端 安 装 一 块 或 者 两 块 FC 卡 ， 
也 是 一 笔 不 小 的 投资 。 此 外 ， 由 于 后 端的 LUN 皆 由 MDC 来 挂 载 和 管 
理 ， 而 系统 中 的 MDC 数 量 有 限 (目前 最 多 两 个 ) ， 所 以 一 旦 两 个 
MDC 都 出 问题 ， 那 么 整个 系统 就 瘫痪 了 。3 引 入 IO 节 点 之 后 ， 一 方面 客 
户 端 可 以 使 用 廉价 的 以 太 网 来 访问 IO 节 点 了 ， 人 花费 降低 ; 另 一 方面 ， 
对 于 像 Ibrix 这 种 架构 ， 所 有 节点 都 同时 作为 MDC 和 IO 节 点 ，IO 节 点 本 
身 可 以 共享 访问 后 端 所 有 的 LUN， 所 以 一 旦 某 个 IO 节点 故障 ， 那 么 其 
他 任何 一 个 IO 节点 就 可 以 接管 故障 节点 之 前 所 挂 载 的 LUN 以 及 文件 系 
统 ， 继 续 提供 服务 ， 只 要 系统 中 还 剩 下 一 个 10 节 点 /MDC， 那 么 整个 
系统 就 不 会 瘫痪 ， 也 就 是 说 ， 这 种 模式 下 的 系统 容错 率 高 了 很 多 。 但 
是 ， 随 之 而 来 的 问题 就 是 IO 效率 相对 低 了 ， 以 及 客户 端 IO 速度 的 限 
制 ， 以 太 网 毕竟 只 有 1Gb/s 的 速度 ， 在 单 客户 端 或 者 单 文件 访问 的 情况 
下 ， 集 群 系统 显示 不 出 多 少 优势 ， 但 是 直接 访问 后 端 SAN 的 模式 下 ， 
不 管 是 单 客 户 端 还 是 单 文件 访问 ， 其 依然 能 够 达到 较 高 的 速度 。 


提示 : 关于 单 客户 端 和 单 文 件 访问 的 问题 ， 下 文 会 有 更 详细 


的 论述 。 


15.10 “” 带 外 共享 SAN 文 件 系统 


在 广电 领域 经 常会 用 到 一 种 架构 ， 就 是 带 外 共享 文件 系统 。 这 种 
架构 允许 多 台 主 机 共享 访问 同一 个 或 者 一 批 Lun， 但 是 必须 在 一 个 特 
殊 的 文件 系统 的 协调 下 进行 ， 这 个 文件 系统 掌握 全 局 的 文件 系统 元 数 
据 ， 每 台 主 机 虽然 可 以 直接 读 写 Lun， 但 是 在 读 写 之 前 必须 询问 和 经 
过 这 个 文件 系统 的 同意 ， 文 件 系统 会 告诉 主机 应 该 怎么 访问 以 及 访问 
哪些 地 方 。 


15.10.1 ”SAN 共享 文件 系统 


多 主机 能 否 同 时 读 写 同一 个 LUN 中 的 文件 而 同时 保证 数据 一 致 
性 ， 一 直 是 很 多 人 在 反复 问 的 问题 ， 答 案 也 是 固定 的 ， 即 必须 通过 使 
用 特定 的 共享 式 文 件 系统 来 实现 。 即 便 所 有 客户 端 主机 同时 使 用 DIO 
十 WriteThrough 模 式 的 IO 方式 来 访问 对 应 的 文件 ， 由 于 文件 的 Metadata 
始终 是 被 缓存 在 所 有 客户 端 节点 的 ， 而 DIO 和 WT 是 不 能 把 Metadata 也 
同步 刷 入 磁盘 的 ， 所 以 这 种 做 法 只 适用 于 Metadata 永 不 改变 的 情况 
下 ， 而 且 性 能 也 得 不 到 保证 。 


这 个 问题 的 本 质 原 因 就 是 因为 整个 系统 内 存在 多 个 独立 的 文件 系 
统 逻 辑 ， 即 每 个 客户 端 都 要 维护 自己 的 文件 系统 缓存 ， 而 它们 之 间 又 
互 不 通信 ， 各 做 各 的 。 那 么 很 显然 ， 解 决 这 个 问题 的 根本 办 法 ， 就 是 
让 整个 系统 内 只 存在 一 份 文 件 系 统 逻 辑 和 缓存 。 这 种 做 法 的 一 个 例子 
就 是 NFS 或 者 CIFS 等 NAS 协 议 访问 方式 ， 全 局 的 文件 都 由 一 台 单 一 的 
NAS 服 务 器 来 处 理 ， 客 户 端 不 需要 处 理 文 件 系统 逻辑 。 这 样 的 话 ， 只 
要 客户 端 应 用 使 用 同步 10 调 用 ， 即 可 完全 保证 数据 一 致 性 了 。 


至 此 ， 多 主机 共享 访问 同一 个 LUN 下 面 的 文件 的 问题 ， 有 了 一 种 
解决 办 法 ， 即 使 用 NAS。 然 而 ， 还 有 另外 一 种 办 法 ， 即 保持 客户 端的 
访问 协议 和 底层 链 路 速度 不 变 ， 直 接 把 多 余 的 文件 系统 实例 去 除 掉 ， 
只 保留 一 份 文 件 系 统 逻 辑 。 这 种 思想 也 就 演变 为 了 共享 式 SAN 文 件 系 
统 了 。 


如 图 15-86 所 示 ， 左 侧 为 整个 系统 原先 的 架构 ， 多 个 主机 共同 访问 
同一 个 LUN 中 的 文件 ， 会 产生 数据 不 一 致 ， 因 为 每 台 主 机 都 各 自 为 
政 ， 当 任意 一 台 客 户 端 打 算 访 问 目标 文 件 的 时 候 ， 它 们 各 自 会 向 自身 
内 存 中 的 文件 系统 发 起 请 求 ， 从 而 执行 1O 操 作 。 


图 15-86 ”传统 文件 系统 与 AN 文件 系统 比较 


右边 所 示 的 架构 则 为 进化 之 后 的 架构 ，5 台 客户 端 中 的 4 台 上 的 文 
件 系统 管理 逻辑 被 剔除 《所谓 被 剔除 ， 并 不 是 说 将 操作 系统 中 的 文件 
系统 去 掉 ， 而 是 引入 一 个 可 挂 载 的 新 文件 系统 ) ， 只 在 其 中 一 个 客户 
端 主机 上 保留 了 一 份 。 当 其 他 4 个 客户 端 需要 访问 文件 的 时 候 ， 由 于 对 
应 的 文件 系统 已 经 不 在 本 地 了 ， 而 位 于 第 5 个 客户 端 之 上 ， 所 以 它们 需 
要 通过 网 络 来 向 位 于 第 5 个 客户 端 上 的 文件 系统 发 起 请 求 (由 一 个 代理 
程序 模块 发 起 ) ， 也 就 是 图 示 的 以 太 网 络 。5 号 客户 端 上 的 文件 系统 接 
收 到 查询 请 求 之 后 ， 将 对 应 的 信息 ， 比 如 待 访问 部 分 所 对 应 的 LUN 以 
及 LUN 中 的 LBA 地 址 段 等 发 送 回 其 他 客户 端 ， 发 起 查询 请 求 的 客户 端 
收 到 这 些 数据 之 后 ， 需 要 自己 来 从 存储 设备 中 读 出 或 者 写 入 对 应 的 数 
据 块 。 


经 过 这 样 的 改造 ， 就 可 以 避免 同时 访问 时 造成 的 数据 不 一 致 状 
况 。 而 运行 唯一 文件 系统 管理 模块 的 那个 客户 端的 身份 也 进化 了 ， 我 


们 称 它 为 “Metadata Server” 或 者 “Metadata Controller” ， 即 MDS 或 者 
MDC。MDS 如 此 重要 ， 所 以 一 般 都 会 使 用 两 个 或 者 多 个 MDS 组 成 一 
个 HA 的 Failover 组 以 实现 容错 ， 有 些 甚 至 可 以 实现 双 Active 负 载 均衡 。 


至 此 ， 还 有 一 点 比较 重要 的 东西 需要 理解 ， 即 在 图 15-86 左 侧 所 示 
的 传统 方式 下 ， 数 据 的 查询 和 数据 的 IO 都 是 由 同一 个 客户 端 执行 的 ， 
而 右 侧 的 架构 中 碍 询 由 MDS 上 的 中 央 文 件 系 统 来 执行 ， 而 数据 IO 则 需 
要 每 个 客户 端 自 行 执行 《直接 访问 后 端 存储 设备 ， 无 须 经 由 MDS) 。 
这 一 点 与 单一 NAS 服 务 器 不 同 ，SAN 文 件 系 统 属 于 一 种 带 外 架构 ， 而 
单一 NAS 服 务 器 属于 带 内 架构 。 理 解 这 一 点 ， 是 理解 后 面 并 行 访问 集 
群 化 进化 的 关键 。 


15.10.2 ”针对 NAS 和 SAN 文 件 系统 的 并 行 化 改造 


由 于 传统 NAS 系 统 属于 带 内 架构 ， 所 以 NAS 前 端的 有 限 以 太 网 链 
路 以 及 单一 NAS 服 务 器 后 端的 带宽 限制 最 终 制约 了 单一 NAS 服 务 器 的 
性 能 ， 为 了 解决 这 个 问题 ， 集 群 NAS 以 及 对 应 的 并 行 访问 协议 比如 
pPNFS 等 被 开发 了 出 来 ，NAS 领 域 也 出 现 了 带 外 MDS 的 概念 。 客 户 端 使 
用 pNFS Client 向 MDS 查 询 待 访问 目标 的 位 置 等 信息 ， 得 到 信息 之 后 ， 
自行 向 目标 发 起 访问 。 与 单一 NAS 服 务 器 架构 不 同 的 是 ， 集 群 NAS 系 
统 中 存在 多 个 存储 节点 ， 客 户 端 可 以 同时 从 所 有 这 些 存储 节点 中 读 写 
数据 ， 这 就 是 所 谓 的 “并 行 访问 * 了 ， 所 以 也 就 是 一 个 集群 。pNFS 使 用 
了 OSD 来 作为 客户 端 与 存储 设备 之 间 交 互 的 协议 。 


同样 ，SAN 文 件 系 统 本 身 就 是 一 个 带 外 架构 ， 它 实现 并 行 集群 化 
访问 是 原生 就 支持 的 ， 只 要 在 系统 内 添加 更 多 的 存储 阵列 、 更 多 的 
LUN 即 可 。 如 图 15-87 所 示 为 集群 化 并 行 SAN 文 件 系统 和 集群 化 并 行 
NAS 系 统 的 示意 图 。 


图 15-87 集群 化 并 行 系统 示意 图 


我 们 分 析 到 这 里 就 可 以 发 现 ， 其 实 集群 NAS 和 和 SAN 共享 文件 系统 
这 两 者 的 本 质 是 一 样 的 ， 殊 途 同 归 ， 最 终 两 者 都 使 用 了 MDS 作 为 中 央 
单一 文件 系统 管理 者 ， 各 个 客户 端 使 用 对 应 的 代理 程序 (比如 pNFS 客 
户 端 、SAN 文 件 系统 客户 端 ) 来 直接 并 行 地 访问 存储 设备 。 只 不 过 在 
进化 的 过 程 中 ，SAN 文 件 系统 是 一 步 到 位 ， 而 NAS 则 经 历 了 比较 复杂 
的 帝 化 。 


集群 系统 的 再 进一步 进化 的 形态 ， 就 是 类 似 Ibrix 这 样 的， 任何 一 
个 节点 都 可 以 充当 MDS， 使 得 集群 中 的 每 个 节点 都 具有 相同 的 地 位 。 


经 过 集群 化 改造 之 后 ， 整 个 系统 变 成 了 彻底 的 Scale-Out 架 构 ， 随 
着 系统 内 部 存储 节点 的 增加 ， 客 户 端 所 获得 的 带宽 和 IOPS 也 就 可 以 线 
性 上 升 。 


15.10.3 ”SAN FS 实例 分 析 
下 面 我 们 就 来 看 一 下 一 个 SAN 文 件 系统 的 底层 架构 吧 。 
1。 核 心 本 地 文件 系统 EXFS 


如 图 15-88 所 示 为 该 SAN FS 的 底层 架构 简 图 。 其 中 MDC 上 的 核心 
基础 模块 为 一 个 被 命名 为 EXFS 文 件 系统 ，EXFS 是 一 个 Linux 上 的 纯 本 
地 文件 系统 ， 由 于 EXT3 存 在 诸多 限制 ， 所 以 这 个 厂商 自己 写 了 一 个 全 
新 的 EXFS 文 件 系 统 。EXFS 不 仅 具 有 文件 系统 的 基本 功能 ， 而 且 还 负 
责 卷 的 管理 和 挂 载 ， 相 当 于 一 个 集成 了 卷 管理 模块 的 文件 系统 ， 支 持 
管理 底层 最 多 4096 个 LUN， 而 且 支 持 在 线 扩容 。 可 以 在 线 向 对 应 的 文 


件 系统 内 添加 LUN， 当 用 户 需要 从 某 个 文件 系统 内 剔除 某 个 LUN 的 时 
候 ，EXFS 还 提供 了 对 应 的 工具 来 检测 哪些 文件 处 于 这 个 LUN 中 ， 从 而 
可 以 让 用 户 手动 地 将 文件 迁移 到 别处 ， 然 后 再 剔除 对 应 的 LUN。EXFS 
将 整个 文件 系统 的 元 数据 存放 到 一 个 或 者 多 个 专属 的 后 端 卷 中 存放 ， 
而 不 是 遍布 后 端 所 有 LUN ， 这 样 做 的 好 处 是 充分 保证 性 能 和 安全 性 。 


图 15-88 ”该 SAN FS 底层 架构 图 
此 外 ，EXFS 的 设计 在 文件 分 布 策略 方面 颇 有 考究 。 


提示 : EXFS 对 于 文件 的 分 布 给 出 了 三 种 方式 。 第 一 种 就 是 
完全 条 带 化 分 布 方式 ， 相 当 于 一 个 盲 RAID 0 模式 ， 每 个 具有 
一 定 尺寸 的 文件 都 被 拆 分 多 份 放 在 后 端的 多 个 LUN 中 。 这 种 
模式 对 于 单个 大 文件 的 单线 程 访问 具有 最 好 的 性 能 加 成 。 

第 二 种 则 是 纵向 分 布 模式 。 在 本 书 的 “IO 路 径 及 优化 ”相关 章 
节 中 曾经 详细 分 析 过 盲 RAID 0 所 存在 的 问题 ， 即 多 文件 /LUN 
并 发 的 时 候 ， 性 能 又 降 。 而 这 对 于 数字 媒体 系统 是 致命 的 ， 
会 直接 导致 视频 播放 的 卡 壳 。 针 对 于 此 ，EXFS 可 以 实现 将 一 
个 文件 存放 在 一 个 LUN 中 ， 下 一 个 文件 存放 在 下 一 个 LUN 
中 ， 以 此 类 推 。 这 样 就 可 以 保证 并 发 访问 多 个 文件 的 时 候 ， 
不 会 产生 LUN 的 IO 冲突 ， 当 然 这 些 LUN 在 底层 也 最 好 要 位 于 
不 同 的 磁盘 组 中 ， 最 终 IO 冲 突 的 是 磁盘 而 不 是 LUN。 

第 三 种 则 是 为 了 配合 MAID 技 术 而 生 的 ，MAID 可 以 让 长 期 没 
有 IO 访问 的 磁盘 的 盘 片 停止 旋转 从 而 节 电 。EXFS 在 存储 文件 
的 时 候 可 以 将 文件 先 存 满 一 个 LUN， 然 后 再 存储 到 下 一 个 
LUN， 以 此 类 推 。 这 样 ， 其 他 没有 存储 文件 的 LUN 所 对 应 的 
磁盘 就 可 以 停止 旋转 了 。 但 是 这 种 分 布 方 式 会 影响 性 能 。 

用 户 可 以 根据 自己 的 需求 来 选择 不 同 的 分 布 模式 。 


2。 MDC 上 的 信息 传递 员 一 -NEFS Daemon 和 Layout Daemon 


有 了 EXFS 这 个 核心 之 后 ， 必 须 还 要 有 一 个 负责 将 文件 系统 元 数据 
言 息 传递 给 客户 端 上 的 代理 程序 的 角色 。 很 显然 ， 这 种 角色 早 就 存在 
了 ， 上 比如 NFS 网 络 文件 系统 ， 客 户 端 可 以 通过 一 系列 的 RPC Call ( 比 
如 GETATITTRO、EFSINFOO、FSSTATO 等 ) 来 向 服务 端 查询 文件 的 各 种 
属性 。 该 文件 系统 并 没有 沿用 传统 的 NFS 服 务 端 式 的 带 内 模式 ， 而 是 
在 它 上 面 进行 了 改进 ， 增 加 了 一 个 新 层次 来 实现 更 多 的 功能 〈 见 下 
文 ) 。 从 这 个 角度 上 来 看 ，MDC 相 当 于 一 台 带 外 的 NFS 服 务 器 。 


提示 : Ibrix 以 及 其 他 多 个 集群 FS 厂商 的 MDC 节 点 其 实 也 是 
使 用 NFS Daemon 来 负责 接收 客户 端的 查询 请 求 ， 同 样 ，Ibrix 
Fusion Client 的 底层 也 必须 依靠 NFS Client。 不 同 的 是 ，Ibrix 
在 Windows 上 直接 使 用 了 微软 提供 的 SFU/SUA 来 作为 NFS 
Cliento 


这 种 特制 的 服务 端 与 传统 的 NFS 服 务 器 有 一 点 最 大 不 同 ， 那 就 是 
客户 端 针对 文件 的 实际 数据 IO 操作 (对 应 着 NFS 协 议 中 的 READ()、 
WRITEO 等 ) 并 不 发 送 给 MDC 来 处 理 ， 因 为 如 果 连 实际 IO 都 要 MDC 来 
处 理 的 话 ， 那 整个 系统 真 的 就 与 NAS 无 异 了 。 所 以 MDC 上 的 改进 后 的 
NEFS 服 务 端 模块 并 不 处 理 实际 数据 IO ， 而 只 负责 应 答 文 件 的 其 他 属性 
信息 。 既 然 需要 客户 端 自行 向 后 端的 LUN 发 起 实际 IO 操作 ， 那 么 客户 
端 就 必须 知道 对 应 的 文件 段 到 底 存 放 在 哪个 LUN 的 哪些 Block 中 。 这 些 
言 息 只 有 MDC 上 的 EXFS 才 知道 ， 需 要 将 这 些 信息 传达 给 客户 端 ， 而 
传统 NFS 服 务 端 并 不 具备 这 种 功能 ， 所 以 需要 另外 一 个 模块 专门 传达 
这 种 文件 一 块 映射 信息 ， 这 个 模块 就 是 被 新 加 入 的 层次 


Daemono 


Layout 


比如 ， 客 户 端 将 某 个 SAN FS 文件 系统 挂 载 到 了 /mnt 下 ， 某 时 刻 客 
户 端 某 应 用 程序 发 起 “ 读 取 /mnt/a.txt 的 从 Byte1024 到 Byte2048 之 间 的 字 
节 ” 这 种 请 求 的 话 ， 那 么 客户 端 上 的 代理 首先 要 向 MDC 上 的 Layout 
Daemon 查 询 以 获取 到 /mnt/a.txt 的 Byte1024 到 Byte2048 这 上段 字 节 对 应 在 
后 端 LUN 的 具体 Block 地 址 (当然 同时 也 可 能 会 向 MDC 上 的 服务 端 查 
询 一 些 此 文件 的 其 他 属性 信息 ) 。 对 于 追加 与 请 求 ，MDC 首 先进 行 空 
间 分 配 ， 然 后 将 分 配 之 后 的 存储 空间 地 址 信息 通知 给 客户 端 ， 客 户 端 
向 目标 地 址 做 写 入 动作 。 


Layout Daemon 是 MDC 上 负责 与 Client 端 通信 的 使 者 ， 它 与 Client 
端 之 间 的 交互 协议 一 部 分 是 类 似 NFS 的 协议 ， 另 一 部 分 则 是 私有 协 
议 。 


3。 客户 端 上 的 元 数据 信息 获取 者 一 一 eNFS 模 块 


eNFS 的 取 名 意 为 Enhanced/Extended NFS。eNFS 模 块 相当 于 客户 
端 上 的 NFS Client， 但 是 它 比 普通 NFS Client 多 出 一 部 分 功能 ， 也 就 是 
它 除了 需要 与 MDC 上 的 改良 NFS 服 务 端 通 信之 外 ， 还 需要 与 Layout 
Daemon 交 互 以 获取 实际 Block 地 址 段 信息 。 在 获取 到 实际 地 址 信息 之 
后 ，eNFS 便 将 这 些 信息 传递 给 另外 一 个 下 层 模块 VDMAP。 


eNFS 的 作用 方式 和 思想 与 pNFS 类 似 ， 这 也 是 其 名 日 eNFS 的 原 
因 。 


4. 客户 端 上 的 实际 10 执行 者 一 VDMAP 模 块 


VDMAP， 即 Virtual Disk MAP。 它 的 一 个 作用 是 管理 和 了 映射 底层 
的 LUN， 作 为 一 个 简单 的 卷 管理 器 。 另 外 ， 这 个 模块 还 负责 执行 最 终 


由 eNFS 下 发 的 块 级 别 IO 信 息 。 这 个 模块 有 两 种 形态 : 第 一 种 是 可 以 直 
接 访问 后 端 LUN 的 客户 端 所 具有 的 形态 ; 第 二 种 则 是 无 法 直接 访问 
LUN 的 客户 端 所 具有 的 形态 。 对 于 无 法 直接 访问 LUN 的 客户 端 ， 其 上 
的 VDMAP 模 块 可 以 向 前 者 的 VDMAP 模 块 发 起 IO 请 求 ， 由 前 者 代为 执 
行 对 相应 卷 的 IO。 


思考 : 不 知道 读者 有 没有 感觉 到 ， 其 实 文 件 级 的 集群 存储 系 
统 的 架构 ， 不 管 是 有 IO 节点 的 还 是 直 连 SAN 访 问 的， 它们 本 
质 上 是 殊途同归 的 ,不管 使 用 什么 样 的 协议 ， 什 么 样 的 架 
构 ， 什 么 样 的 硬件 ， 其 实 它 们 的 本 质 思想 就 是 MDC 十 并 行 直 
接 访 问 。 


另外 ， 可 以 将 SAN 文 件 系统 看 作 是 一 个 NAS 系 统 的 改进 产品 。 这 
个 结论 可 能 让 人 大 跌眼镜 ， 将 NAS 变 为 SAN， 然 后 还 改进 ? 可 是 事实 
就 是 如 此 。 所 以 说 ， 存 储 领域 的 协议 本 来 就 是 相通 的 ， 本 质 是 殊 途 同 
归 的 。 


15.11 集群 的 本 质 一 一 一 种 自 组 自控 轮回 的 Raid 


纵 观 集群 SAN 与 集群 NAS 系 统 ， 是 否 可 以 提取 出 一 些 共 性 的 、 最 
纯粹 的 东西 来 呢 ? 如 图 15-89 所 示 ， 左 边 为 一 台 传 统 的 双 控 制 器 的 磁盘 
阵列 系统 精简 架构 图 ， 两 个 控制 器 通过 FCAL 或 者 SAS 网 络 共同 控制 着 
后 端的 多 块 磁盘 ， 多 块 磁盘 组 成 某 种 Raid 类 型 ， 比 如 Raid 10、Raid 5 
等 ， 数 据 被 均衡 打 散 地 分 布 到 Raid 组 中 的 所 有 磁盘 中 ; 而 右边 则 是 
IBM XIV 集 群 存储 系统 的 精简 染 构 图 ， 可 以 看 到 两 者 有 什么 类 似 了 
么 ? 


图 15-89 ”集群 存储 系统 的 本 质 (1) 


先 看 看 拓扑 图 : 前 者 是 控制 器 与 磁盘 通过 某 种 网 络 比如 FCAL 或 
者 SAS 来 连接 通信 ， 后 者 是 前 端 节点 与 后 端 节点 也 通过 某 种 网 络 连 接 
通信 。 再 来 看 IO 执行 过 程 ， 前 者 的 数据 IO 过 程 是 : 控制 器 将 IO 下 发 给 
各 个 磁盘 ， 磁 盘 执行 IO， 将 结果 返回 给 控制 器 ， 控 制 器 再 将 结果 返回 
给 主机 ; 而 后 者 执行 IO 过 程 的 过 程 是 : 前 端 接口 节点 接受 主机 的 IO 请 
求 ， 将 IO 下 发 给 自身 磁盘 或 者 后 端 数据 控制 器 节点 ， 自 身 磁盘 或 者 后 
端 数 据 控制 器 节点 执行 IO， 将 结果 返回 给 前 端 接口 控制 器 ， 接 口 控制 
器 再 将 结果 返回 给 主机 。 可 以 看 到 这 两 者 执行 1O 的 过 程 是 类 似 的 。 那 
么 再 来 看 看 数据 分 布 的 方式 ，XIV 在 所 有 磁盘 中 打 散 分 布 数据 ， 本 质 
上 是 一 种 Raid 10; 而 前 者 如 果 做 成 Raid 10， 那 么 也 是 将 数据 同样 打 散 
分 布 。 两 者 的 区 别 则 是 : 前 者 是 控制 器 将 IO 下 发 给 磁盘 ， 而 后 者 则 是 
前 端 控制 器 节点 将 IO 下 发 给 后 端 控制 器 而 不 是 直接 下 发 给 后 端 磁盘 。 


如 图 15-90 所 示 为 其 他 典型 集群 场景 ， 是 否 可 以 认为 所 有 控制 器 组 
成 了 一 个 大 的 Raid 系 统 呢 ? 当然 可 以 ! 每 个 控制 器 下 面 的 磁盘 做 成 
Raid， 然 后 多 个 控制 之 间 再 做 成 Raid 0， 或 者 全 局 磁盘 做 成 一 个 灵活 的 
Raid 10。 


图 15-90 ”集群 存储 系统 的 本 质 (2) 


那么 是 不 是 可 以 抽象 成 三 个 角色 的 两 个 层次 : 第 一 层 Raid 和 第 二 
层 Raid、 第 一 层 网 络 和 第 二 层 网 络 、 第 一 层 控 制 器 和 第 二 层 控制 器 ? 
所 谓 第 二 层 控制 器 是 指 集群 功能 本 身 这 个 “虚拟 控制 器 ”。 


提示 : 目前 有 不 少 厂商 的 宣传 用 语 中 已 经 出 现 了 “网 络 Raid” 
这 个 名 词 ， 其 实 就 是 指 一 种 轮回 的 表现 。 那 么 我 们 是 不 是 可 
以 说 ， 集 群 就 是 网 络 上 的 Raid， 也 就 是 Redundant Array of 
Independent Node, Rain? 


15.11.1 三 统 理论 


如 果 说 客户 终端 访问 服务 器 的 网 络 为 传统 的 以 太 网 LAN， 是 第 一 
网 ， 也 就 是 业务 网 ， 那 么 服务 器 访问 存储 系统 所 使 用 的 网 络 就 是 第 二 
网 ， 也 就 是 SAN，SAN 可 以 基于 以 太 网 或 者 FC 等 网 ;而 如 图 15-91 所 
示 ， 用 于 存储 集群 以 及 主机 集群 内 部 通信 和 数据 传输 的 网 络 ， 已 经 形 
成 了 一 个 第 三 网 。 


图 15-91 第 三 网 


这 里 有 个 观点 ， 叫 做 三 统 ， 哪 三 统 呢 ? 首先 是 集群 的 统一 ， 大 家 
知道 目前 有 各 种 各 样 的 集群 ， 比 如 计算 集群 、 存 储 集群 ， 存 储 集群 中 
又 分 为 汲取 SAN、 集 群 NAS、 分 布 式 文件 系统 、 集 群 文 件 系统 等 ， 如 
此 多 样 的 集群 ， 其 本 质 无 非 就 是 一 堆 x86 的 节点 ， 用 某 种 网 络 连 接 起 来 
后 面 挂 了 大 量 磁盘 的 ， 就 是 存储 集群 中 的 节点 ， 拥 有 大 量 CPU 和 内 存 
的 ， 束 是 计算 节点 ， 如 果 两 者 省 有 ， 那 惑 是 统一 集群 了 ， 如 图 15-92 所 
示 。 


图 15-92 ”三 统 理论 示意 图 


为 何 计算 与 存储 以 前 要 分 开 呢 ? 因为 以 前 的 DAS 直 连 存储 性 能 和 
容量 均 跟 不 上 ， 而且 属于 孤岛 形态 ， 这 限制 了 存储 的 发 展 ， 必 须要 将 
其 与 计算 分 开 独 立 发 展 。 所 以 存储 后 来 先 发 展 为 双 控 制 器 传统 网 络 存 
储 ， 此 时 计算 与 存储 无 法 合体 ; 再 后 来 ， 外 置 人 存储 发 展 到 集群 化 形态 
之 后 ， 虽 然 其 表象 仍然 是 分 的 ， 但 是 其 里 面 却 是 合 的 ， 对 外 合 为 一 体 
的 。 此 时 ， 计算 与 存储 集群 经 历 了 长 久 分 开 之 后 ， 也 必 将 会 重新 合 
体 ， 寻 回 其 本 源 。 大 家 可 以 看 到 这 是 一 个 轮回 和 分 分 合 合 的 过 程 。 如 
今 ， 存 储 系统 正在 向 集群 化 发 展 ， 而 计算 也 是 集群 化 ， 那 么 计算 集群 


与 存储 集群 就 可 以 完美 的 被 融合 起 来 了 ， 形 分 神 合 。 这 种 形态 也 属于 
之 前 提 过 的 “自助 型 存储 集群 >。 除了 主机 集群 与 存储 集群 的 合体 之 
外 ， 集 群 SAN 与 集群 NAS 其 实 也 可 以 统一 ， 目 前 很 多 厂商 都 推出 了 块 
虚拟 化 产品 ， 它 们 的 LUN 在 后 端 其 实 就 是 一 个 文件 ， 可 以 被 打 散 存放 
在 底层 磁盘 各 处 。 既 然 SAN 设 备 底层 都 使 用 类 文件 系统 来 管理 了 ， 那 
么 SAN 与 NAS 的 后 端 其 实 就 已 经 被 统一 了 ， 剩 下 的 ， 就 是 前 端 访问 协 
议 的 统一 了 ( 见 下 文 ) 。 此 外 ， 集 群 硬件 也 将 变 为 一 个 平台 ， 其 上 的 
各 种 协议 、 应 用 ， 则 变 成 了 一 种 服务 ， 比 如 SAN 服 务 、NAS 服 务 ; 而 
分 布 式 文件 系统 则 是 集群 NAS 的 支撑 层 ， 其 本 身 与 集群 NAS 属 于 一 种 
本 质 上 的 东西 。 至 此 ， 集 群 硬件 形态 与 上 层 软 件 充 分 解 耦 。 


其 次 是 访问 协议 的 统一 。 既 然 集群 已 经 变 为 一 个 通用 集群 ， 那 么 
访问 这 个 集群 的 方式 也 应 该 被 融合 。 上 文中 曾经 提 到 过 ， 文 件 与 块 的 
本 质 其 实 是 一 样 的 ， 只 是 组 织 与 访问 方式 不 同 罢了 。 如 今 块 虚拟 化 的 
存储 系统 比比 和 皆 是 ， 它 们 无 一 例外 都 将 LUN 当 作 一 个 文件 一 样 来 对 
待 ， 恨 不 得 直接 在 纯 种 文件 系统 中 用 文件 虚拟 出 一 个 LUN 来 。 既 然 这 
样 ， 底 层 其 实 是 被 文件 系统 给 统一 了 ， 那 么 外 国 的 访问 方式 上 ， 也 应 
该 被 统一 。 本 质 上 讲 ， 不 管 是 块 还 是 文件 ， 其 实 它们 都 用 同一 种 协议 
访问 : 操作 码 、 目 标 、 起 始 偏 移 、 长 度 。 对 于 块 访 问 ， 目 标 就 是 LUN 
ID ， 而 对 于 文件 ， 目 标 就 是 某 路 径 ， 比 如 /aby/c.txt， 那 么 是 否 有 一 种 
东西 来 屏 焙 目标 的 不 同 呢 ? 其 实 早 就 有 这 种 协议 ， 说 到 这 里 大 家 可 能 
悟 到 了 ， 这 就 是 对 象 存 储 系统 ， 对 象 存 储 协 议 就 是 将 文件 与 块 访问 大 
统一 的 最 佳 候 选 协议 了 ， 只 要 时 机 成 熟 ， 文 件 、 块 大 统一 的 访问 方式 
必 将 席卷 存储 技术 领域 。 块 与 文件 这 两 种 访问 协议 分 开 太 久 了 ， 有 合 
的 趋势 与 欲望 ， 底 层 技术 也 很 给 力 。 其 实 对 存储 协议 早 在 20 世 纪 80 年 
代 就 被 提出 了 ， 时 隔 30 年 ， 如 今 终 于 有 了 用 武之 地 ， 就 是 利用 对 象 协 
议 ， 可 以 将 文件 与 块 的 访问 完美 地 融合 统一 起 来 。 如 果真 的 可 以 用 对 


象 存 储 做 到 统一 ， 那 么 主机 端 会 出 现 一 种 新 的 HBA， 即 OSD HBA， 其 
将 OSD Initiator 集 成 到 硬件 中 ， 存 储 对 象 既 可 以 表现 为 一 个 目录 ， 又 可 
以 表现 为 一 个 卷 。 


最 后 ， 就 是 网 络 的 统一 。 不 管 第 一 网 、 第 二 网 还 是 第 三 网 ， 如 果 
有 一 种 网 络 可 以 同时 满足 需求 ， 那 么 为 何不 统一 呢 ? 比如 以 太 网 。 


做 到 这 三 统 ， 这 才 是 真正 的 统一 存储 ， 而 不 是 同一 个 机 头 同时 出 
块 和 文件 协议 。 这 就 叫 统一 存储 ? 咕 头 而 已 ， 看 似 统一 ， 实 则 意义 不 
是 很 大 。 


15.11.2 “并行 的 不 仅 可 以 是 文件 


在 前 文 介 绍 对 象 存储 系统 时 ， 有 一 个 思考 ， 里 面 提 到 了 其 实 文 件 
IO 与 块 IO 的 本 质 是 一 样 的 。 既 然 本 质 相同 ， 而 分 布 式 文件 系统 可 以 实 
现 主机 端的 并 行 访问 以 提高 效率 ， 那 么 为 何 主机 不 可 以 用 块 协议 来 并 
行 访问 一 个 Scale-Out 的 SAN 存 储 系统 呢 ? 当然 可 以 了 ， 没 人 规定 不 可 
以 ， 只 是 还 没有 形成 一 个 标准 而 已 。 


这 方面 ， 尖 兵 厂 商 Infortrend 的 产品 ESVA 率先 打破 了 常规 。 其 
ESVA 产 品 对 主机 侧 提 供 了 一 个 Load Balance Driver (LBD) ， 也 就 是 
并 行 访问 客户 端 ， 可 以 分 别 连 接 到 ESVA 集 群 中 到 每 个 节点 来 并 行 地 访 
问 数据 。ESVA 集 群 中 的 节点 各 自 连 接 到 FC 交 换 机 上 。ESVA 集 群 中 有 
一 台 Master 节 点 ， 统 管 集群 中 的 卷 元 数据 ， 其 他 都 为 成 员 节 点 ， 这 个 
思想 与 分 布 式 并 行文 件 系统 完全 一 致 。 当 使 用 了 LBD 的 时 候 ， 主 机 客 
户 端 会 从 所 有 节点 中 认 到 全 局 虚拟 的 LUN， 并 可 以 直接 与 所 有 节点 通 
信 读 写 数据 ; 当 不 安装 Load Balance Driver 的 时 候 ， 主 机 客户 端 只 能 通 
过 Master 节 点 来 挂 载 对 应 的 LUN， 当 需要 访问 的 数据 恰好 落 在 成 员 节 


x 


点 中 时 ， 则 数据 必须 经 过 Master 节 点 的 中 转 ， 会 多 耗费 一 次 经 过 FC 
换 机 的 转发 。 


块 级 别 的 并 行 比 文件 级 并 行 来 得 更 容易 ， 因 为 分 布 式 文件 系统 中 
的 文件 存放 位 置 与 映射 关系 错综复杂 ， 随 时 在 变化 ， 而 块 级 存储 中 的 
LUN 的 位 置 相对 于 分 布 式 文件 系统 来 讲 并 没有 那么 多 的 变化 ， 几 平分 
配 完 之 后 就 恒定 在 对 应 的 节点 中 ， 这 样 ， 阵 列 与 主机 端 并 行 客 户 端 之 
间 需 要 同步 更 新 的 LUN 数 据 布局 元 数据 信息 就 很 少 ， 效 率 很 高 。 


再 分 析 下 去 ，ESVA 的 并 行 客户 端 又 似乎 像 是 一 个 分 布 式 卷 管理 系 
统 ， 这 里 的 卷 其 实 就 是 LUN， 只 不 过 一 个 LUN 会 被 分 布 到 多 个 集群 节 
点 中 存放 。 所 以 ， 其 相当 于 同时 提供 了 一 台 台 的 单独 阵列 ， 而 同时 又 
给 主机 上 提供 了 一 个 处 于 主机 操作 系统 内 核 卷 管理 更 下 层 位 置 的 卷 管 
理 层 ， 将 识别 到 的 多 个 独立 的 LUN 虚 拟 成 一 个 Raid0 的 大 空间 。 这 样 做 
存在 一 个 风险 : 一 旦 这 些 独立 阵列 中 的 一 台 出 现 故 障 ， 那 么 整个 系统 
的 数据 不 再 可 用 。 但 是 话 又 说 回来 ， 如 果 这 个 系统 是 一 个 单 阵 列 ， 你 
把 所 有 数据 都 放 到 这 人 台 阵 列 中 保存 ， 那 么 它 出 问题 的 几率 会 有 多 少 ? 
从 这 种 角度 来 讲 ， 不 管 系统 中 有 多 少 台 阵列 ， 与 单 阵列 出 问题 的 几率 
是 相同 的 ， 而 单 阵列 出 问题 导致 停机 的 几率 是 非常 低 的 。 即 便 这 样 ， 
为 了 增加 安全 系数 ， 厂 商 也 实现 了 所 谓 网 络 Raid， 即 在 集群 中 的 所 有 
节点 之 间 再 做 一 层 Raid 5 来 防止 单个 节点 故障 ， 这 样 也 就 成 了 Raid for 
Rain。 这 种 Raid 的 计算 也 有 两 种 方式 : 一 种 是 直接 在 主机 端 计算 好 之 
后 ， 并 行 地 写 入 每 个 节点 ， 这 种 做 法 就 变 成 了 彻头彻尾 的 软 Raid 5 
了 ， 比 如 Windows 下 的 动态 磁盘 ; 另 一 种 则 是 由 集群 中 的 存储 节点 来 
自行 计算 ， 这 样 势必 要 浪费 大 量 的 集群 内 部 通信 网 络 带宽 ， 而 且 性 能 
也 不 会 很 好 。 


对 象 存储 OSD 协 议 或 许 有 希望 在 一 段 时 间 之 后 真正 成 为 块 级 并 行 
访问 的 标准 协议 ， 因 为 它 既 像 块 ， 又 像 文 件 ， 而 分 布 式 文件 系统 已 经 
有 了 标准 访问 协议 ， 那 就 是 pNFS，pNFS 显 然 不 适合 块 级 ， 那 么 OSD 
或 许 就 是 最 佳 的 候选 对 象 了 。 


另外 ， 有 了 并 行 访问 客户 端 之 后 ， 之 前 的 多 路 径 软 件 也 就 可 以 被 
统一 了 ， 因 为 并 行 客户 端 自然 会 考虑 多 路 径 Failover 和 Failback 的 问 
题 ， 之 前 多 路 径 软 件 自 身 所 作 的 负载 均衡 基本 上 都 没有 太 大 的 意义 ， 
因为 对 于 传统 双 控 阵列 来 讲 ，LUN 的 工作 控制 器 只 有 一 个 ， 在 这 个 前 
提 下 ， 多 路 径 负载 均衡 是 不 具 太 大 意义 的 。 但 是 在 多 控 的 Scale-Out 分 
布 式 架 构 下 ， 多 路 径 软 件 对 集群 中 的 每 个 节点 都 有 维护 一 条 路 径 ， 那 
么 这 个 时 候 ， 多 路 径 软件 已 经 不 是 传统 意义 的 多 路 径 了 ， 并 行 访 问 上 
升 为 关键 点 ， 而 此 时 ， 多 路 径 软 件 就 彻底 成 为 一 个 并 行 访问 客户 端 
了 ， 而 不 应 该 再 叫 多 路 径 软 件 。 在 所 有 路 径 工 作 正常 的 条 件 下 ， 主 机 
可 以 直接 从 集群 中 的 每 个 节点 读 写 数据 ， 集 群 内 部 通信 网 的 负载 是 非 
单 低 的 ， 仅 用 于 同步 一 些 元 数据 状态 等 ， 一 旦 主机 到 集群 的 某 条 或 者 
某 几 条 路 径 失 效 ， 那 么 集群 中 对 应 的 节点 就 与 主机 失去 了 连接 ， 这 些 
节点 中 的 数据 只 能 通过 集群 内 部 通信 网 被 传输 到 与 主机 尚 有 连接 的 那 
些 节点 中 ， 通 过 这 些 节点 将 数据 转发 给 主机 ， 此 时 内 部 通信 网 的 流量 
就 会 增加 。 


15.11.3 ”集群 底层 与 上 层 解 耦 


上 文中 提 到 ， 集 群 硬件 层 可 能 会 变 为 一 个 平台 ， 承 载 各 种 集群 软 
件 层 。 融 像 一 个 卖 盒饭 的 ， 为 了 盛 拨 ， 他 不 仅 要 目 己 把 饭 做 好 ， 还 得 
把 盒子 做 好 ， 然 后 把 饭 盛 到 盒子 里 一 起 卖 。 但 是 他 可 能 发 现 自己 做 饭 


盒 实在 不 在 行 ， 只 想 专心 做 饭 。 这 时 ， 有 个 人 专门 做 饭盒 ， 他 们 一 拍 
即 合 ， 相 互 合 作 。 这 是 一 种 软 硬 分 开 的 表现 。 


也 就 是 说 ， 比 如 有 某 分 布 式 文件 系统 ， 如 果 要 把 它 包装 为 一 款 可 交 
付 的 产品 当然 可 以 ， 只 买 软件 光盘 即 可 。 但 是 用 户 的 硬件 是 各 种 各 样 
的 ， 兼 容 性 不 一 ， 软 件 安装 其 上 之 后 可 能 会 出 现 各 种 问题 ， 这 就 是 现 
在 的 软件 厂商 争 相 给 自己 的 软件 捆绑 到 硬件 中 打包 出 售 的 原因 之 一 。 
这 就 表现 为 一 种 软 硬 相合 。 


分 久 必 合 ， 合 久 必 分 ， 又 应 了 这 句 老 话 。 软 件 和 硬件 这 两 者 总 是 
在 分 分 合 合 中 螺旋 上 升 发 展 。 两 者 也 会 出 现 相 互 争 抢 的 局 面 ， 比 如 硬 
件 总 是 想 从 软件 层面 offload 下 来 更 多 的 功能 ， 比 如 TCPIP Offload ， 
iSCSI Offload，XOR Offload 等 ， 而 软件 似乎 也 在 向 硬件 争 抢 ， 比 如 软 
Raid， 软 卷 管理 层 等 。 


对 于 硬件 集群 平台 与 其 上 的 软件 集群 形式 (比如 集群 文件 系统 、 
集群 SAN 等 ) ， 它 们 两 者 如 果真 的 做 到 了 解 而 ， 那 么 也 会 发 展 出 这 种 
争 抢 态 势 。 比 如 底层 硬件 想 去 offload 上 层 软 件 集群 中 的 一 些 机 制 ， 如 
消息 通信 和 机制、 错误 监测 与 恢复 联动 机 制 等 。 硬 件 提 供 一 个 标准 集 
群 ， 比 如 基于 PCI-E 交 换 网 络 的 集群 ， 基 于 Infiniband 的 ， 基 于 以 太 网 
的 ， 等 等 ， 不 管 底层 是 Infiniband 还 是 以 太 网 ， 底 层 硬件 集群 会 将 其 抽 
象 封装 为 标准 的 接口 ， 上 层 的 集群 软件 可 以 更 加 专注 于 高 层 功能 ， 比 
如 数据 排 布 方式 以 及 效能 等 层面 的 研发 与 提升 ， 底 层 这 些 通用 化 的 机 
制 ， 最 终 将 被 固化 为 标准 ， 从 而 获得 所 有 厂商 的 支持 。 


15.11.4” 云 基础 架构 


而 如 果 再 往 上 走 一 层 ， 那 束 是 云 了 。 整 个 集群 作为 一 个 基础 染 构 
服务 的 提供 者 ， 其 上 覆盖 资 源 管理 层 ， 表 覆盖 一 层 业 务 展现 层 ， 就 可 
以 作为 一 个 云 来 提供 各 种 各 样 的 IT 服 务 ， 如 图 15-93 所 示 。 


图 15-93 云 基础 架构 


世界 就 是 一 个 集群 。 任 何 目前 所 理解 的 物质 ， 都 是 由 更 小 的 “ 粒 
子 ” 或 者 说 基石 组 成 的 集群 。 或 者 说 ， 任 何 “ 物 质 *"， 其 实 都 是 由 世界 本 
源 的 基本 公式 会 加 而 成 的 庞大 算式 。 任 何 逻 辑 ， 都 是 这 些 “ 物 质 * 即 算 
式 的 亚 加 演算 过 程 。 逻 辑 是 “物质 ?变化 过 程 的 体现 。 任 何 对 逻辑 的 改 
变 ， 最 终 会 体现 对 “物质 ”的 改变 ， 而 “物质 ”的 改变 ， 又 体现 为 逻辑 。 
万 物 佛 和 合 。 个 体 的 无 意识 性 活动 组 成 了 整体 的 有 序 ， 冥 竖 中 总 有 一 
个 奥妙 之 物 来 措 引 所 有 个 体 的 行动 ， 但 是 个 体 上 自身 却 感觉 不 到 ， 或 者 
正 逐 渐 地 隐约 感知 到 ! 


15.12” 纯 软 Scale-Out SAN 


Infortrend 的 ESVA 存 储 系统 是 比较 特别 的 一 款 集群 SAN 存 储 系 
统 。 它 的 特别 体现 在 ， 其 Scale-Out 扩 展 方式 完全 是 利用 主机 端的 一 个 
虚拟 卷 Filter Driver 实 现 的 ， 也 就 是 靠 这 个 卷 驱动 来 把 所 有 连接 到 该 主 
机 上 的 所 有 节点 上 的 资源 整合 起 来 ， 相 当 于 一 个 定制 化 的 LVM。 但 是 
配置 依然 是 在 存储 端 来 配置 。ESVA 中 的 “V” 就 代表 虚拟 的 意思 ， 指 的 
就 是 用 这 个 卷 驱 动 来 将 所 有 节点 的 空间 整合 起 来 。 节 点 可 以 随 进 随 
出 ， 添 加 新 节点 之 后 ， 原 来 的 数据 会 被 自动 均衡 到 这 个 节点 上 ， 同 
样 ， 踢 出 节点 前 ， 数 据 会 先 被 迁移 到 其 他 节点 上 ， 然 后 再 踢 出 。 这 种 
纯 软 Scale-Out SAN 集 群 方案 的 好 处 类 似 于 支持 并 行 访问 客户 端的 集群 
文件 系统 ， 客 户 端 可 以 并 行 访问 集群 中 所 有 节点 ， 而 传统 集群 SAN 方 
案 下 ， 客 户 端 只 能 从 集群 中 的 某 个 节点 来 读 写 数据 ， 虽 然 可 以 使 用 多 
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路 径 软件 来 变相 地 “均衡 ?”， 但 是 客户 端 不 知道 要 访问 的 数据 到 底 在 哪 
个 节点 上 ， 如 果 将 一 个 IO 发 送 给 一 个 并 没有 对 应 这 笔 IJO 数 据 的 节点 ， 
那么 这 个 节点 一 样 要 经 过 内 部 交换 网 络 从 其 他 节点 处 取 回 数据 再 发 送 
给 客户 端 ， 这 个 过 程 耗费 了 无 谓 的 资源 。 而 ESVA 纯 软 Scale-Out 方 案 ， 
客户 端的 卷 驱 动 是 知道 每 一 笔 10 到 底 要 发 给 哪个 节点 的 ， 直 接 有 的 放 
矢 地 从 对 应 节点 取 数 据 ， 提 高 了 性 能 。 


如 图 15-94 所 示 。ESVA 将 整个 系统 分 为 多 个 Pool， 每 个 Pool 可 以 由 
位 于 不 同 节 点 的 不 同 磁盘 组 合 而 成 ， 可 以 向 任何 Pool 中 添加 任何 节点 
的 任何 磁盘 。 


图 15-94 “设置 一 个 池 


如 图 15-95 及 图 15-96 所 示 ， 可 以 向 Pool 中 添加 新 的 节点 及 磁盘 ， 也 
可 以 从 Pool 中 删除 节点 或 者 磁盘 。 如 果 将 前 者 称 为 Scale-Out， 后 者 则 
可 以 称 为 Scale-Backe 


图 15-95 “添加 或 者 删除 节点 


图 15-96 ”添加 或 者 删除 磁盘 


如 图 15-97 所 示 ， 选 择 将 新 加 入 的 磁盘 做 成 何 种 类 型 的 Raid 组 ， 并 
选择 数据 重新 均衡 时 候 耗 费 的 系统 资源 优先 级 。 然 后 系统 会 自动 完成 
重新 均衡 。 


图 15-97 ”重新 均衡 


15.13 ”互联 网 运营 商 的 特殊 集群 一 NoSQL 


数据 海量 集中 的 地 方 ， 无 疑 是 互联 网 运营 商 (或 称 网 络 服务 提供 
商 ，NSP) 的 数据 中 心 了 。 这 里 代表 了 存储 技术 发 展 的 最 前 治 。 也 正 
是 因为 海量 数据 存储 与 访问 ， 使 得 传统 存储 架构 、 成 本 已 经 无 法 满足 
需求 了 。 比 如 ， 每 秒 几 十 万 次 的 随机 IOPS， 每 秒 10GB 的 流量 ， 如 果 
使 用 传统 高 端 人 存储 ， 那 成 本 将 是 高 不 可 攀 的 ， 而 且 很 多 时 候 需要 多 人 台 
存储 才 可 以 满足 ， 而 且 后 期 的 扩展 性 以 及 扩容 成 本 都 是 不 可 接受 的 ， 
NSP 当 然 不 愿意 骑 虎 难 下 。 正 因 有 如 此 强烈 的 业务 驱动 ， 导 致 各 NSP 
逐步 采用 分 布 式 系统 来 构建 其 底层 文件 系统 及 数据 库 。 比 如 先驱 
Google 的 GFS 十 Bigtable ， 以 及 后 续 追 随 者 Amazon 的 Dynamo、 
Facebook 的 Cassandra、 Microsoft 的 Azure、Yahoo 的 PNUTS、 淘 宝 的 
TFS 十 Tair 等 。 这 些 系统 都 是 动 辑 数 百 甚至 数 千 个 节点 组 成 的 分 布 式 集 
群 。 


1。 能 环境 


这 些 系统 无 疑 都 是 使 用 廉价 定制 化 的 PC 来 搭建 的 ， 单 个 节点 各 自 
有 各 自 的 计算 资源 和 存储 资源 ， 互 不 共享 ， 也 就 是 Share-Nothing。 而 
且 单 节点 的 可 靠 性 不 高 。 所 以 NSP 分 布 式 系统 的 硬件 环境 为 一 种 “ 弱 环 
境 *， 为 了 保证 最 终 的 可 靠 性 ， 那 么 就 必须 在 软件 层面 实现 强 环境 ， 比 
如 将 数据 块 保存 3 个 副本 在 三 台独 立 的 机 器 上 。 为 何 要 是 3 而 不 是 2 呢 ? 
因为 如 果 只 有 两 份 副本 的 话 ， 发 生 数据 丢失 的 可 能 性 依然 很 大 ， 比 如 
一 旦 某 个 节点 故障 或 者 某 个 磁盘 故障 ， 此 时 对 应 的 数据 就 处 于 危险 边 
缘 。 对 于 一 个 1000 节 点 的 集群 ， 每 周 大 概 有 20 块 硬盘 损坏 ， 保 存 同一 
个 数据 的 2 份 副本 的 两 个 硬盘 同时 失效 的 可 能 性 也 是 有 的 。 所 以 如 果 保 
留 3 份 副本 的 话 ， 危 险 程度 会 大 大 降低 。 


2。CAP 理 论 


传统 的 关系 型 数据 库 已 经 无 法 在 保证 性 能 的 前 提 下 达到 如 此 高 的 
扩展 性 ， 因 为 传统 关系 型 数据 库 是 要 保证 强 一 致 性 的 (比如 用 户 A 写 
入 的 数据 ， 用 户 B 立 即 就 能 看 到 等 等 ) 。 所 以 ,一致 性 、 性 能 、 扩 展 
性 ， 这 三 者 是 不 能 够 同时 兼顾 的 ， 只 能 任 选 其 中 两 者 (这 便 是 著名 的 
CAP 理 论 ) 。 而 NSP 的 某 些 对 外 业务 所 需要 的 就 是 超 高 性 能 和 扩展 
性 ， 那 么 其 只 好 适当 牺牲 一 致 性 了 ， 因 为 就 大 部 分 互联 网 服务 而 言 ， 
数据 短暂 的 不 一 致 是 可 以 接受 的 ， 比 如 DNS 解析 ， 更 换 主机 之 后 可 能 
并 不 能 实时 刷新 到 全 网 范围 。 同 样 ， 由 于 数据 块 保留 3 个 副本 ， 那 么 是 
当 所 有 副本 都 同步 写 入 对 应 节点 之 后 再 向 客户 端 返 回 成 功 信息 ， 还 是 
只 写 一 份 就 返回 成 功 信 息 呢 ? 后 者 肯定 是 有 利于 性 能 ， 但 是 却 牺牲 了 
一 致 性 ， 比 如 当 某 份 副本 还 没有 更 新 到 对 应 节点 时 ， 有 另 一 个 客户 端 
从 这 个 尚未 被 同步 的 节点 发 起 对 这 份 数 据 的 读 ， 那 么 这 个 客户 端 将 读 
到 过 期 的 数据 ， 这 就 发 生 了 数据 不 一 致 。CAP 理 论 是 指 Consistency、 
Availability 以 及 Partition Tolerance， 分 别 指数 据 访 问 时 的 一 致 性 、 可 用 
性 〈 请 求 总 是 可 以 被 执行 和 返回 ， 不 超时 。 可 视 为 性 能 ) 以 及 分 区 容 
忍 性 。 前 两 者 大 家 都 理解 ， 最 后 一 个 “分 区 容忍 性 ”是 指 大 规模 集群 一 
旦 遇 到 网 络 或 者 其 他 类 型 故障 导致 整个 集群 被 裂 为 多 个 孤岛 ， 此 时 集 
群 是 否 依然 正常 提供 服务 ， 这 一 点 可 以 视 为 扩展 性 中 的 一 个 子 需求 。 


3。. NWR 模 型 


有 什么 办 法 可 以 保证 一 致 性 呢 ? 办 法 当然 有 ， 有 一 个 著名 的 模型 
叫做 NWR 模 型 ， 可 以 在 一 致 性 与 性 能 之 间 实 现 巧妙 的 均衡 。N 表 示 对 
应 数据 块 要 保存 的 副本 数 ，W 表 示 成 功 了 写 入 几 份 就 可 以 向 客户 端 返 
回 成 功 信 息 ，R 表 示 为 了 保证 读 时 候 的 一 臻 性， 客户 端 必须 从 保存 这 
份 副 本 的 N 个 节 扣 中 的 几 个 同时 读 出 数据 。 比 如 N==3，W 二 1， 也 玖 是 
刚才 那个 场景 ， 那 么 此 时 如 果 R 二 1， 则 不 能 保证 一 致 性 ， 因 为 此 时 R 


可 能 从 另外 两 个 保存 这 份 副本 的 节点 读 取 ， 但 是 也 有 可 能 从 当初 W 的 
那个 节点 读 取 ， 那 么 就 是 一 致 的 ， 但 是 不 能 保证 每 次 都 从 当初 W 的 节 
操 读 取 ， 而 如 果 R2， 同 样 不 能 保证 ; 但 是 R 如 果 二 3， 那 么 束 可 以 保 
证 ， 读 出 的 这 3 份 数据 ， 至 少 有 一 份 是 最 新 的 ， 那 么 通过 判断 数据 块 的 
timestamp 时 间 戳 就 可 以 判断 这 3 份 中 哪 一 份 (或 几 份 ) 是 最 新 的 ， 从 
而 丢弃 剩余 的 不 一 致 的 副本 。 而 如 果 W 二 2， 也 就 是 必须 同步 的 写成 功 
2 个 副本 才 返 回 成 功 信号 ， 那 么 读 的 时 候 丈 可 以 读 出 2 份 就 能 保证 至 少 
有 一 份 是 最 新 的 了 。 所 以 ， 只 要 WwW 十 R>N， 即 可 保证 读 一 致 性 。 有 人 
问 说 ， 如 果 读 的 时 候 只 从 当初 写 入 的 那个 节 点 读 不 束 都 一 致 了 么 ? 是 
的 ， 但 是 这 样 做 就 无 法 保证 性 能 了 ， 所 有 节点 均 可 同时 写 入 同时 读 取 
同一 份 副 本 ， 这 样 性 能 是 最 高 的 ， 只 不 过 牺牲 了 一 致 性 ; 如 果 要 保证 
一 致 性 ， 那 么 就 采取 NWR 模 型 来 调和 到 底 是 要 读 性 能 高 《增加 W 的 
值 ) 还 是 要 写 性 能 高 《降低 W 的 值 ) ， 读 写 性 能 都 高 的 话 就 得 完全 牺 
牲 一 致 性 ， 这 就 是 NWR 模 型 的 魅力 所 在 。 


4. 水 平 切 分 与 垂直 切 分 


数据 在 集群 中 的 分 布 有 两 种 方式 ， 第 一 种 是 水 平 切 分 方式 ， 比 如 
一 张 表 ， 可 以 水 平 被 裂 开 为 多 张 表 ， 每 张 表 都 保存 有 原来 的 列 ， 每 张 
表 被 分 别 存 储 到 集群 中 的 一 个 节点 中 (并 保留 其 他 两 个 副本 ) ; 而 垂 
直 切 分 相当 于 把 一 张 表 坚 直 和 裂 开 为 多 张 表 ， 原 来 的 多 个 列 被 拆 开 ， 分 
别 存储 在 集群 中 的 一 个 节点 中 〈 并 保留 其 他 两 个 副本 ) 。 这 样 做 相当 
于 把 效 据 打 散 ， 从 而 获得 超 高 的 随机 查询 性 能 。 垂 直 切 分 相当 于 是 基 
于 业务 层面 的 切 分 ， 具 有 一 定 的 人 为 介入 度 ; 而 水 平 切 分 则 相当 于 全 
局 层面 的 数据 盲 切 分 。 


D。NosQL 


此 外 ， 这 种 弱 一 致 性 的 数据 库 集 群 一 般 都 不 支持 事务 。 同 时 ， 也 
不 支持 传统 关系 型 数据 库 的 关联 查询 动作 ， 也 就 是 说 ， 由 于 完全 分 布 
式 ， 所 以 多 个 节点 之 间 的 数据 如 果 想 要 进行 关联 查询 是 很 不 经 济 的 ， 
会 导致 整个 系统 慢 的 不 可 想象 ， 这 就 是 上 文中 曾经 提 到 的 ，MPP 有 
MPP 的 适用 场合 ， 如 果 每 笔 查 询 或 者 IO 《比如 MPP 架 构 商 用 存储 系统 
中 的 大 块 连续 IO) 都 需要 所 有 节点 提供 数据 分 片 ， 那 么 此 时 并 发 性 能 
将 会 非常 差 。 所 以 ， 这 类 去 关联 性 的 、 弱 一 致 性 的 轻 量 级 的 分 布 式 数 
据 库 系统 ， 就 属于 NoSQL 系统 ， 即 “抛弃 传统 SQL2” 或 者 "Not Only 
SQL” 的 意思 。 


第 16 章 “未雨绸缪 
备份 技术 


数据 保护 和 


@ 数据 保护 
g 快照 
nm CDP 
@ 数据 备份 
@ 备份 通路 


效 据 是 表示 信息 的 信息 。 数 据 丢失 或 者 损坏 ， 信 息 也 就 丢失 或 者 
被 扭曲 了 。 为 了 防止 数据 意外 丢失 或 者 损毁 ， 人 们 想 出 了 一 系列 的 方 
法 来 保护 当前 的 数据 。 此 外 ， 为 了 最 大 程度 地 保护 数据 ， 人 们 还 在 其 
他 地 方 保存 数据 的 一 份 或 者 多 份 副 本 。 


数据 保护 和 数据 备份 看 似 简单 ， 实 则 很 复杂 。 数 据 保护 和 备份 已 
经 成 为 存储 领域 的 一 门 分 支 学 科 。 本 章 就 这 个 分 支 作 简要 介绍 ， 并 给 
出 几 个 案例 。 


16.1 ”数据 保护 


数据 保护 ， 就 是 对 当前 位 置 上 的 数据 进行 备份 ， 以 防 突如其来 的 
磁盘 损坏 ， 或 者 其 他 各 种 原因 导致 的 数据 不 可 被 访问 ， 或 者 部 分 数据 
损坏 ， 影 响 到 业务 层 。 备 份 后 的 数据 ， 可 以 在 数据 损毁 之 后 恢复 到 生 
产 磁盘 上 ， 从 而 最 大 程度 地 降低 损失 。 


从 底层 来 分 ， 数 据 保护 备份 可 以 分 为 文件 级 的 保护 和 块 级 的 保 
护 。 


16.1.1 ”文件 级 备份 


文件 级 的 备份 ， 即 备份 软件 只 能 感知 到 文件 这 一 层 ， 将 磁盘 上 所 
有 的 文件 ， 通 过 调用 文件 系统 接口 备份 到 另 一 个 介质 上 。 所 以 文件 级 
备份 软件 ， 要 么 依靠 操作 系统 提供 的 API 来 备份 文件 ， 要 么 本 身 具 有 
文件 系统 的 功能 ， 可 以 识别 文件 系统 元 数据 。 


文件 级 备份 软件 的 基本 机 制 ， 就 是 将 数据 以 文件 的 形式 读 出 ， 然 
后 再 将 读 出 的 文件 存储 在 另外 一 个 介质 上 。 这 些 文件 在 原来 的 介质 
上 ， 存 放 可 以 是 不 连续 的 ， 各 个 不 连续 的 块 之 间 的 链 关 系 由 文件 系统 
来 管理 。 而 如 果 备份 软件 将 这 些 文件 备份 到 新 的 空白 介质 上 ， 那 么 这 
些 文件 很 大 程度 上 是 连续 存放 的 ， 不 管 是 备份 到 磁带 还 是 磁盘 上 。 


磁 融 不 是 块 设备 ， 由 于 机 械 的 限制 ， 在 记录 数据 时 ， 是 流 式 连 续 
的 。 磁 带 上 的 数据 也 需要 组 织 ， 相 对 于 磁盘 文件 系统 ， 也 有 磁带 文件 
系统 ， 准 确 来 说 应 该 叫做 磁带 数据 管理 系统 。 因 为 对 于 磁带 来 说 ， 它 
所 记录 的 数据 都 是 流 式 的 、 连 续 的。 每 个 文件 被 看 作 一 个 流 ， 流 与 流 
之 间 用 一 些 特殊 的 数据 间隔 来 分 割 ， 从 而 可 以 区 分 一 个 个 的 “文件 ”， 
其 实 就 是 一 段 段 的 二 进 制 数据 流 。 磁 带 备 份 文件 的 时 候 ， 会 将 磁盘 上 
每 个 文件 的 属性 信息 和 实体 文件 数据 一 同 备份 下 来 ， 但 是 不 会 备份 磁 
盘 文件 系统 的 描述 信息 ， 比 如 一 个 文件 所 占用 的 磁盘 簇 号 链表 等 。 因 
为 利用 磁带 恢复 数据 的 时 候 ， 软 件 会 重 构 磁盘 文件 系统 ， 并 从 磁带 读 
出 数据 ， 向 磁盘 写 入 数据 。 


在 2000 年 之 前 ， 很 多 人 都 用 磁带 随身 听 来 欣赏 音乐 。 而 2005 年 之 
后 ， 就 很 少 看 到 带 随身 听 的 人 了 ， 大 都 换 成 了 MP3 或 MP4 或 者 手机 等 
设备 。 随 身 听 用 的 是 模拟 磁带 ， 也 就 是 说 它 记 录 的 是 模拟 信号 。 电 流 
强 ， 磁 化 的 就 强 ; 电流 弱 ， 磁 化 的 就 弱 。 磁 转 成 电 的 时 候 也 一 样 ， 用 
这 种 磁 信 号 强 弱 信息 来 表达 声音 振动 的 强 弱 信息 ， 从 而 形成 音乐 。 
MP3 则 是 利用 数字 信息 来 编码 声音 振动 强 弱 和 频率 信息 。 虽 然 由 模拟 
转向 数字 ， 需 要 数字 采样 转换 ， 音 乐 的 质量 相对 模拟 信号 来 的 差 ， 算 
法 也 复杂 ， 但 是 它 具 有 极 大 的 抗 干扰 能 力 ， 而 且 可 以 无 缝 地 与 计算 机 
结合 ， 形 成 能 发 声 的 计算 机 (多 媒体 计算 机 ) 。 


录音 带 、 录 像 带 ， 都 是 模拟 信号 磁带 。 用 于 文件 备份 的 磁带 ， 当 
然 是 数字 磁带 ， 它 记录 的 是 磁性 的 极 性 ， 而 不 是 被 磁化 的 强 弱 ， 比 如 
用 N 极 来 代表 1， 用 S 极 来 代表 0。 


如 果 备 份 软件 将 文件 备份 到 磁盘 介质 或 者 任何 其 他 的 块 介 质 上 ， 
那么 这 些 文 件 就 可 以 是 不 连续 的 。 块 设备 可 以 跳跃 式 地 记录 数据 ， 而 
一 个 完整 数据 链 信息 ， 由 管理 这 种 介质 的 文件 系统 来 记录 。 人 磁盘 读 写 
速度 比 磁带 要 高 得 多 。 


近年 来 出 现 了 VTL， 即 Virtual Tape Library (虚拟 磁带 库 ) ， 用 磁 
盘 来 模拟 磁带 。 这 个 概念 看 似 复杂 ， 其 实 实现 起 来 无 非 就 是 一 个 协议 
转换 器 ， 将 磁盘 逻辑 与 磁带 逻辑 相互 映射 融合 ， 欺 骗 上 位 程序 让 其 认 
为 底层 物理 介质 是 磁带 ， 然 后 再 按照 磁盘 的 记录 方式 读 写 数 据 ， 这 就 
是 虚拟 化 的 表现 。 这 种 方法 ， 提 高 了 备份 速度 和 灵活 性 ， 用 处 很 大 。 


16.1.2 ” 块 级 备份 


所 谓 块 级 的 备份 ， 融 是 备份 块 设备 上 的 每 个 块 ， 不 管 这 个 块 上 有 
没有 数据 ， 或 是 这 个 块 上 的 数据 属于 哪个 文件 。 块 级 别 的 备份 ， 不 考 
虑 也 不 用 考虑 文件 系统 层次 的 逻辑 ， 原 块 设 备 有 多 少 容量 ， 就 备份 多 
少 容量 。 在 这 里 “ 块 ”的 概念 ， 对 于 磁盘 来 说 就 是 扇 区 Sector。 块 级 的 备 
份 ， 是 最 底层 的 备份 ， 它 抛 开 了 文件 系统 ， 直 接 对 磁盘 扇 区 进行 读 
取 ， 并 将 读 取 到 的 局 区 写 入 新 的 磁盘 对 应 的 扇 区 。 


这 种 方式 的 一 个 典型 实例 ， 就 是 磁盘 镜像 。 而 磁盘 镜像 最 简单 的 
实现 方式 就 是 RAID 1。RAID 1 系统 将 对 一 块 (或 多 块 ) 磁盘 的 写 入 ， 
完全 复制 到 另 一 块 (或 多 块 ) 磁盘 ， 两 块 磁盘 内 容 完全 相同 。 有 些 数 
据 恢 复 公司 的 一 些 专用 设备 “磁盘 复制 机 ?也 是 直接 读 取 磁 盘 扇 区 ， 然 
后 复制 到 新 的 磁盘 。 


基于 块 的 备份 软件 ， 不 经 过 操作 系统 的 文件 系统 接口 ， 而 通过 磁 
盘 控 制 器 驱动 接口 ， 直 接 读 取 磁盘 ， 所 以 相对 文件 级 的 备份 来 说 ， 速 
度 加 快 很 多 。 但 是 基于 块 的 备份 软件 备份 的 数量 相对 文件 级 备份 要 
多 ， 会 备份 许多 僵尸 局 区 ， 而 且 备 份 之 后 ， 原 来 不 连续 的 文件 ， 备 份 
之 后 还 是 不 连续 ， 有 很 多 碎片 。 文 件 级 的 备份 ， 会 将 原来 不 连续 存放 
的 文件 ， 备 份 成 连续 存放 的 文件 ， 恢 复 的 时 候 ， 也 会 在 原来 的 磁盘 上 
连续 写 入 ， 所 以 很 少 造 成 碎片 。 有 很 多 系统 管理 员 ， 都 会 定时 将 系统 
备份 并 重新 导入 一 次 ， 就 是 为 了 剔除 磁盘 碎片 ， 其 实 这 么 做 的 效果 和 
磁盘 碎片 整理 程序 效果 一 样 ， 但 是 速度 却 比 后 者 快 得 多 。 


16.2 ”高 级 数据 保护 方法 
16.2.1 “远程 文件 复制 


远程 文件 复制 方案 ， 是 把 需要 备份 的 文件 ， 通 过 网 络 传输 到 异地 
容 灾 站 点 。 上 典型 的 代表 是 rsync 异 步 远程 文件 同步 软件 。 这 是 一 个 运行 
在 Linux 下 的 文件 远程 同步 软件 。 它 可 以 监视 文件 系统 的 动作 ， 将 文件 
的 变化 通过 网 络 同步 到 异地 的 站 点 。 它 可 以 只 复制 一 个 文件 中 变化 过 
的 内 容 ， 而 不 必 整 个 文件 都 复制 ， 这 在 同步 大 文件 的 时 候 非 常 管用 。 


其 实 FTP 工 具 也 是 一 个 很 好 的 远程 文件 复制 工具 ， 只 不 过 不 能 做 
到 更 加 灵活 和 强大 而 已 。 


16.2.2 ”远程 磁盘 ( 卷 ) 镜像 


这 是 基于 块 的 远程 备份 ， 即 通过 网 络 将 备份 的 块 数据 传输 到 异地 
站 点 。 远 程 镜像 (远程 实时 复制 ) 又 可 以 分 为 同步 复制 和 异步 复制 。 
同步 复制 ， 即 主 站 点 接受 的 上 层 10 写 入 数据 ， 必 须 等 这 份 数 据 成 功 地 
复制 传输 到 异地 站 点 ， 并 写 入 成 功 之 后 ， 才 通报 上 层 IO 成 功 消息 。 异 
步 复制 ， 就 是 上 层 IO 主 站 点 写 入 成 功 ， 即 向 上 层 通 报 成 功 ， 然 后 在 后 
台 将 数据 通过 网 络 传输 到 异地 。 前 者 能 保证 两 地 数据 的 一 致 性 ， 但 是 
对 上 层 响 应 较 慢 ; 而 后 者 不 能 实时 保证 两 地 数据 的 一 致 性 ， 但 是 对 上 
层 响 应 很 快 。 


所 有 基于 块 的 备份 措施 ， 一 般 都 是 在 底层 设备 上 进行 ， 而 不 耗费 
主机 资产 。 


现在 几乎 各 个 盘 阵 厂家 的 中 高 端 产 品 ， 都 提供 远程 镜像 服务 ， 比 
如 IBM 的 PPRC、EMC 的 SRDF、HDS 的 Truecopy、Netapp 的 SnapMirror 
等 。 


16.2.3 快 ( 块 ) 照 数据 保护 


远程 镜像 ， 或 者 本 地 镜像 ， 确 实 是 对 生产 卷 数 据 的 一 种 很 好 的 保 
护 ， 一 旦 生产 卷 故 障 ， 可 以 立即 切换 到 镜像 卷 。 但 是 这 个 镜像 卷 ， 一 
定 要 保持 一 直 在 线 状态 ， 主 卷 有 写 IO 操 作 ， 那 么 镜像 卷 也 有 写 IO 操 
作 。 如 果 某 时 刻 想 对 整个 镜像 卷 进行 备份 ， 需 要 停止 读 写 主 卷 的 应 
用 ， 使 应 用 不 再 对 卷 产 生 IO 操 作 ， 然 后 将 两 个 卷 的 镜像 关系 分 离 ， 这 
就 是 拆 分 镜像 。 切 分 过 程 是 很 快 的 ， 所 以 短暂 的 IO 暂 不 会 对 应 用 产生 
太 大 的 影像 。 


拆 分 之 后 ， 可 以 恢复 上 层 的 IO。 由 于 拆 分 之 后 已 经 切 离 的 镜像 关 
系 ， 所 以 镜像 卷 不 会 有 IO 操作 。 此 时 的 镜像 卷 ， 就 是 主机 停止 IO 那 一 
刻 的 原 卷 数据 的 完整 镜像 ， 此 时 可 以 用 备份 软件 将 镜像 卷 上 的 数据 备 
份 到 其 他 介质 。 


拆 分 镜像 ， 是 为 了 让 镜像 卷 保持 拆 分 一 瞬间 的 状态 ， 而 不 再 继续 
被 写 入 效 据 。 而 拆 分 之 后 ， 主 卷 所 做 的 所 有 写 IO 动 作 ， 会 以 bitmap 的 
方式 记录 下 来 。bitmap 就 是 一 份 位 图 文件 ， 文 件 中 每 个 位 都 表示 卷 上 
的 一 个 块 (局 区 ,或 者 由 多 个 局 区 组 成 的 逻辑 块 ) ， 如 果 这 个 块 在 拆 
分 镜像 之 后 ， 被 写 入 了 数据 ， 则 程序 就 将 bitmap 文 件 中 对 应 的 位 从 0 变 
成 1。 待 备份 完成 之 后 ， 可 以 将 镜像 关系 恢复 ， 此 时 主 卷 和 镜像 卷 上 的 
数据 是 不 一 致 的 ， 需 要 重新 做 同步 。 程 序 会 搜索 bitmap 中 所 有 为 1 的 
位 ， 对 应 到 卷 上 的 块 ， 然 后 将 这 些 块 上 的 数据 同步 到 镜像 卷 ， 从 而 恢 
复 实时 镜像 天 系 。 


可 以 看 到 ， 以 上 的 过 程 是 十 分 复杂 烦 开 的 ， 而 且 需 要 占用 一 块 和 
主 卷 相同 容量 大 小 的 卷 作 为 镜像 卷 。 最 为 关键 的 是 ， 这 种 备份 方式 需 
要 停 掉 主机 IO， 这 对 应 用 会 产生 影响 。 而 “快照 技术 ”解决 了 这 个 难 
题 。 快 照 的 基本 思想 是 ， 抓 取 某 一 时 间 点 磁盘 〈 卷 ) 上 的 所 有 数据 ， 
而 且 完 成 速度 非常 快 ， 就 像 照 相机 快门 一 样 。 


下 面 介绍 快照 的 底层 原理 。 


1。 基于 文件 系统 的 快照 


自然 界 是 不 断 变化 的 。 可 以 用 照相 机 抓拍 到 某 个 时 间 点 的 瞬间 影 
像 。 为 什么 要 对 自然 界 照 相 ? 为 了 留 下 美好 的 记忆 。 计 算 机 存储 的 电 
子 数据 也 是 在 不 断 变 化 的 ， 为 了 抓拍 下 某 一 时 间 点 某 份 数据 集 的 内 
容 ， 需 要 一 种 “数据 照相 机 ”。 为 什么 要 对 电子 数据 进行 抓拍 ? 为 了 预 
防 数 据 被 “污染 *"， 或 者 逻辑 上 被 损毁 ， 比 如 病毒 大 沁 围 感染 、 配 置信 
息 朋 溃 、 系 统 骨 省 等 。 拍 下 一 些 历 史 时 刻 的 数据 内 容留 底 。 自 然 界 照 
片 至 少 现在 还 不 可 以 回 深 ， 但 是 电子 数据 的 照片 确 是 可 以 回 深 的 ， 并 
且 可 以 从 这 个 时 间 点 为 起 点 重头 来 过 ,或 者 从 这 个 时 间 点 的 数据 影像 
创建 出 多 份 平行 的 存储 空间 (克隆 ) 。 


A 兄 提出 的 办 法 :“ 快 速 将 某 文 件 系 统 内 的 文件 全 部 复制 到 另外 一 
个 地 方 存放 ， 这 份 复 制 出 来 的 文件 集 就 是 源 文件 系统 在 复制 开始 那 一 
时 刻 的 快照 ! ”这 种 做 法 有 什么 问题 ?如 果 文 件 容量 很 大 ， 复 制 需要 很 
长 时 间 ， 而 这 段 时 间 内 源 文 件 系统 内 有 数据 发 生 更 改 怎 么 办 ?抓拍 移 
动 的 景物 ， 曝 光 时 间 越 长 ， 得 到 的 照片 就 会 重 影 、 模 糊 甚至 花脸 ! 对 
于 电子 数据 也 一 样 ， 如 果 曝 光 (复制 ) 时 间 过 长 ， 曝 光 (复制 ) 的 过 
程 中 被 拍摄 的 对 象 有 移动 (数据 被 更 改 ) ， 那 么 所 得 到 的 照片 (数据 
快照 ) 就 是 一 份 花 脸 照 片 (得 到 的 数据 集 前 后 不 一 致 〉。 


B 兄 提出 了 改进 方法 : 在 复制 时 禁止 一 切 针对 源 文件 系统 的 更 改 
操作 ， 即 茶 止 一 切 写 IO。 等 复制 完成 时 再 恢复 。 看 来 B 兄 是 个 不 合格 
的 摄影 师 。 自 己 摄影 技术 太 差 ， 倒 霉 的 是 来 拍照 的 人 ， 强 行 让 客户 静 
止 不 动 长 达 几 分 钟 ， 霸 王 条 球 ! 


C 兄 出 马 了 : “从 本 质 上 解决 这 个 问题 ， 必 须 降低 曝光 (数据 复 
制 ) 时 间 ! 同时 只 需 被 拍照 者 〈 应 用 程序 ) 只 静止 一 瞬间 就 可 以 了 ! ” 


D 兄 出 面 了 :“C 兄 说 得 很 对 ! 我 有 个 办 法 可 以 一 举 两 得 地 保证 这 
两 个 苛刻 需求 的 落地 ! ”D 兄 有 何 秘籍 ”万 变 不 离 其 宗 ! 其 “ 宗 " 为 文件 
系统 元 数据 和 链 。 牵 一 发 而 动 全 身 ， 只 要 抓 住 了 文件 系统 元 数据 链 ， 就 
等 于 掌握 了 目前 这 个 文件 系统 内 的 所 有 信息 。 而 对 于 一 个 文件 系统 来 
讲 ， 其 元 数据 量 相对 整体 数据 量 是 很 少 的 。 如 果 在 复制 的 时 候 只 复制 
元 数据 链 ， 也 就 是 整个 文件 系统 的 总 图 纸 ， 那 么 就 变相 地 拥有 了 一 份 
在 复制 一 刹那 这 个 文件 系统 中 的 所 有 内 容 的 组 织 结构 树 。 


顿时 ，A、B、C 三 位 老兄 开始 狂 胡 滥 炸 :“ 只 复制 元 数据 链 ， 那 么 
复制 过 程 是 可 以 大 大 降低 了 ， 但 是 如 何 解 决 在 复制 完成 之 后 仍然 允许 
用 户 程序 更 改 源 数据 呢 ? 一 旦 有 数据 被 更 改 ， 那 么 复制 出 来 的 图 纸 就 
相当 于 作废 了 ， 因 为 图 纸 与 实际 内 容 已 经 对 不 上 号 了 ! ” 


D 兄 从 容 应 对 :“ 我 自 有 办 法 。 产 文件 数据 当然 不 能 让 它 就 这 么 被 
覆 竺 择 。 有 以 下 两 种 办 法 来 保证 。” 


办 法 一 : 元 数据 复制 完成 之 后 所 有 针对 源 文件 系统 的 更 改 文件 块 
均 将 其 重 定向 到 一 块 空余 的 空间 内 存放 ， 并 且 在 源 文件 系统 的 元 数据 
更 新 对 应 的 指针 条 目 来 告诉 系统 说 源 文 件 系统 内 某 文 件 的 某 些 块 的 最 
新 内 容 其 实 被 重 定向 存储 到 了 新 的 空间 内 的 某 某 地 址 。 这 样 就 可 以 永 
和 久 地 将 快照 创建 瞬间 的 数据 全 部 冻 住 ， 之 后 所 有 更 改 都 被 重 定 向 到 剩 
余 空间 存放 。 此 时 系统 内 保存 着 两 套 元 数据 链 ， 一 套 是 源 文 件 系统 
的 ， 会 被 不 断 地 更 新 ; 另 一 套 则 是 快照 时 保存 下 来 的 ， 永 不 更 新 ， 而 
且 其 指向 的 实际 存储 位 置 上 的 数据 也 不 会 被 覆盖 。 随 着 源 数 据 被 不 断 
覆盖 而 产生 的 重 定向 写 动作 ， 空 内 空间 内 会 逐渐 产生 一 个 当前 时 间 点 


文件 系统 全 部 数据 的 影像 ， 而 拍照 那 一 刻 的 历史 时 间 点 的 源 文件 系统 
影像 则 永久 被 东 住 为 快照 生成 瞬间 的 历史 时 间 点 影像 。 这 种 思路 叫 : 
Redirect on First Write (RoFW) 。 之 所 以 只 在 首次 覆盖 写 时 重 定向 ， 
是 因为 只 要 重 定向 出 去 之 后 ， 产 数据 块 后续 的 覆盖 就 会 直接 在 重 定向 
之 后 的 块 地 址 上 直接 覆盖 之 前 被 重 定向 出 来 的 块 了 。 


办 法 二 : 元 数据 复制 完成 之 后 ， 所 有 针对 源 文件 系统 中 文件 的 覆 
盖 写 操作 均 照 常 执 行 ， 但 是 在 覆盖 对 应 的 数据 块 之 前 ， 需 要 将 被 覆盖 
的 数据 块 内 容 复制 出 来 ， 存 放 到 一 个 额外 的 空 朵 空间 内 存放 ， 并 且 在 
之 前 被 复制 出 来 的 元 数据 链 中 更 新 这 个 新 指向 记录 ， 将 历史 的 一 部 分 
指向 被 复制 出 来 的 数据 块 ， 历 史 的 另 一 部 分 则 与 现在 是 重 冯 存在 的 。 
系统 中 依然 有 两 套 元 数据 链 ， 一 套 指向 当前 ， 另 一 套 指向 历史 。 这 样 
处 理 之 后 ， 产 文件 系统 存储 空间 中 永远 都 是 最 新 的 数据 ， 而 历史 数据 
会 随 着 覆盖 写 入 操作 的 不 断 进行 而 被 逐渐 搬出 原 存 储 空间 ， 存 入 空 闪 
空间 ， 最 后 在 空 闪 空间 内 生成 为 一 个 快照 生成 那个 瞬间 的 历史 影像 。 
这 种 思路 叫 : Copy on First Write (CoFW) 。 之 所 以 只 在 首次 覆盖 写 
时 复制 ， 是 因为 只 要 首次 复制 出 去 之 后 ， 源 数据 块 后 续 的 覆盖 写 动 作 
就 会 直接 在 源 数 据 集中 对 应 地 址 上 直接 覆盖 了 ， 因 为 历史 版 本 已 经 被 
保留 了 


我 们 知道 ， 文 件 系 统管 理 思想 的 精髓 就 在 于 它 的 链表 、B 树 和 位 
图 等 结构 ， 也 就 是 元 数据 (Metadata) ， 以 及 对 这 些 元 数据 的 管理 方 
式 。 文 件 系统 其 实 对 底层 磁盘 是 有 点 “了 恐惧” 的， 我 们 可 以 计算 一 下 ， 
一 个 100GB 的 磁盘 上 ， 有 超过 2 亿 个 局 区 。 文 件 系统 是 如 何 管理 这 2 亿 
个 局 区 ， 又 如 何 知 道 某 个 局 区 正在 使 用 呢 ? 如 果 使 用 的 话 ， 是 分 配给 
哪个 文件 或 者 文件 的 一 部 分 呢 ? 


文件 系统 首先 将 局 区 组 合成 更 大 的 逻辑 块 来 降低 管理 规模 。NTFS 
最 大 每 个 块 可 以 到 4KB ， 也 就 是 8 个 局 区 一 组 形成 一 个 得 〈 块 ， 
Block) 。 这 样 ，2 亿 的 管理 规模 便 会 除 8 ， 缩 小 到 1.2 千 万 的 管理 规 
模 ， 虽 然 存 储 空间 可 能 有 所 浪费 ， 但 是 切实 降低 了 管理 成 本 。 


其 次 ， 文 件 系 统 会 创建 所 管理 存储 空间 上 所 有 艇 〈 块 ) 的 位 图 文 
件 ， 这 个 文件 有 固定 的 入 口 ， 文 件 系统 能 在 1.2 干 万 个 块 中 快速 定位 到 
这 个 文件 入 口 并 读 写 。 位 图 文件 中 每 个 位 代表 卷 上 的 一 个 艇 (或 者 物 
理 扇 区 ， 视 设计 不 同 而 决定 ) ， 如 果 禾 正在 被 某 个 文件 使 用 ， 这 个 徐 
在 位 图 中 对 应 的 位 的 值 就 为 1; 否则 为 0。 


再 次 ， 文 件 系统 还 保存 一 份 文 件 和 其 所 对 应 簇 号 的 映射 链 ， 这 个 
映射 链 本 身 以 及 禾 位 图 本 身 也 是 文件 ， 也 要 有 自己 的 映射 链 ， 所 以 针 
对 这 些 重要 的 元 数据 ， 必 须 有 一 个 固定 的 入 口 ， 用 来 让 文件 系统 程序 
读 入 并 且 遍 历 所 有 文件 系统 元 数据 。 通 常 将 这 个 初始 固定 地 址 入 口 称 
为 root inode， 不 同 操作 系统 具体 实现 方式 不 同 。 


当 向 卷 中 写 入 一 个 新 文件 ， 文 件 系 统 首先 会 查找 复位 图 ， 找 到 位 
值 为 0 所 对 应 的 族 号 ， 并 计算 所 需 的 空间 ， 然 后 分 配 这 些 禾 号 给 这 个 文 
件 。 它 首先 将 文件 实体 数据 写 入 对 应 的 族 ， 然 后 再 去 文件 一 艇 号 映射 
图 中 更 新 ， 将 新 文件 与 其 对 应 的 簇 映射 关系 记录 下 来 ， 最 后 到 艇 位 图 
中 将 这 些 簇 对 应 的 位 的 值 从 0 改 为 1。 如 果 要 删除 这 个 文件 ， 则 直接 在 
inode 链 中 将 这 个 文件 的 inode 抹 掉 即 可 ， 然 后 在 簇 位 图 中 将 对 应 禾 的 位 
值 从 1 改 为 0。 


文件 系统 并 不 会 抹 掉 这 个 被 删除 文件 所 对 应 卷 上 的 艇 中 的 实际 数 
据 ， 如 果 用 扇 区 读 写 软件 来 提取 这 个 族 ， 就 会 得 到 这 个 文件 的 部 分 内 
容 。 虽 然 这 些 和 族 中 依然 有 内 容 ， 但 是 对 于 文件 系统 来 说 ， 这 些 簇 是 可 


重用 的 ， 一 旦 有 新 文件 写 入 ， 新 文件 的 数据 便 会 覆盖 原来 复 中 的 数 
据 。 


所 以 ， 对 于 一 个 文件 系统 来 说 ， 最 重要 的 不 是 卷 族 中 的 数据 ， 而 
是 文件 一 族 号 映射 链 和 位 图 等 这 些 元 数据 。 比 如 ， 想 要 破坏 某 个 文件 
系统 中 的 某 个 文件 ， 我 们 不 必 费 劲 地 修改 某 个 文件 对 应 簇 中 的 实际 内 
容 ， 只 需 修改 一 下 文件 一 簇 号 映射 链 中 关于 这 个 文件 所 对 应 的 实际 艇 
号 的 记录 即 可 ， 让 它 指向 其 他 族 号 。 


这 样 ， 文 件 读 出 来 的 内 容 就 不 是 原 有 内 容 。 此 外 ， 如 果 修 改 了 文 
件 系统 中 对 应 簇 中 的 数据 ， 文 件 系 统 也 根本 感知 不 到 这 些 动作 ， 因 为 
它 所 查询 的 是 文件 一 簇 号 映射 链 ， 它 只 知道 某 个 文件 对 应 着 哪些 簇 ， 
而 不 关心 这 些 簇 是 否 被 改过 ， 它 想 关 心 也 无 法 关心 。 


正 因 为 文件 系统 只 是 根据 它 所 记录 的 这 些 映射 图 表 来 管理 文件 ， 
所 以 才 使 得 快照 成 为 可 能 。 为 什么 呢 ? 


思考 : 如 果 我 们 想 抓 取 某 个 卷 在 某 一 时 刻下 的 全 部 数据 ， 就 
可 以 像 照相 机 一 样 ， 对 一 个 正在 移动 的 物体 实施 拍照 ， 某 一 
时 刻 ， 快 门 打 开 ， 曝 光 后 关闭 。 照 相机 可 以 保存 在 底片 上 ， 
但 照 下 的 数据 如 何 保 存 呢 ? 


如 果 一 个 卷 上 有 100GB 容 量 的 文件 ， 照 下 来 之 后 ， 用 另 一 块 磁盘 
将 数据 全 部 复制 出 来 ， 至 少 需要 20 分 钟 的 时 间 ， 且 在 这 段 时 间 内 ， 不 
允许 再 有 任何 数据 被 写 入 这 个 卷 ， 因 为 我 们 要 抓 取 的 是 这 个 卷 在 这 个 
时 刻 瞬 间 的 数据 。 


对 于 拍照 移动 中 的 物体 ， 要 想 保证 照片 清晰 没有 重 影 ， 就 要 降低 
曝光 时 间 ， 但 是 曝光 时 间 越 短 ， 照 片 感 光度 就 会 越 低 ， 也 会 影响 质 


量 。 同 样 ， 对 于 一 个 正在 进行 频繁 IO 写 入 的 数据 卷 ， 要 照 下 它 某 时 刻 
的 样子 ， 也 需要 减少 “曝光 ”时 间 。 但 是 刚才 已 经 说 过 ，100GB 的 数 
据 ， 复 制 出 来 需要 20 分 钟 时 间 ， 这 个 “曝光 ”时 间 太 长 了 。 要 么 物体 在 
拍摄 的 时 候 保 持 静 止 《复制 卷 的 时 候 停止 IO) ， 要 么 就 减少 曝光 时 间 
(加 快 复制 速度 ) ， 这 两 样 ， 我 们 一 样 也 保证 不 了 ， 因 为 停止 IO 会 直 
接 影 响 上 层 应 用 ， 而 且 也 无 法 在 几 秒 钟 《应 用 停止 IO 可 接受 的 时 间 
内 ) 之 内 将 100GB 的 数据 复制 出 来 。 难 道 就 真 的 没有 办 法 了 么 ? 非 
也 。 


思考 : 如 果 我 们 只 人 花 几 秒 甚 至 1 秒 钟 的 时 间 ， 把 某 时 刻 的 文 
件 系统 中 的 映射 图 表 ， 以 及 下 级 链表 等 元 数据 复制 出 来 并 保 
存 ， 那 么 是 不 是 就 可 以 说 ， 我 们 照 下 了 这 个 时 间 点 处 卷 上 的 
所 有 效 据 呢 ? 


绝对 是 的 。 因 为 文件 系统 只 根据 这 些 映 射 图 来 对 应 卷 上 的 实际 数 
据 ， 所 以 只 要 有 了 了 映射 图 ， 就 可 以 按 图 索 红 ， 找 到 并 拥有 实际 的 数 
据 。 但 是 ， 将 此 时 刻 的 映射 图 复制 出 来 ， 我 们 也 只 得 到 了 一 个 图 纸 而 
已 ， 因 为 实际 数据 在 卷 上 ， 是 实 实在 在 的 物理 卷 ， 而 不 是 在 图 纸 上 ， 
所 以 我 们 必须 保证 卷 上 的 数据 不 被 IO 写 入 ， 而 同时 又 不 能 影响 应 用 ， 
既然 不 能 影响 应 用 ， 就 要 让 IO 继续 执行 ， 这 简直 是 个 大 大 的 矛盾 啊 ! 


思考 : 源 块 不 能 被 写 入 新 数据 ， 这 个 绝对 要 保证 ， 否 则 这 张 
“照片 ?就 花脸 了 ， 而 同时 应 用 的 IO 也 必须 持续 不 断 地 执行 
〈( 写 入 ) ， 既 然 源 块 不 让 写 入 了 ， 那 能 不 能 写 入 到 其 他 空闲 
的 地 方 呢 ? 


当然 可 以 ! 每 当 遇 到 需要 向 原 卷 写 入 新 文件 或 者 更 新 旧 文 件 ， 文 
件 系统 便 将 这 些 更 新 数据 写 入 一 个 新 的 空闲 的 地 方 去 ， 然 后 在 它 的 映 


射 图 中 加 入 对 应 的 条 目 。 由 于 我 们 已 经 保存 了 原来 的 映射 图 ， 而 且 也 
拥有 一 份 不 让 写 入 的 原 卷 实 体 数据 ， 所 以 不 怕 它 修改 。 文 件 系统 当前 
的 映射 图 (元 数据 ) 始终 描述 的 是 当前 的 映射 关系 。 这 样 ， 应 用 继续 
执行 IO， 同 时 ， 我 们 也 可 以 将 照 下 来 的 原 卷 数据 复制 出 去 ， 从 而 得 到 
一 份 某 时 刻 的 瞬间 的 卷 数 据 。 我 们 完全 可 以 选择 不 复制 这 份 快 照 ， 就 
让 它 留 在 那 ， 因 为 快照 根本 不 占用 额外 的 空间 ， 除 非 针对 这 个 卷 有 新 
的 IO 写 入 ， 则 新 族 会 写 向 其 他 地 方 ， 从 而 占用 相应 大 小 的 空间 ， 一 旦 
原 卷 所 有 禾 都 被 更 新 了 ， 那 么 也 就 意味 着 在 空 闪 空间 内 逐渐 生成 了 一 
个 完整 的 新 卷 了 ， 其 占用 与 原 卷 相同 大 小 的 空间 。 


图 16-1 所 示 为 CoFW 模 式 下 的 几 个 典型 流程 。 
图 16-1 CoFW 快 照 示意 图 


(1) 源 文件 系统 (当前 活动 文件 系统 ， 即 正在 被 应 用 程序 读 写 的 
生产 文件 系统 ) 初始 状态 : 数据 不 断 地 被 读 取 或 者 写 入 ， 实 际 数据 块 
(文件 块 ， 如 A、B、C、D) 以 及 元 数据 链 也 在 不 断 变 化 。 


(2) 之 后 某 时 刻 ， 系 统 被 触发 了 一 份 快照 。 系 统 将 所 有 写 IO 暂 
挂 ， 然 后 立即 开始 将 整个 文件 系统 的 元 数据 链 复制 一 份 存放 ， 复 制 完 
成 后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 数据 链 是 与 当前 活动 元 数据 
链 完 全 相同 的 ， 所 以 此 时 此 刻 其 指向 底层 数据 块 与 当前 活动 元 数据 链 
也 是 相同 的 。 


(3) 之 后 某 时 刻 应 用 程序 要 更 改 当 前 活动 文件 系统 中 的 C 数 据 块 
为 C'， 属 于 首次 覆盖 写 ， 根 据 CoFW 规 则 ， 需 要 先 将 原来 的 C 数 据 块 复 
制 出 来 ， 然 后 再 写 入 C' 数 据 块 。 之 后 ， 在 快照 元 数据 链 中 将 原本 指向 C 


块 地 址 (现在 的 C' 块 的 地 址 ) 的 指针 改 为 指向 被 复制 出 来 的 C 块 的 新 
地 址 上 。 


(4) 同 理 ， 之 后 某 时 刻 A 被 覆盖 更 改 为 A'， 那 么 系统 同样 也 将 A 
复制 出 来 并 且 修 改 快照 元 效 据 链 中 的 指针 。 


(5) 在 这 一 步 中 ，B 被 更 改 为 B',，B 同 样 被 拷 出 。 同 时 ， 应 用 程 
序 对 当前 活动 文件 系统 做 了 一 个 追加 写 动 作 ， 比 如 扩大 了 某 文 件 之 
类 ， 产 生 了 一 个 新 分 配 的 文件 数据 块 E， 由 于 这 个 文件 系统 在 快照 那 
一 刻 的 历史 版 本 中 并 没有 这 个 数据 ， 所 以 系统 并 不 会 作 任何 后 台 复 制 
动作 。 对 于 追加 写 的 数据 块 ， 快 照 系 统 不 做 任何 处 理 。 应 注意 ， 追 加 
与 是 文件 系统 中 经 常 发 生 的 事情 ， 追 加 写 会 伴随 着 元 数据 的 数量 和 容 
量 的 变化 而 不 仅 是 指针 指向 的 改变 ， 也 就 相当 于 图 纸 扩 大 幅面 了 。 但 
是 对 于 LUN 或 者 卷 来 讲 ， 并 没有 追加 写 这 一 说 ， 卷 的 容量 和 位 置 是 固 
定 的 ， 除 非 某 些 场景 下 将 某 个 LUN 扩 容 ， 而 这 个 动作 也 不 需要 后 台 的 
快照 处 理 进程 做 什么 事情 ， 因 为 历史 时 刻 这 个 LUN 并 没有 扩容 ， 所 以 
当前 活动 LUN 起 么 折腾 都 行 ， 只 要 不 发 生 需 要 首次 覆 孟 产 数 据 块 的 情 
况 ， 快 照 无 须 做 任何 处 理 ， 拿 好 手中 的 图 纸 ， 监 控 好 首次 覆盖 动作 即 
可 。 另 外 ， 这 一 步 中 还 有 一 个 动作 ， 即 C 被 覆盖 写 为 C"， 由 于 C 块 之 前 
已 经 被 覆盖 过 一 次 ， 所 以 这 次 系统 直接 用 C" 和 覆盖 之 前 的 C'， 无 须 任何 
处 理 过 程 。 


(6) 当 源 文件 系统 内 所 有 数据 块 都 被 覆盖 写 了 一 遍 之 后 ， 系 统 内 
将 有 两 套 完整 的 文件 系统 数据 集 : 一 套 是 当前 活动 文件 系统 ， 另 一 套 
则 是 这 个 文件 系统 所 对 应 的 历史 快照 时 刻 的 数据 版 本 。 


图 16-2 所 示 为 RoFW 模 式 下 的 系统 快照 处 理 流程 。 


图 16-2 ”RoFW 快 照 示 意图 


(1) 源 文件 系统 (当前 活动 文件 系统 ， 即 正在 被 应 用 程序 读 写 的 
生产 文件 系统 ) 初始 状态 : 数据 不 断 地 被 读 取 或 者 写 入 ， 实 际 数据 块 
(文件 块 ，A、B、C、D) 以 及 元 数据 链 也 在 不 断 变 化 。 


(2) 之 后 某 时 刻 ， 系 统 被 触发 了 一 份 快照 。 系 统 将 所 有 写 IO 暂 
挂 ， 然 后 立即 开始 将 整个 文件 系统 的 元 数据 链 复制 一 份 存放 ， 复 制 完 
成 后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 数据 链 是 与 当前 活动 元 数据 
链 完全 相同 的 ， 所 以 此 时 此 刻 其 指向 底层 数据 块 与 当前 活动 元 数据 链 
也 是 相同 的 。 


(3) 之 后 某 时 刻 应 用 程序 要 更 改 当 前 活动 文件 系统 中 的 C 数 据 块 
为 C'， 属 于 首次 覆盖 写 ， 根 据 RoFW 规 则 ， 直 接 将 C' 数 据 块 重 定向 写 入 
到 某 剩余 空间 内 。 之 后 ， 将 当前 活动 文件 系统 元 数据 链 中 原本 指向 C 
块 地 址 (现在 依然 是 C 块 的 地 址 ) 的 指针 改 为 指向 被 重 定向 写 出 去 的 
C' 块 的 新 地 址 上 。 


(4) 同 理 ， 之 后 某 时 刻 A 被 覆盖 更 改 为 A'， 那 么 系统 同样 也 将 A， 
重 定向 写 出 ， 并 且 修 改 当 前 活动 文件 系统 元 数据 链 中 的 指针 。 


(5) 在 这 一 步 中 ，B 被 更 改 为 B'，B' 同 样 被 重 定 向 。 同 时 ， 应 用 
程序 对 当前 活动 文件 系统 做 了 一 个 追加 写 动 作 ， 比 如 扩大 了 某 文件 之 
类 ， 产 生 了 一 个 新 分 配 的 文件 数据 块 E， 由 于 这 个 文件 系统 在 快照 那 
一 刻 的 历史 版 本 中 并 没有 这 个 数据 ， 所 以 系统 并 不 会 作 任何 后 台 重 定 
向 动作 。 对 于 追加 写 的 数据 块 ， 快 照 系统 不 作 任 何 处 理 。 另 外 ， 这 一 
步 中 还 有 一 个 动作 ， 即 C 被 覆盖 写 为 C"， 由 于 C 块 之 前 已 经 被 重 定 向 过 
一 次 ， 所 以 这 次 系统 直接 用 C" 覆 盖 之 前 的 C'， 无 须 任 何 处 理 过 程 。 


(6) 当 源 文件 系统 内 所 有 数据 块 都 被 覆盖 写 了 一 遍 之 后 ， 系 统 内 
将 有 两 套 完整 的 文件 系统 数据 集 : 一 套 是 当前 活动 文件 系统 ， 另 一 套 
则 是 这 个 文件 系统 所 对 应 的 历史 快照 时 刻 的 数据 版 本 。 


16-3 所 示 为 在 RoFW 模 式 下 生成 两 个 快照 之 后 系统 的 处 理 流 程 示 
意图 。 


图 16-3 ”RoFW 模 式 生 成 两 份 快照 后 处 理 流程 示意 图 


(1) 某 时 刻 的 状态 如 图 中 1 号 框 所 示 ， 已 经 生成 了 一 份 快 照 ， 并 
且 重 定向 写 出 了 A' 和 C' 这 两 个 数据 块 。 


(2) 之 后 某 时 刻 ， 当 前 活动 文件 系统 的 B 被 更 新 为 B'"， 则 系统 直 
接 将 B' 重 定向 写 出 去 。 然 后 ， 系 统 又 被 触发 了 一 份 快照 。 系 统 将 所 有 
写 IO 暂 挂 ， 然 后 立即 开始 将 整个 当前 活动 文件 系统 的 元 数据 链 复制 一 
份 存 放 ， 复 制 完 成 后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 数据 链 是 与 
当前 活动 元 数据 链 完全 相同 的 ， 所 以 此 时 此 刻 其 指向 底层 数据 块 与 当 
前 活动 元 数据 链 也 是 相同 的 。 可 以 看 到 数据 块 D 是 被 三 套 元 数据 链 共 
享 指向 的 。 


(3) 之 后 某 时 刻 应 用 程序 要 更 改 当 前 活动 文件 系统 中 的 A' 数 据 块 
为 A"， 此 时 是 否 需要 做 一 些 动作 ? 我 们 来 看 一 下 ， 对 于 快照 1 来 讲 ， 
A' 已 经 是 被 重 定向 复制 出 去 的 块 了 ， 那 么 对 于 快照 1 来 讲 是 不 需要 重 定 
回 写 ， 但 是 对 于 快照 2 呢 ? 就 不 同 了 ， 对 于 快照 2 来 讲 ， 用 A" 覆 盖 A' 就 
属于 首次 覆盖 了 ， 所 以 需要 将 A" 重 定向 写 出 去 。 同 时 可 以 看 到 A' 对 于 
当前 活动 文件 系统 和 快照 1 来 讲 已 经 没有 用 了 (不 指向 它 了 ) ， 但 是 对 
于 快照 2 来 讲 却 是 必须 的 ，A' 是 快照 2 时 刻 这 个 块 所 对 应 的 历史 版 本 。 


(4) 同 理 ， 之 后 某 时 刻 D 被 覆盖 更 改 为 D'"， 那 么 系统 同样 也 将 DD 
重 定向 写 出 ， 并 且 修 改 当前 活动 文件 系统 元 数据 链 中 的 指针 。D 这 个 
数据 块 依然 保留 ， 因 为 快照 1 与 快照 2 共同 指向 它 。 


(5) 在 这 一 步 中 ，B' 被 更 改 为 B"，C' 被 更 改 为 C"，B" 与 C" 同 样 
被 重 定向 写 出 去 并 更 改 当前 活动 文件 系统 元 数据 链 指向 。 可 以 看 到 D 
数据 块 仍然 被 两 个 快照 共享 。 而 当前 活动 文件 系统 的 实际 数据 块 已 经 
全 部 被 重 定向 写 出 去 了 。 


还 没 结束 。 到 这 一 步 看 似 很 完美 了 ， 给 文件 系统 拍照 的 全 流程 已 
经 梳理 完毕 ， 但 是 要 考虑 精益 求 精 。 在 面 对 一 个 海量 庞大 文件 系统 的 
时 候 ， 其 元 数据 量 可 能 会 达到 上 GB 甚至 上 百 GB， 这 都 是 有 可 能 的 。 
而 此 时 如 果 对 这 个 文件 系统 做 快照 ， 首 次 的 元 数据 复制 所 耗费 的 时 间 
将 是 不 可 接受 的 。 有 没有 办 法 再 降低 复制 量 ? 


我 们 还 是 用 万 变 不 离 其 宋 、 牵 一 发 动 全 身 这 两 个 思想 来 作为 解决 
这 个 问题 的 入 口 。 整 个 文件 系统 的 “ 宗 ” 就 是 其 元 数据 链 ， 那 么 元 数据 
链 本 身 有 没有 一 个 “ 宗 ” 呢 ? 对 了 ， 确 实 有 。 这 个 “ 宗 ” 就 是 其 根 入 口 
块 ， 或 者 称 Super Block。 这 个 块 的 地 址 在 底层 空间 上 是 绝对 恒定 的 ， 
这 个 块 内 存放 有 指向 下 一 级 元 数据 链 块 的 指针 ， 操 作 系统 每 次 载 入 元 
数据 都 要 从 这 个 地 址 读 入 Super Block， 从 而 根据 其 中 的 指针 一 层 层 地 
向 下 遍历 。 那 么 我 们 如 果 在 每 次 快照 的 时 候 只 将 Super Block 复 制 保 
存 ， 是 否 可 以 呢 ? 


当然 可 以 。 如 果 只 复制 Super Block， 那 么 其 下 级 的 所 有 元 数据 链 
自身 的 变更 ， 也 要 进入 CoFW 或 者 RoFW 流 程 了 。 图 16-4 所 示 为 只 复制 
根 节 点 Super Block 并 且 使 用 RoFW 模 式 下 的 文件 系统 快照 流程 示意 


16-4 只 复制 Super Block 的 RoFW 模 式 示 意图 


(1) 源 文件 系统 〈 当 前 活动 文件 系统 ， 即 正在 被 应 用 程序 读 写 的 
生产 文件 系统 ) 初始 状态 : 数据 不 断 地 被 读 取 或 者 写 入 。Super Block 
指向 了 两 个 一 级 间接 inode (i1 与 2) 。i1 与 2 又 分 别 指 向 了 两 个 实际 数 
据 块 A、B 与 C、D。 当 然 ， 实 际 情况 下 不 可 能 只 有 这 么 少 的 间接 块 以 
及 这 么 浅 的 数据 链 级 数 ， 这 里 只 是 一 个 示意 图 。 此 时 此 刻 ，A、B、 
C、D 四 个 块 的 内 容 不 断 变化 ， 但 是 il 与 这 间接 块 的 内 容 却 不 变 ， 因 为 
i1 块 的 内 容 是 A 与 B 块 所 在 的 地 址 ， 同 样 ，i2 块 中 的 内 容 其 实 是 C 与 D 块 
所 在 的 地 址 ， 也 就 是 说 i1 与 i2 块 其 实 是 个 指针 块 ，ABCD 的 内 容 不 断 在 
变 ， 但 是 它们 在 底层 存储 空间 上 的 地 址 偏 移 是 不 变 的 ， 所 以 计 与 这 块 
内 容 也 不 会 变 。 当 i1 或 者 2 间接 块 对 应 的 文件 发 生长 度 变 化 时 ，i1l 或 者 
i2 可 能 会 变化 ， 比 如 新 指向 一 个 E 块 ，i1 或 者 2 中 就 需要 新 添加 一 个 地 
址 指针 来 指向 E 块 。 


(2) 某 时 刻 ， 系 统 触 发 了 一 份 快照 ， 此 时 只 需要 将 Super Block 复 
制 保 存 即 可 。 


(3) 随后 ， 数 据 块 A 发 生 内 容 变更 ， 由 于 RoFW 模 式 的 作用 ， 新 
数据 块 A' 需 要 重 定向 到 一 个 新 位 置 上 ， 并 且 修 改 指针 指向 ， 也 就 是 修 
改 i1 块 中 的 指针 将 其 指向 A' 块 的 位 置 ， 那 么 也 就 意味 着 ，i1 块 的 内 容 也 
发 生 了 改变 ， 变 为 i1'"， 那 么 同样 也 需要 将 i1' 重 定向 写 入 新 位 置 ， 牵 一 
发 而 动 全身 ，i1 的 指针 变 了 ，Super Block 中 针对 原本 i1 的 指针 现在 也 需 
要 指向 i1' 的 新 地 址 。i1' 中 针对 B 数 据 块 的 指针 不 变 ， 仍然 指 向 原 B 块 地 
址 。 


(4) 随后 ， 数 据 块 B 发 生 了 变更 ， 变 为 B'，B' 当 然 要 被 CoFW，B 
的 上 一 级 间接 块 为 i1 的 指针 也 要 改 ， 由 于 之 前 i1' 已 经 被 做 了 RoW， 所 


以 本 次 只 要 在 i1’ 中 将 B 的 指针 指向 B' 新 地 址 即 可 。 这 一 步 之 后 ，i1 块 及 
其 下 挂 的 数据 块 AB 只 被 快照 所 使 用 ， 而 i2 及 其 下 挂 的 数据 块 CD 仍 为 
活动 文件 系统 以 及 快照 所 共享 。 


(5) 随后 ，C 发 生变 更 ， 执 行 与 之 前 相同 的 动作 ， 这 里 不 再 叙 


述 。 


(6) 当 A、B、C、D 都 发 生变 更 之 后 ， 其 对 应 的 上 一 级 间接 块 也 
随 之 都 发 生 了 变更 ， 也 都 被 CoFW 了 出 去 ， 最 后 系统 形成 了 两 份 独立 
的 文件 系统 元 数据 链 及 其 指向 的 实际 数据 块 。 


首次 只 复制 Super Block 的 做 法 加 快 了 复制 速度 ， 使 得 快照 真 的 可 
以 被 瞬间 执行 ， 但 是 后 续 依 然 需要 将 完整 的 元 数据 进行 CoFW 或 者 
RoFW， 相 比 于 首次 复制 全 部 元 数据 链 的 模式 ， 其 实 需要 复制 的 数据 
量 长 期 来 看 是 一 样 的 ， 但 是 前 者 却 可 以 更 加 迅速 地 完成 快照 拍摄 过 


程 。 


提示 : NetApp 公 司 的 WAFL 文 件 系统 利用 的 快照 方式 是 很 有 
特色 的 。 每 次 快照 ， 它 只 将 根 inode 复 制 并 保存 ， 而 不 保存 下 
级 链表 inode。 之 所 以 敢 这 么 做 的 原因 ， 是 因为 WAFL 从 来 不 
会 覆盖 写 入 某 个 文件 对 应 的 旧 块 。 不 论 是 元 数据 还 是 实体 数 
据 ，WAFL 统 统 写 入 到 卷 的 空闲 块 上 〈 根 节点 inode 映 射 图 位 
置 恒定 ， 每 次 更 新 会 覆盖 写 ) 。 这 样 ， 在 只 复制 了 根 节点 
inode 之 后 ， 由 于 下 级 链表 inode 均 不 会 被 覆 写 ， 所 以 同样 可 以 
保存 瞬间 的 snapshot。 其 他 的 快照 实现 方式 ， 一 般 都 将 所 有 
inode 复 制 并 保存 ， 因 为 它们 的 inode 都 是 恒定 位 置 的 ， 只 能 全 
部 覆 写 。WAEFL 的 这 种 模式 相当 于 是 只 复制 根 入 口 的 RowW 
(注意 不 是 RoFW) 模式 的 快照 。 


2. 基于 物理 卷 的 快照 


对 于 基于 物理 卷 的 快照 ， 其 比 文件 系统 快照 实现 起 来 要 简单 。 因 
为 LUN 或 者 卷 一 般 在 底层 磁盘 上 的 物理 位 置 是 恒定 的 ， 而 不 像 文 件 系 
统 那 样 可 以 随意 细 粒 度 地 分 布 。 正 因 如 此 ，LUN 的 映射 元 数据 链 并 不 
像 文 件 系统 那样 复杂 ， 可 以 认为 LUN 的 元 数据 就 是 其 在 底层 磁盘 上 的 
起 始 和 结束 地 址 。 


这 样 ， 在 拍照 时 ， 需 要 复制 的 元 数据 链 就 更 小 ， 是 真正 的 瞬间 完 
成 。 但 是 完成 之 后 就 难受 了 ， 需 要 按照 一 定 的 粒度 来 做 CoFW 或 者 
RoFW， 而 且 还 需要 记录 更 改 的 数据 映射 指针 ， 细 粒度 的 元 数据 指针 
是 文件 系统 的 特长 ， 现 在 就 需要 将 它 搬 到 LUN 卷 这 一 层 来 实现 了 。 对 
于 某 些 实现 了 块 级 虚拟 化 的 系统 如 NetApp、XIV、3PAR 等 ， 它 们 的 
LUN 在 底层 的 位 置 都 不 是 固定 的 ， 此 时 ，LUN 相 当 于 一 个 文件 ， 有 一 
串 类 文件 系统 的 元 数据 链 来 维护 这 些 映射 关系 。 所 以 ， 这 些 系统 实现 
快照 的 原理 与 文件 系统 级 快照 类 似 。 


基于 物理 卷 的 快照 ， 相 当 于 给 物理 卷 增加 了 一 个 “ 卷 扇 区 映射 管理 
系统 ”。 我 们 知道 ， 卷 扇 区 应 当 是 由 文件 系统 来 组 织 和 管理 的 ， 但 是 为 
了 减轻 文件 系统 负担 ， 人 们 在 底层 卷 这 个 层次 实现 快照 。 卷 局 区 都 是 
用 LBA 来 编号 的 ， 实 现 快照 的 时 候 ， 程 序 首先 保留 一 张 初始 LBA 表 ， 
每 当 有 新 的 写 入 请 求 的 时 候 ， 程 序 将 这 些 请 求 的 数据 写 入 另 一 个 地 方 
(一 般 是 一 个 新 卷 ， 专 为 快照 保留 的 ) ， 并 在 初始 LBA 表 中 做 好 记 
录 ， 比 如 : 


原始 LBA: 卷 A 的 10000 号 ， 映 射 到 LBA: 卷 B 的 100 号 


以 上 映射 条 目的 产生 ， 是 由 于 有 IO 请 求 写 入 数据 到 卷 A 的 10000 号 
LBA， 由 于 做 了 快照 ， 卷 A 在 这 个 快照 被 删除 之 前 不 允许 写 入 ， 所 以 
将 这 个 写 入 请 求 的 数据 ， 重 定向 写 到 卷 B 的 100 号 LBA 扇 区 上 。 值 得 说 
明 的 是 ， 文 件 系统 不 会 感知 到 这 个 重 定向 动作 ，FS 在 它 的 映射 图 中 依 
然 记录 了 卷 A 的 10000 号 LBA 地 址 而 根本 不 知道 还 有 个 卷 B。 


此 时 ， 如 果 文 件 系统 生成 了 一 个 IO 请 求 读 取 ， 或 者 写 入 卷 A 的 
10000 号 LBA 局 区 ， 那 么 运行 在 卷 层 的 快照 程序 便 会 查找 快照 重 定向 映 
射 表 ， 发 现 卷 A 的 10000 号 LBA 其 实 已 经 被 重 定向 到 了 卷 B 的 100 号 ， 然 
后 读 取 或 者 写 入 卷 B 的 100 号 扇 区 。 由 于 每 次 IO ， 程 序 均 会 查找 这 份 快 
照 映 射 表 ， 所 以 增加 了 处 理 时 间 ， 降 低 了 一 些 性 能 。 这 种 方式 称 为 
Redirect on First Write (RoFW) ， 意 思 是 重 定向 写 ， 也 就 是 将 更 新 的 
数据 写 入 另 一 个 地 方 ， 原 卷 数据 丝毫 不 动 ， 用 指针 来 记录 这 些 重 定向 
的 地 址 。 在 利用 RoFW 方 式 做 了 快照 之 后 ， 针 对 随后 的 每 个 针对 这 个 
卷 的 上 层 IO ， 程 序 都 需要 查 表 确 认 是 否 需要 重 定向 到 新 卷 (或 者 本 卷 
为 快照 所 保留 的 空间 ) ， 这 种 做 法 对 性 能 是 有 较 大 影响 的 ， 为 此 ， 有 
人 发 明了 另 一 种 方式 来 保存 快照 数据 。 


快照 生成 之 后 ， 如 果 上 层 有 和 针对 原 卷 某 个 或 者 某 些 自从 快照 之 后 
从 来 未 被 更 新 过 的 LBA 块 的 写 IO 请 求 ， 则 在 更 新 这 些 LBA 扇 区 之 前 ， 
先 将 原来 扇 区 的 内 容 复制 出 来 ， 放 入 一 个 空闲 卷 ， 然 后 再 将 新 数据 写 
入 原 卷 。 也 就 是 说 ， 旧 数据 先 占 着 位 置 ， 等 什么 时 候 新 数据 来 了 ， 旧 
数据 再 让 位 ， 一 旦 原 卷 某 个 LBA 的 块 在 快照 之 后 被 更 新 过 了 ， 则 以 后 
再 针对 这 个 LBA 块 的 写 JO， 可 以 直接 覆盖 ， 不 需要 提前 复制 ， 因 为 第 
一 次 更 新 此 块 的 时 候 已 经 将 原 块 数据 复制 保留 了 。 这 样 ， 原 卷 上 的 数 
据 随 时 都 是 当前 最 新 的 状态 ， 所 以 针对 快照 之 后 的 每 个 上 层 IO， 不 必 
再 遍历 鼎 射 表 ， 直 接 写 向 原 卷 对 应 的 地 址 ， 如 果 是 写 入 一 个 快照 之 后 


从 未 被 更 新 过 的 块 ， 则 需 提 前 将 原 块 复制 保留 ， 这 种 方式 称 为 COFW 
(其 实 应 当 叫 做 Copy on First Write， 见 下 文 ) ， 写 前 复制 。 


在 “ 照 * 下 了 这 一 时 刻 卷 上 的 数据 之 后 ， 为 了 保险 起 见 ， 最 好 对 那 
个 时 刻 的 数据 做 一 个 备份 ， 也 就 是 将 快照 对 应 的 数据 复制 到 另外 的 磁 
盘 或 者 磁 融 中 。 如 果 不 备 份 快 照 ， 那 么 一 旦 卷 数据 有 所 损毁 ， 快 照 的 
数据 也 不 复 存 在 ， 因 为 快照 与 当前 数据 是 共享 LBA 扇 区 的 《如果 没有 
更 新 原 卷 扇 区 的 话 ) 。 


3。. RoFW 方 式 与 CoFW 方 式 比较 


不 管 是 CoFW 还 是 RoFW， 只 要 上 层 向 一 个 在 快照 之 后 从 来 没 被 更 
新 过 的 数据 块 进行 写 IO 更 新 ， 这 个 10 块 就 要 占用 新 卷 上 的 一 个 块 ( 因 
为 要 保留 原 块 的 内 容 ， 不 能 被 覆盖 ) ， 如 果 上 层 将 原 卷 上 的 所 有 扇 区 
块 都 更 新 了 ， 那 么 新 卷 的 容量 就 需要 和 原 卷 的 数据 量 同样 大 才 可 以 。 
但 是 通常 应 用 不 会 写 覆 盖 面 百分之百 ， 做 快照 的 时 候 ， 新 卷 的 容量 一 
般 设 置 成 原 卷 容量 的 30% 就 可 以 。 它 是 一 个 经 验 值 ， 当 然 要 根据 具体 
业务 场景 来 判断 具体 值 。 


CoFW 方 式 下 ， 快 照 生 成 之 后 ， 如 果 上 层 需 要 更 新 一 个 从 来 没有 
被 更 新 过 的 块 ， 则 系统 首先 将 这 个 源 块 读 出 ， 再 将 其 写 入 到 新 卷 ， 然 
后 将 更 新 的 数据 块 内 容 覆 盖 写 入 到 原 卷 对 应 的 块 ， 需 要 三 步 动 作 : 一 
次 读 和 两 次 写 。RoFW 方 式 下 ， 同 样 的 过 程 只 需要 一 次 写 入 即 可 ， 也 
就 是 将 更 新 数据 直接 写 入 到 新 卷 ， 同 时 更 新 映射 图 中 的 指针 (内 存 中 
进行 ) 。 所 以 RoFW 相 对 CoFW 方 式 在 IO 资源 消耗 与 IO 延迟 上 有 优势 。 


由 于 只 是 在 首次 覆盖 写 的 时 候 才 会 发 生 Copy 或 者 Redirect， 那 么 
如 何 区 分 某 个 写 IO 针 对 的 块 是 首次 被 覆盖 还 是 之 前 已 经 被 覆盖 过 ? 这 


需要 有 一 个 记录 表 (文件 级 快照 ) 或 者 位 图 〈 卷 级 快照 ) 来 记录 每 个 
块 是 否 祖 履 和 兰 过 。 


提示 : 对 于 卷 级 快照 ， 可 以 使 用 位 图 来 充当 这 个 角色 ， 因 为 
源 卷 块 地 址 是 连续 固定 的 ， 已 经 被 覆盖 过 或 者 重 定向 写 过 的 
可 以 对 应 1; 未 被 覆盖 则 对 应 0。 针 对 每 个 写 IO 可 以 先 查 询 这 
个 IO 的 目标 地 址 对 应 的 位 ， 如 果 为 1 则 表示 已 处 理 过 ， 则 和 直 
接 瑟 入 ;如 果 为 0 则 表示 尚未 被 处 理 ， 需 要 先 执行 CoFW 或 者 
RoFWo。o 


不 管 是 CoFW 还 是 RoFW 模 式 下 ， 对 于 每 个 上 层 写 IO ， 由 于 都 必须 
遍历 一 下 这 个 映射 表 (位 图 ) ， 以 便 确 定 此 IO 请 求 的 LBA 或 者 文件 地 
址 是 否 已 被 CoFW 或 者 RoFW 处 理 过 ， 从 而 做 出 相应 动作 。 而 对 于 读 
IO ，CoFW 模 式 下 由 于 源 卷 或 者 源 文件 系统 总 是 代表 当前 最 新 的 状 
态 ， 所 以 任何 读 IO 都 会 直接 被 下 发 到 源 来 执行 ， 也 就 是 直接 从 源 读 
出 ， 而 对 于 RoFW 模 式 ， 则 必须 也 查询 这 个 映射 表 或 者 位 图 来 查看 读 
IO 目标 地 址 是 否 被 处 理 过 ， 如 果 是 ， 则 转向 重 定向 之 后 的 地 址 读 ; 如 
果 没 有 ， 则 直接 下 发 到 源 中 来 读 出 数据 块 。 


RoFW 会 影响 读 性 能 。RoFW 模 式 的 快照 生成 之 后 ， 甚 至 将 全 部 快 
照 删 除 之 后 ， 不 好 清理 战场 ， 都 会 影响 后 续 的 所 有 读 和 写 的 性 能 ， 后 
遗 症 明显 。 因 为 重 定向 写 出 去 之 后 ， 数 据 块 的 排 布 都 是 乱 的 ， 这 样 的 
话 ， 就 会 严重 影响 后 续 读 写 性 能 。 而 CoFW 模 式 下 ， 产 佑 总 是 最 新 时 
刻 的 影像 ， 删 除 快照 之 后 战场 自动 清理 ， 没 有 任何 后 遗 症 。 


所 以 综合 来 讲 ，RoFW 比 较 吃 计算 资源 (后 续 的 读 操作 由 于 连续 
变 随机 ， 也 会 很 吃 资源 ， 有 永久 性 后 遗 症 ) ， 而 CoFW 比 较 吃 IO 资 
源 。 此 外 ， 还 必须 考虑 一 点 ， 就 是 CoFW 动 作 一 般 并 不 会 永远 都 高 频 


率 地 发 生 ， 对 于 一 个 特定 文件 系统 或 者 卷 ， 总 有 一 些 区 域 是 热点 ， 也 
就 是 应 用 程序 总 有 趋势 只 频繁 访问 和 更 新 某 些 地 址 ， 这 与 应 用 程序 业 
务 逻 辑 有 关 。 


这 样 的 话 ， 当 被 覆盖 第 二 次 以 及 之 后 ，CoFW 模 式 就 不 会 再 发 生 
IO 惩罚 ， 而 读 IO 一 直 都 没有 惩罚 ， 此 时 只 剩 下 每 次 写 IO 时 的 映射 表 / 位 
图 遍历 过 程 ， 会 消耗 一 定 的 计算 资源 ;那么 对 于 RoFW 模 式 ， 就 算 全 
部 源 文 件 系统 或 者 源 卷 的 数据 块 都 被 Redirect 过 了 ， 那 么 虽然 整个 过 程 
中 不 产生 任何 惩罚 IO， 但 是 针对 每 个 读 或 者 写 IO ， 也 就 是 每 个 IO ， 不 
管 读 写 ， 均 需要 遍历 映射 表 / 位 图 ， 永 远 无 法 摆脱 对 计算 资源 的 消耗 。 


尤其 是 对 LUN 卷 级 的 快照 下 ， 原 本 卷 在 底层 磁盘 上 的 分 布 是 很 简 
单 且 定 死 的 ， 所 以 寻 址 就 非常 迅速 ， 但 是 RoFW 模 式 的 快照 引入 之 
后 ，LUN 中 的 块 会 被 随机 的 重 定向 写 出 到 另外 的 空间 ， 这 样 一 方面 需 
要 记录 比 原本 复杂 得 多 的 元 数据 指针 链 ， 降 低 了 寻 址 速度 (这 一 点 对 
于 文件 系统 级 快照 表现 的 还 不 是 很 明显 ， 因 为 文件 系统 元 数据 链 本 来 
就 很 复杂 ) ; 另 一 方面 这 些 被 写 出 的 块 不 一 定 是 按照 与 源 LUN 相 同 的 
物理 上 连续 排列 的 ， 这 样 在 连续 IO 情 况 下 便 会 产生 严重 性 能 下 降 (这 
一 扣 不 管 是 对 文件 级 还 是 LUN 卷 级 快照 ， 影 响 都 是 很 明显 的 ， 因 为 文 
件 系 统 内 的 文件 一 般 也 是 尽量 物理 上 连续 存放 的 ) 。 


这 一 点 相对 于 CoFW 模 式 就 逊色 很 多 了 。 所 以 ， 绝 大 多 数 厂商 还 
是 使 用 CoFW 方 式 来 做 快照 。 但 是 对 于 一 些 本 来 就 使 用 LUN 随 机 分 块 
分 布 模式 的 存储 系统 比如 NetApp 和 IBM 的 XITV， 它 们 使 用 的 就 都 是 
RoFW 模 式 。 显 然 ， 原 本 其 LUN 的 元 数据 链 就 很 复杂 ， 再 加 上 原本 就 
是 一 种 随机 分 布 ， 所 以 RoFW 的 后 遗 症 对 于 它们 来 讲 反 而 是 正常 现象 
下 


此 外 ， 不 管 是 CoFW 还 是 RoFW 模 式 ， 比 如 某 个 IO 是 64KB 大 小 ， 
那么 此 时 你 就 要 重 定向 这 64KB 或 者 CoFW 出 原来 的 64KB 到 另外 空间 ， 
如 果 某 时 刻 某 IO 是 4KB 大 小 ， 那 么 你 就 要 去 重 定 向 这 4KB 或 者 CoFW 出 
原来 的 4KB 数 据 到 额外 空间 ， 粒 度 不 同 ， 占 据 空 间 不 同 ， 元 数据 指针 
长 度 也 就 不 同 ， 这 会 导致 算法 更 加 复杂 。 


解决 的 办 法 是 固定 一 个 粒度 ， 比 如 就 用 64KB ， 如 果 某 个 IO 写 为 
4KB， 在 RoFW 模 式 下 ， 则 可 以 将 这 4KB 目 标 地 址 所 落 入 的 那 64KB 的 
数据 块 读 出 ， 然 后 将 4KB 的 新 内 容 在 内 存 中 覆盖 到 这 64KB 中 对 应 的 地 
址 上 ， 然 后 再 将 更 新 后 的 这 64KB 重 定向 到 另外 的 空间 ， 以 后 再 有 针对 
这 64KB 目 标 块 的 写 入 ， 则 直接 覆盖 写 到 重 定向 之 后 的 空间 ; 在 CoFW 
模式 下 ， 则 直接 读 出 原来 的 64KB 写 到 额外 空间 后 ， 直 接 将 新 的 4KB 覆 
盖 到 源 卷 对 应 地 址 ， 之 后 再 有 针对 源 卷 的 这 64KB 地 址 范围 内 的 写 操 作 
时 ， 就 无 须 再 CoFW 了 (当然 如 果 又 做 了 一 次 快照 ， 那 就 男 当 别论 
TY) 


这 人 么 做 的 优势 是 ， 剩 余 空间 内 可 以 以 一 个 固定 粒度 来 占据 空间 ， 
而 不 是 一 会 4KB， 一 会 32KB 无 序 地 乱 放 ， 这 样 就 可 以 降低 元 数据 措 针 
的 复杂 度 和 无 序 度 ， 提 高 查询 效率 。 相 对 没有 什么 劣势 ， 虽 然 首次 复 
制 数 据 量 增加 ， 但 是 却 可 以 简化 后 续 的 每 个 IO 都 要 复制 所 引发 的 持续 
性 延迟 升 高 ， 一 次 做 完 还 是 不 紧 不 慢 地 做 ， 这 种 情况 下 还 是 选择 前 者 
比较 好 。 后 文中 会 有 详细 的 设计 例子 来 论述 这 两 种 方式 的 区 别 。 


益 级 的 快照 ， 仿 佛 融 是 增加 了 一 个 “ 卷 块 映射 系统 ”， 其 作用 与 文 
件 系统 大 同 小 异 ， 只 不 过 文件 系统 处 理 的 是 文件 名 和 块 的 映射 天 系 ， 
而 “ 卷 块 映射 系统 ”处 理 的 是 块 与 块 的 映射 关系 。 后 者 的 元 数据 比 前 者 
简单 得 多 ， 也 好 处 理 得 多 ， 粒 度 也 大 很 多 。 


4. 快照 的 意义 和 作用 


提示 : 快照 所 冻结 下 来 的 卷 数据 ， 无 异 于 一 次 意外 掉 电 之 后 
卷 上 的 数据 。 为 什么 这 么 说 呢 ? 


我 们 可 以 比较 一 下 ， 意 外 断 电 同 样 是 保持 了 断 电 所 处 时 间 点 上 的 
卷 数据 状态 。 我 们 知道 ， 不 管 是 上 层 应 用 ， 还 是 文件 系统 ， 都 有 自己 
的 缓存 ， 文 件 系统 缓存 的 是 文件 系统 元 数据 和 文件 实体 数据 。 并 不 是 
每 次 数据 的 交互 ， 都 同步 保存 在 磁盘 上 ， 它 们 可 以 暂时 保存 在 内 存 
中 ， 然 后 每 隔 一 段 时 间 (比如 某 些 版 本 的 Linux 系 统 默 认为 30 秒 ) ， 批 
量 Flush 到 磁盘 上 。 当 然 编 程 的 时 候 也 可 以 将 每 次 对 内 存 的 写 ， 都 Flush 
到 磁盘 ， 但 是 这 样 做 效率 和 速度 打 了 折扣 。 而 且 当 Flush 到 磁盘 的 时 
候 ， 并 不 是 只 做 一 次 IO， 在 数据 量 大 时 会 对 磁盘 做 多 次 IO。 如 果 快 照 
生成 的 时 间 恰 恰 在 这 连续 的 IO 之 间 生 成 ， 那 么 此 时 卷 上 的 数据 ， 实 际 
上 有 可 能 不 一 致 。 


磁盘 IO 是 原子 操作 (Atomic Operation) ， 而 上 层 的 一 次 事务 性 操 
作 ， 可 以 对 应 底层 的 多 次 原子 操作 。 这 其 中 的 一 次 原子 操作 没有 业务 
意义 ， 只 有 上 层 的 一 次 完整 的 事务 操作 ， 才 有 意义 。 所 以 如 果 恰 好 在 
一 个 事务 操作 对 应 的 多 个 原子 操作 的 中 间 生 成 快照 ， 那 么 此 时 的 快照 
数据 ， 就 是 不 完整 的 ， 不 一 致 的 。 


文件 系统 的 机 制 总 是 先 写 入 文件 的 实体 数据 到 磁盘 ， 文 件 的 元 数 
据 暂 不 写 到 磁盘 ， 而 是 先 保存 于 缓存 中 。 这 种 机 制 是 考虑 到 一 些 意外 
事件 ， 如 果 FS 先 把 元 数据 写 入 磁盘 ， 而 在 准备 写 入 文件 实体 数据 的 时 
候 ， 突 然 断 电 了 ， 那 么 此 时 磁盘 上 的 数据 是 这 么 一 个 状态 : FS 元 数据 
中 有 这 个 文件 的 信息 ， 但 是 实体 数据 并 没有 被 写 入 对 应 的 局 区 ， 那 么 


这 些 对 应 的 僵尸 扇 区 上 原来 的 数据 便 会 被 认为 就 是 这 个 文件 的 数据 ， 
显然 后 果 不 堪 设想 。 


所 以 FS 一 定 是 先 写 入 文件 实体 数据 ， 完 成 之 后 再 批量 将 元 数据 从 
缓存 中 Flush 到 磁盘 。 如 果 在 实体 数据 写 入 磁盘 ， 而 元 数据 还 没有 写 入 
磁盘 之 前 断 电 ， 那 么 虽然 此 时 文件 实体 数据 在 磁盘 上 ， 但 是 元 数据 没 
有 在 磁盘 上 ， 也 就 是 说 虽然 有 你 这 个 人 存在 ， 但 是 你 没有 身份 证 ， 那 
么 你 就 不 能 公开 地 进行 社会 活动 ， 因 为 你 不 是 这 个 国家 的 公民 。 虽 然 
文件 系统 这 么 做 ， 会 丢失 数据 ， 但 是 总 比 向 应 用 提交 一 份 驴 层 不 对 马 
跨 的 数据 强 ! 


实验 : 就 拿 Windows 来 说 ， 首 先 创 建 一 个 文件 ， 并 在 创建 好 
的 瞬间 ， 立 即 断 电 ， 重 局 之 后 ， 会 发 现 刚才 创建 的 文件 疫 
了 ， 或 者 复制 一 个 文件 ， 完 成 后 立即 断 电 ， 重 启 之 后 也 会 发 
现 ， 复 制 的 文件 不 见 了 ， 为 什么 ”明明 创建 好 的 文件 ， 复 制 
好 的 文件 ， 为 什么 断 电 重 局 就 没 了 呢 ? 原因 很 简单 ， 因 为 断 
电 的 时 候 ，FS 还 没有 把 元 数据 Flush 到 磁盘 上 ， 此 时 文件 实体 
收据 虽然 还 在 ， 但 是 元 数据 中 没有 ， 那 么 当然 看 不 到 它 了 。 


总 之 ， 快 照 极 有 可 能 生成 一 份 存在 不 一 致 的 卷 数 据 。 既 然 这 样 为 
何 还 要 使 用 快照 呢 ? 因为 相对 于 停机 备份 ， 人 们 更 接受 使 用 快照 来 备 
份 数据 ， 即 使 快照 可 能 市 来 数据 不 一 致 。 但 停机 备份 所 市 来 的 损失 ， 
对 于 某 些 关 键 应 用 来 说 是 不 可 估量 的 ， 而 快照 只 需要 几 秒 钟 即 可 完 
成 ， 应 用 只 需 静默 几 秒 钟 的 时 间 。 文 件 系 统 或 者 卷 擅自 将 IO 先 存放 到 
队列 中 ， 等 待 快照 完成 后 ， 再 继续 执行 。 人 然后 可 以 随时 将 这 份 快照 对 
应 的 数据 复制 出 来 ， 形 成 备份 。 


使 用 快照 必须 承担 数据 不 一 致 的 风险 。 也 可 以 这 么 形容 : 快照 可 
以 让 你 不 用 “意外 磁盘 掉 电 ”*”， 就 能 获得 一 个 时 间 点 瞬间 磁盘 备份 ， 虽 
然 数 据 此 时 是 不 一 致 的 。 快 照 可 以 任意 生成 ， 而 占用 的 空间 又 不 会 很 
大 (〈 随 原 卷 数 据 改动 多 少 而 定 ) ， 最 重要 的 是 ， 利 用 快照 可 以 做 在 线 
快速 恢复 ， 只 要 快照 没有 删除 ， 恢 复 也 同样 仅仅 需要 几 秒 钟 时 间 ， 与 
快照 生成 的 道理 一 样 ， 不 用 停机 。 因 为 利用 快照 恢复 数据 的 时 候 ， 只 
要 在 内 存 中 做 一 下 IO 重 定向 ， 那 么 上 层 IO 访问 的 ， 就 立即 变 成 了 以 前 
时 间 点 的 数据 了 。 这 是 快照 的 作用 之 一 ， 即 快速 恢复 ， 不 管 源 卷 数据 
量 有 多 大 ， 即 便 是 几 TB， 恢 复 到 指定 时 间 点 状态 也 只 需要 数秒 钟 ， 
为 无 须 复制 过 程 ， 只 需 重 定向 MetaData。 


快照 可 能 不 一 致 这 个 问题 ， 也 不 是 不 能 解决 。 既 然 快照 无 异 于 一 
次 磁盘 掉 电 ， 那 么 ， 利 用 快照 恢复 数据 之 后 ， 文 件 系统 可 以 进行 一 致 
性 检查 从 而 纠正 错误 。 数 据 库 管理 系统 也 同样 会 利用 其 日 志 来 使 得 数 
据 文件 最 终 处 于 一 致 状态 。 


另外 ， 现 在 几乎 所 有 的 快照 的 解决 方案 ， 都 是 在 主机 上 安装 一 个 
代理 软件 ， 当 在 存储 设备 上 执行 快照 之 前 ， 代 理 软件 会 通知 应 用 或 者 
文件 系统 将 缓存 中 的 数据 全 部 Flush 到 磁盘 ， 然 后 立即 生成 快照 ， 这 样 
快照 的 一 致 性 就 得 到 了 保护 。 快 照 的 管理 和 创建 也 都 是 使 用 这 个 代理 
程序 界面 完成 ， 代 理 程序 会 与 存储 设备 进行 通信 以 便 传输 指令 和 查询 
言 息 。 除 了 文件 系统 代理 之 外 ， 还 有 各 种 应 用 系统 代理 ， 比 如 
Oracle、SQL Server 等 ， 这 些 代 理 在 存储 层 触 发 Snapshot 之 前 会 与 对 应 
的 应 用 程序 通信 通知 应 用 程序 将 缓存 中 的 内 容 写 到 磁盘 ， 从 而 达到 底 
层 数 据 的 一 致 性 。 如 图 16-5 所 示 ， 左 右 侧 分 别 为 一 个 Oracle 和 SQL 
Server 的 代理 程序 配置 界面 。 


图 16-5 Agent 配 置 界面 


对 于 文件 系统 级 的 快照 ， 应 用 程序 可 以 直接 在 操作 系统 中 看 到 快 
照 ， 可 以 直接 读 取 这 份 快 照 中 的 文件 。 而 对 于 卷 级 的 快照 ， 只 有 存储 
设备 自己 可 以 管理 ， 操 作 系统 对 此 一 无 所 知 。 


对 卷 做 快照 之 后 ， 一 旦 原先 的 数据 块 被 更 改 /覆盖 ， 则 这 些 块 要 么 
在 写 入 前 被 复制 出 来 ， 要 么 原 地 锁 住 不 动 ， 新 数据 重 定向 写 到 空 闪 区 
域 。 总 之 ， 这 两 种 情况 下 ， 系 统 内 整体 空余 空间 都 要 被 额外 数据 占用 
而 减 小 。 


然而 ， 如 果 对 某 个 块 进行 二 次 更 改 /覆盖 ， 则 可 以 直接 在 这 些 新 块 
之 上 进行 操作 而 不 需要 写 前 复制 或 者 再 次 重 定向 写 入 ， 除 非 在 第 一 次 
更 改 /覆盖 和 第 二 次 之 间 又 创建 了 一 个 或 者 多 个 快照 。 所 以 CoFW 其 实 
应 当 叫 做 Copy On First Write 更 加 准确 一 些 。 


提示 : 如 果 将 原来 的 数据 块 删除 了 ， 在 已 经 做 了 快照 的 情况 
下 ， 系 统 将 做 出 什么 行为 ?删除 原 块 对 应 的 行为 其 实 是 在 文 
件 系统 的 inode tree 中 将 对 应 的 指针 消除 ， 表 现 为 更 改 /覆盖 对 
应 inode 所 在 的 块 ， 所 以 不 管 删除 多 大 的 文件 ， 也 只 有 对 应 的 
inode 块 被 更 改 /覆盖 ， 被 删除 数据 依然 存在 于 磁盘 上 。 然 而 这 
些 数据 对 应 的 块 在 当前 活动 文件 系统 下 的 簇 位 图 中 已 经 被 标 
记 为 空 闪 块 了 ， 此 时 一 旦 又 有 新 数据 被 妃 加 写 入 到 这 些 空 内 
块 ， 那 么 依然 会 被 重 定向 或 者 写 前 复制 。 


使 用 快照 功能 之 前 必须 首先 评估 数据 产 IO 行 为 ， 随 着 覆盖 写 入 几 
率 的 增加 ， 系 统 中 可 使 用 的 空间 空间 的 数量 也 将 随 之 增加 。 实 际 情况 
中 ， 文 件 被 覆盖 写 入 的 几率 一 般 不 高 ， 比 较 高 的 是 Create 十 Write、 


Delete 、 Rename、 Open、 Read、Truncate、 Append 等 操作 ， 其 中 
Delete、Rename、 Truncate 操 作 会 导致 Snapshot 占 用 额外 空间 ， 而 这 其 
中 Delete 和 Truncate 会 导致 被 删除 文件 本 身 与 其 inode 的 block 都 占用 额 
外 空间 ，Rename 只 会 导致 对 应 inode block 占 用 额外 空间 。 Create 十 
Write 操 作 如 果 一 旦 覆盖 了 旧 块 ， 那 么 同样 也 会 占用 额外 空间 。 


快照 的 另外 一 个 非常 重要 的 意义 和 作用 ， 就 是 预防 数据 的 逻辑 上 
的 损坏 。 所 谓 逻 辑 上 的 损坏 ， 比 如 T1 时 刻 对 某 卷 做 了 Snapshot，T2 时 
刻 ， 管 理 员 操作 不 当 ， 误 删除 了 此 卷 上 的 某 个 非常 重要 的 文件 ， 但 是 
自己 没有 察觉 。T3 时 刻 ， 备 份 管理 员 对 这 个 卷 进行 了 全 备份 操作 ， 并 
且 之 前 的 备份 已 经 被 抹 掉 。 此 时 ， 这 个 非常 重要 的 文件 ， 看 似 是 永 久 
丢失 了 。 其 实 不 然 ，T1 时 刘 ， 也 就 是 这 个 文件 尚 存 在 于 此 卷 的 时 刻 ， 
管理 员 做 了 一 次 Snapshot， 则 可 以 从 这 份 Snapshot 中 将 这 个 文件 恢复 。 
同 理 ， 如 果 T2 时 刻 ， 此 卷 被 大 量 病毒 感染 ， 中 毒 已 深 无 可 救 药 ， 
Snapshot 此 时 便 是 救命 稻草 ， 用 Snapshot 将 这 个 卷 恢复 到 T1 时 刻 ， 几 秒 
钟 后 ， 病 毒 全 部 消失 。 


另外 ， 快 照 可 以 降低 一 致 性 备份 的 窗口 ， 假 如 没有 快照 技术 ， 如 
果 想 对 某 个 卷 进行 一 致 性 备份 ， 则 需要 暂停 上 层 应 用 程序 的 写 IO 操 
作 ， 等 待 备 份 程序 将 这 个 卷 的 所 有 数据 块 全 部 复制 完成 之 后 ， 应 用 程 
序 方 可 对 此 卷 进行 写 操作 。 这 显然 是 不 可 接受 的 ， 所 以 如 果 没 有 快照 
技术 ， 单 纯 对 卷 进行 一 致 性 备份 的 话 ， 备 份 窗口 将 会 非常 长 。 而 如 果 
对 这 个 卷 触 发 一 份 一 致 性 快照 (引入 应 用 程序 快照 代理 ) ， 然 后 立即 
允许 上 层 写 IO， 之 后 在 后 台 备 份 这 份 快照 对 应 的 所 有 卷 数据 ， 这 样 就 
会 大 大 降低 对 应 用 程序 的 影像 ， 而 且 由 于 无 须 考虑 对 当前 系统 IO 的 影 
像 ， 还 可 以 提高 备份 速度 从 而 降低 备份 窗口 。 


其 次 ， 在 备份 完 数据 之 后 ， 如 何 检测 这 份 数 据 是 否 真 的 是 一 致 
的 ? 是 否 用 其 恢复 之 后 ， 应 用 程序 可 以 正常 启动 并 且 处 理 它们 呢 ? 如 
果 没 有 快照 技术 ， 则 要 实现 这 个 目的 ， 我 们 需要 先 将 备份 的 数据 恢复 
到 一 个 独立 的 物理 空间 上 ， 然 后 将 其 挂 载 到 另外 一 台 机 器 ， 在 这 台 机 
器 上 启动 对 应 的 应 用 程序 对 数据 进行 检测 ， 费 时 费力 。 有 了 快照 就 不 
同 了 ， 快 照 生成 之 后 ， 在 备份 这 份 快照 数据 的 同时 ， 还 可 以 将 快照 直 
接 挂 载 到 另外 的 主机 ， 避 免 了 最 慢 的 一 步 ， 也 融 是 数据 物理 恢复 导入 
的 过 程 ， 大 大 节约 了 时 间 和 成 本 。 


提示 : 目前 几乎 所 有 厂商 的 存储 产品 都 可 以 实现 快照 ， 这 似 
平成 了 一 个 不 成 文 的 行业 标准 ， 不 能 实现 快照 的 产品 无 法 在 
市 场 上 生存 。 目 前 市 场 上 也 有 很 多 基于 NTFS 文 件 系 统 的 第 三 
方 独 立 快照 管理 软件 ， 例 如 “还 原 精灵 ”等 ， 它 们 都 是 非常 优 
秀 的 基于 NTFS 文 件 系统 的 快照 管理 软件 。 这 些 软件 的 作用 方 
式 一 般 是 将 自己 的 程序 入 口 写 入 MBR， 系 统 引 导 初 期 会 首先 
加 载 这 些 程序 ， 开 机 之 后 始终 在 操作 系统 下 层 运 行 ， 这 样 就 
可 以 肆 无 忌 悦 地 接管 操作 系统 对 NTFS 文 件 系 统 的 所 有 操作 。 
在 这 个 基础 上 ， 程 序 可 以 实现 文件 系统 的 快照 以 及 管理 这 些 
快照 。 


5。 如何 管理 和 使 用 快照 


以 上 论述 了 Snapshot 的 原理 和 作用 ， 本 节 我 们 将 曾 述 一 份 Snapshot 
是 如 何 具 体 被 使 用 的 ， 即 生成 了 Snapshot 之 后 ， 系 统 如 何 管理 和 使 用 
它们 。 


我 们 知道 ，Snapshot 是 文件 系统 或 者 卷 管理 系统 的 映射 指针 链 在 
某 时 刻 的 存根 。 现 在 的 存储 系统 一 般 都 支持 对 某 个 卷 做 多 份 


Snapshot， 比 如 16 份 、256 份 ，IBM 公 司 的 XIV 产 品 甚至 可 以 超过 60000 
份 。 每 个 厂家 实现 Snapshot 的 方式 都 不 尽 相同 ， 底 层 对 应 的 数据 结构 
也 不 同 ， 但 均 需 要 维护 指针 映射 关系 。 


比如 ， 有 的 厂家 在 文件 系统 总 入 口 处 设立 多 个 Slot 用 以 存放 二 级 
指针 以 便 指向 所 有 Snapshot 的 一 级 入 口 ，Slot 的 数量 决定 了 可 以 保存 
Snapshot 的 数量 ， 顺 着 每 个 Snapshot 的 入 口 遍 历 下 去 就 会 得 到 整个 文件 
系统 的 MetaData。 有 的 厂家 则 在 每 个 inode 中 增加 了 Slot 来 表明 这 个 
inode 属 于 哪些 Snapshot， 整 个 文件 系统 只 有 一 个 入 口 ， 通 过 inode 中 的 
这 些 Slot 来 遍历 所 有 Snapshot。 有 的 厂家 则 尽量 简化 结构 ， 用 带 外 的 方 
式 创 建 一 个 独立 的 映射 关系 表 ， 一 旦 某 个 Block 将 被 覆盖 ， 则 将 对 应 的 
inode 等 MetaData 信 息 复制 到 这 张 表 中 随时 备查 。 各 家 的 实现 和 管理 
Snapshot 的 方式 ， 见 仁 见 智 。 


Snapshot 对 外 表现 为 一 个 虚拟 的 卷 ， 一 般 可 以 在 存储 系统 的 管理 
界面 中 看 到 ， 比 如 物理 卷 图 标 下 面 列 出 所 有 Snapshot 卷 ， 或 者 用 命令 
行 方式 来 列 出 Snapshot， 比 如 , “snaplist volume1”， 当 然 命 令 只 是 乱 猜 
一 个 罢了 。 每 当 点 开 图 形 界面 或 者 用 命令 行 来 查看 Snapshot 列 表 的 时 
候 ， 命 令 的 执行 会 触发 存储 系统 检索 整个 文件 系统 的 Snapshot 链 来 查 
询 当 前 Snapshot 的 情况 ， 并 将 结果 向 外 输出 。 所 以 每 次 查看 Snapshot 列 
表 ， 是 需要 耗费 一 点 时 间 的 ， 通 常 不 会 很 慢 ， 延 迟 在 几 秒 钟 之 内 。 
16-6 所 示 为 通过 运行 在 主机 上 的 代理 程序 所 列 出 的 Snapshot 列 表 。 


图 16-6 ”快照 列表 


生成 的 Snapshot 有 两 种 使 用 方式 ， 各 个 厂家 在 使 用 方法 上 大 同 小 \ 
异 。 一 种 是 直接 在 存储 设备 上 利用 某 卷 某 时 刻 的 Snapshot 恢 复 该 卷 
(比如 命令 “Snaprestore snap1 volume1”) 。 当 然 ， 恢 复 的 时 候 一 定 要 


将 这 个 卷 unmap， 或 者 在 主机 端 将 其 unmount、varyoff 或 offline。 人 否则 
主机 端正 在 使 用 的 情况 下 ， 存 储 端 “擅自 ”做 Restore 之 后 ， 主 机 端 文件 
系统 缓存 内 的 数据 会 覆盖 掉 restore 之 后 的 数据 ， 导 致 FS 不 一 致 。 
Restore 之 后 ， 主 机 重新 挂 载 这 个 卷 ， 看 到 的 就 会 是 以 前 的 Snapshot 对 
应 的 内 容 了 。 整 卷 Restore 目 前 来 讲 用 的 不 太 普 遍 ， 毕 竟 发 生 整 卷 级 别 
数据 丢失 或 者 逻辑 错误 的 情况 还 是 少数 。 用 的 最 多 的 是 第 二 种 方式 ， 
即 主 机 单独 挂 载 某 卷 某 时 刻 的 Snapshot， 恢 复 其 中 某 个 或 者 某 些 文 
件 。 


如 图 16-7 所 示 ， 在 代理 程序 界面 中 有 Disk1 的 30 个 Snapshot， 右 击 
25， 从 弹出 的 快捷 菜单 中 单 击 Mount Snapshot 命 令 ， 之 后 Mounted 状 态 
栏 显示 “Yes”， 表 明 这 个 Snapshot 已 经 被 成 功 地 Mount 到 了 主机 端 。 


图 16-7 “ 挂 载 快照 


如 图 16-8 所 示 ， 此 时 ， 打 开 * 我 的 电脑 ”， 会 出 现 一 个 新 挂 载 的 盘 
符 ， 其 中 的 内 容 便 是 Disk1 在 对 应 时 刻 的 快照 中 的 内 容 。 找 到 需要 恢复 
的 文件 ， 将 其 复制 到 源 卷 即 可 。 完 成 之 后 ， 在 代理 界面 中 将 其 Umount 
即 可 。 被 挂 载 的 快照 卷 ， 只 是 一 份 幻像 ， 因 为 Snapshot 中 的 内 容 与 源 
卷 是 息息相关 的 ， 一 旦 源 卷 发 生 底层 错误 ， 则 其 上 的 Snapshot 也 保 不 
住 ， 所 以 ， 将 Snapshot 挂 载 之 后 ， 可 以 用 备份 软件 备份 下 来 用 以 保存 
实体 数据 到 另外 的 介质 ， 比 如 其 他 磁盘 ， 或 者 磁带 。 


图 16-8 ”新 盘 符 


同 理 ， 可 以 挂 载 所 有 的 快照 到 主机 ， 而 不 会 影响 产 卷 的 读 写 访 
问 。 当 然 ， 这 些 快照 此 时 都 是 只 读 的 。 要 想得到 一 份 可 读 并 且 也 可 写 
的 Snapshot， 由 另 一 种 技术 来 实现 ， 叫 做 “ 卷 Clone”。 


6. 一 些 针 对 快照 的 高 级 优化 技术 


快照 技术 已 经 并 不 是 多 么 高 端的 技术 了 。 近 年 来 ， 国 内 多 家 科研 
院 所 或 者 企业 都 在 着 力 研究 如 何 提高 快照 效率 ， 降 低 快 照 生 成 之 后 源 
卷 的 写 惩罚 ， 也 已 经 有 多 项 专利 登记 在 案 。 


比如 某 专 利 ， 其 提供 了 一 种 快照 空间 的 动态 扩容 方法 ， 首 先 在 逻 
辑 卷 的 卷 组 空间 中 分 配 一 快照 空间 ， 以 创建 快照 ， 并 且 在 对 逻辑 卷 有 
数据 写 入 请 求 时 ， 比 对 快照 空间 的 总 容量 与 快照 空间 的 当前 保存 数据 
量 ， 以 得 到 表示 快照 空间 的 剩余 容量 大 小 的 差 值 ， 检 查 差 值 是 否 小 于 
一 默认 值 ， 当 差 值 小 于 默认 值 时 ， 从 卷 组 空间 中 划分 一 容量 空间 ， 以 
通过 由 标准 扩容 算法 对 快照 空间 进行 容量 扩展 。 


比如 某 专 利 ， 其 提供 了 一 种 缩短 写 时 复制 快照 写 响应 时 间 的 方 
法 ， 预 先 将 存储 系统 的 整个 存储 空间 分 为 源 数 据 区 和 快照 区 ， 产 数据 
区 存放 主机 访问 请 求 的 数据 ， 快 照 区 存放 需 快照 保存 的 数据 ; 设 定 快 
照 块 大 小 ， 构 造 快照 链表 头 和 快照 索引 结构 根 节 点 ， 快 照 链 表 保 存 所 
有 快照 元 数据 ， 快 照 索引 结构 用 于 判断 相应 数据 块 是 否 已 保存 在 快照 
区 ; 当 接 收 到 主机 发 送 过 来 的 写 请 求 时 ， 顺 序 进行 下 述 步骤 。 


(1) 根据 设 定 的 快照 块 大 小 ， 将 写 请 求 数据 依据 其 起 始 地 址 和 长 
度 进 行 分 块 ; 

(2) 以 每 个 分 块 号 为 关键 字 在 快照 索引 结构 中 进行 查找 ， 若 已 存 
在 ， 转 步骤 (8) ， 否 则 顺序 进行 ; 


(3) 判断 快照 区 是 否 有 足够 的 剩余 空间 ， 是 则 转 步 又 (5) ， 否 
则 顺序 进行 ; 


(4) 自动 删除 快照 区 中 存在 时 间 最 久 的 一 个 快照 ， 并 更 新 快照 区 
大 小 ， 转 步骤 (3) ， 


(5) 启动 快照 数据 读 进程 ， 将 需 快照 保存 的 数据 块 从 源 数 据 区 中 
读 出 ， 并 加 入 到 快照 数据 写 入 队列 尾 ; 


(6) 更 新 快照 区 内 可 用 快照 区 大 小 和 下 一 个 可 用 局 区 的 位 置 ; 


(7) 判断 所 有 分 块 是 否 都 已 处 理 完毕 ， 是 则 顺序 执行 ， 否 则 转 步 
又 (2) ， 


(8) 将 主机 发 送 的 写 请 求 数据 写 入 源 数据 区 ，; 


(9) 判断 是 否 满足 预先 设 定 的 快照 数据 写 进程 启动 条 件 ， 是 则 启 
动 快照 数据 写 进 程 ， 将 内 存 中 积攒 的 快照 数据 写 入 队列 中 的 数据 写 至 
快照 区 ， 否 则 顺序 执行 ; 


(10) 结束 。 
7.。 快照 的 底层 架构 设计 实现 详 述 


为 了 让 读者 尽 可 能 深入 地 理解 Snapshot 的 底层 工作 原理 ， 作 者 在 
此 自我 演绎 了 一 种 Snapshot 的 实现 方式 ， 下 面 就 给 出 架构 设计 思想 说 
明 ， 也 欢迎 广大 读者 与 我 交流 探讨 。 以 下 所 有 设计 概要 均 为 作者 个 人 
演绎 ， 如 与 东 专 利 或 者 某 广 商 设 计 雷 同 ， 则 纯 属 巧合 ， 请 勿 对 号 入 
座 。 


1) 基于 Copy On First Write 的 架构 设计 


本 设计 包含 4 个 实体 数据 结构 。 第 一 个 是 用 于 存放 变化 IO 块 的 IO 
仓库 ， 可 以 是 任何 形式 的 高 性 能 永久 存储 空间 ， 再 加 上 一 份 IO 仓库 的 
bitmap 用 来 标记 仓库 中 空 闪 与 非 空 闪 块 。 第 二 个 是 地 址 映射 表 ， 用 于 
保存 指针 ， 地 址 映射 表 也 存放 于 IO 仓库 的 特定 位 置 ， 并 且 每 个 快照 各 
保存 一 份 。 由 于 考虑 到 内 存 占 用 和 处 理 效率 问题 ， 地 址 映射 表 中 不 可 
能 为 每 个 针对 源 卷 的 LBA 地 址 都 有 一 个 Slot， 而 只 能 是 系统 生成 条 目 
的 时 候 ， 利 用 二 分 查找 方式 将 新 条 目 插入 表格 中 并 且 保证 所 有 条 目 按 
照 LBA 地 址 大 小 的 顺序 排列 ， 从 而 方便 后 续 的 步骤 中 对 表 中 地 址 的 查 
找 ， 不 需要 做 索引 等 其 他 结构 ， 以 降低 系统 资源 耗费 。 第 三 个 结构 是 
RoFW 数 据 映 射 表 ， 这 个 表 保 存 所 有 针对 虚拟 快照 影像 卷 的 写 IO (可 
以 参考 卷 Clone 一 节 ) ， 同 样 是 每 个 快照 一 份 ， 只 读 挂 载 的 快照 则 不 需 
要 这 个 数据 结构 。Bitmap 中 每 一 位 可 以 表示 一 个 LBA 地 址 ， 也 可 以 表 
示 一 大 段 LBA 地 址 ， 比 如 4KB/16KB 甚 至 128KB 的 Block， 加 大 表示 粒 
度 可 以 大 大 提高 处 理 效率 和 降低 内 存 占用 ， 但 是 在 CoFW 操 作 时 就 会 
浪费 存储 空间 。 比 如 ， 某 个 写 IO 只 有 4KB 大 小 ， 但 是 也 必须 CoFW 出 
这 个 IO 目标 地 址 段 所 落 在 的 整个 Block， 但 是 后 续 写 IO 如 果 再 落 在 这 个 
Block， 则 无 须 CoFW 操 作 了 。 粒 度 大 小 需要 根据 情况 综合 选择 。 


下 面 给 出 具体 步骤 演绎 。 
快照 生成 及 生成 之 后 的 系统 动作 流程 


(1) T0 时 刻 ， 有 卷 V1，IO 人 仓库 V2。 此 时 系统 触发 一 份 
Snapshot。 进 入 触发 流程 之 后 ， 系 统 创建 一 份 针对 T0 时 刻 的 快照 S0 的 
地 址 映射 表 F0， 这 份 表 在 T0 时 刻 为 空 ， 如 图 16-9 所 示 。 


图 16-9 ”TO 时 刻 


(2) T1 时 刻 ， 有 写 IO 将 源 卷 LBA0 地 址 上 的 A0 更 新 为 AL1， 系 统 
首先 检查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA0 
地 址 的 映射 条 目 ， 发 现 没 有 ， 所 以 CoFW 出 A0， 将 A0 写 入 IO 仓库 的 
LBA0， 然 后 在 地 址 映射 表 F0 中 更 新 地 址 映射 条 目 : LBA0= 二 LBAD0， 
意思 是 源 卷 在 T0 时 刻 的 LBA0 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 
的 LBA0 地 址 上 。 最 后 系统 将 Al 正常 写 入 源 卷 对 应 地 址 ， 如 图 16-10 所 
示 。 


图 16-10 TI1 时 刻 


(3) T2 时 刻 ， 有 写 IO 将 源 卷 LBA30 地 址 上 的 C0 更 新 为 C2， 系 统 
首先 检查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 
LBA30 地 址 的 映射 条 目 ， 发 现 没 有 ， 所 以 CoFW 出 C0， 将 C0 写 入 IO 仓 
库 的 LBA1， 然 后 在 地 址 映射 表 F0 中 更 新 地 址 映射 条 目 : LBA30= 
LBA1， 意 思 是 源 卷 在 T0 时 刻 〈T0 时 刻 与 T2 时 刻 源 卷 LBA30 地 址 上 的 
数据 相同 ) 的 LBA30 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 的 LBA1 
地 址 上 。 最 后 系统 将 C2 正 常 写 入 源 卷 对 应 地 址 。 同 时 ， 系 统 再 次 触发 
一 份 快照 S2， 并 为 $2 创建 一 份 空 的 地 址 映射 表 F2。 如 图 16-11 所 示 。 


图 16-11 TIT2 时 刻 


(4) T3 时 刻 ， 有 写 IO 将 源 卷 LBA0 地 址 上 的 A1 更 新 为 A3， 系 统 
首先 检查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA0 
地 址 的 映射 条 目 ， 发 现在 针对 快照 S2 的 地 址 映射 表 F2 中 没有 对 应 的 条 
目 ， 所 以 CoFW 出 A1， 将 Al1 写 入 IO 仓库 的 LBA2， 然 后 在 所 有 不 存在 
LBA0 了 映射 条 目的 映射 表 中 加 入 新 地 址 映射 条 目 : LBA0= 二 LBA2， 意 思 
是 源 卷 在 T2 时 刻 的 LBA0 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 的 


LBA2 地 址 上 。 最 后 系统 将 A3 正 常 写 入 源 卷 对 应 地 址 ， 如 图 16-12 所 
示 。 


图 16-12 TIT3 时 刻 


(5) T4 时 刻 ， 有 写 IO 将 源 卷 LBA11 地 址 上 的 B0 更 新 为 B4， 系 统 
首先 检查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 
LBA11 地 址 的 映射 条 目 ， 发 现 F0 和 F2 都 没有 ， 所 以 CoFW 出 B0， 将 B0 
写 入 IO 仓库 的 LBA3， 然 后 在 地 址 映射 表 F0 和 F2 中 同时 更 新 地 址 映射 
条 目 : LBA11 二 LBA3， 意 思 是 源 卷 在 T0 或 T2 时 刻 〈T0、T2 和 T3 时 刻 
LBA11 地 址 的 数据 是 相同 的 ) 的 LBA11 这 个 地 址 上 的 数据 目前 保存 在 
IO 仓 库 中 的 LBA3 地 址 上 。 最 后 系统 将 B4 正 常 写 入 源 卷 对 应 地 址 ， 如 
图 16-13 所 示 。 


图 16-13”T4 时 刻 


(6) T5 时 刻 ， 有 写 IO 将 源 卷 LBA11 地 址 上 的 B4 更 新 为 B5， 系 统 
首先 检查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 
LBA11 地 址 的 映射 条 目 ， 发 现 F0 和 F2 都 有 ， 所 以 系统 不 进行 CoFW 过 
程 ， 直 接 将 B5 正 常 写 入 源 卷 对 应 地 址 ， 如 图 16-14 所 示 。 


图 16-14 ”T5 时 刻 


(7) 任何 时 刻 ， 有 读 IO 针 对 源 卷 任何 地 址 ， 系 统 将 直接 从 源 卷 
读 取 对 应 地 址 的 数据 返回 给 请 求 者 。 


客户 端 挂 载 某 份 快照 进行 1O 读 写 时 的 系统 动作 流程 


(1) T6 时 刻 ， 系 统 接 收 到 客户 端 请 求 将 快照 S0 对 应 的 TO 时 刻 的 
源 卷 的 虚拟 影像 映射 给 客户 端 。 系 统 接收 到 请 求 之 后 ， 立 即 根据 源 卷 


的 大 小 等 属性 ， 通 过 底层 传输 通道 报告 给 客户 端 主机 一 个 虚拟 卷 。 


(2) T7 时 刻 ， 主 机 识别 到 了 这 个 虚拟 卷 影像 (此 时 主机 对 源 物 
理 卷 依然 在 进行 读 写 IO， 无 影响 ，， 并 且 将 其 挂 载 到 某 个 盘 符 下 。 此 
时 有 某 个 程序 (比如 文件 系统 ) 尝试 读 取 这 个 卷 的 LBA11 地 址 对 应 的 
数据 。 


(3) T8 时 刻 ， 系 统 收 到 这 个 读 IO 请 求 之 后 ， 立 即 扫描 针对 快照 
S0 的 地 址 映射 表 F0， 判 断 对 应 LBA11 的 Slot 是 否 被 记录 了 对 应 的 IO 仓 
库存 储 空 间 的 映射 LBA 地 址 。 发 现 LBA11 对 应 的 Slot 存在 地 址 映射 ， 
所 以 立即 将 映射 条 目 中 右 侧 也 就 是 IO 仓库 的 对 应 地 址 提取 并 且 读 出 IO 
仓库 中 对 应 这 个 地 址 (本 例 中 为 LBA3) 的 数据 ， 这 个 被 读 出 的 块 就 是 
TO 时 刻 快 照 S0 所 对 应 的 实际 数据 块 了 。 


(4) T9 时 刻 ， 系 统 将 读 出 的 数据 块 返回 给 客户 端 主 机 。 


(5) T10 时 刻 ， 系 统 接收 到 来 自 客户 端的 针对 源 虚 拟 影 像 卷 
LBA5 的 读 请 求 ， 立 即 扫描 映射 表 F0 发 现 源 卷 LBA5 的 Slot 中 并 没有 映 
射 条 目 ， 所 以 系统 立即 从 源 卷 中 读 取 LBA5 地 址 对 应 的 内 容 并 返回 给 客 
户 端 主机 。 


说 明 : 有 一 点 必须 说 明 ， 查 询 线程 在 查找 映射 表 之 前 ， 必 须 
先 向 CoFW 线 程 查 询 当 前 时 刻 是 否 存在 任何 针对 源 物理 卷 的 
写 IO 正 在 被 执行 ， 如 果 有 ，IO 的 地 址 是 多 少 ， 如 果 地 址 恰好 
就 是 需要 查询 的 地 址 ， 则 查询 线程 必须 先 等 待 CoFW 线 程 完 
成 CoFW 操 作 之 后 (此 时 CoFW 会 向 映射 表 中 更 新 刚才 这 个 
CoFW 的 数据 在 IO 仓库 中 的 地 址 ) ， 再 去 查询 映射 表 中 对 应 
的 条 目 ， 此 时 就 可 以 查 到 最 新 的 结果 了 。 并 且 ， 如 果 查 询 线 


程 查询 的 结果 是 直接 从 源 物 理 卷 中 读 取 内 容 ， 则 在 查询 线程 
完成 读 取 之 前 ，CoFW 线 程 不 能 进行 针对 这 个 地 址 的 CoFW 操 
作 。 如 果 系 统 不 这 样 做 ， 也 就 是 不 与 CoFW 线 程 交 互 ， 那 么 
查询 线程 很 有 可 能 从 源 卷 中 读 取 的 是 最 新 刚 被 瑟 入 的 数据 而 
不 是 对 应 以 前 快照 时 刻 的 数据 。 


(6) T11 时 刻 ， 系 统 接收 到 主机 客户 端 针对 虚拟 影像 卷 任 何 一 个 
地 址 的 写 IO 操 作 ， 则 系统 立即 将 这 个 写 IO 和 其 对 应 的 LBA 地 址 一 同 存 
放 在 另外 一 个 单独 的 数据 映射 表 中 ， 与 地 址 映射 表 一 样 ， 每 个 条 目 
Slot 中 的 LBA 地 址 按照 大 小 顺序 排列 ， 只 不 过 这 个 Slot 中 存放 的 是 虚拟 
影像 卷 的 LBA 地 址 和 对 应 的 主机 写 IO 实 体 数 据 (当然 也 可 以 将 实体 数 
据 放 到 公用 IO 仓库 中 然后 在 这 个 表 中 存放 数据 在 仓库 中 的 LBA 地 址 指 
针 ， 视 设计 不 同 而 定 ) 。 一 旦 第 一 个 写 IO 被 系统 接收 之 后 ， 针 对 随后 
的 任何 一 个 客户 端 发 送 的 读 或 者 是 写 IO ， 系 统 都 要 首先 查询 这 个 
RoFW 数 据 映射 表 ， 如 果 找 到 对 应 的 映射 ， 则 直接 将 表 中 对 应 的 数据 
返回 给 客户 端 ; 如 果 没 找到 对 应 条 目 ， 则 再 执行 与 上 几 步 中 同样 的 动 
作 。 上 一 步 中 的 线程 依赖 关系 同样 要 考虑 。 


(7) T12 时 刻 ， 客 户 端 要 求 挂 载 快照 S2 对 应 的 虚拟 影像 卷 。 系 统 
接收 到 请 求 之 后 ， 做 与 第 (1) 步 相 同 的 工作 。 如 果 接 收 到 客户 端 主机 
针对 S2 影 像 卷 的 任何 IO 请 求 ， 则 做 与 第 (2) 一 第 《5) 步 相同 的 动 
作 ， 只 不 过 系统 要 去 扫描 S2 的 映射 表 F2 了 。 两 个 虚拟 卷 可 以 同时 接收 
IO。 


客户 端 决定 将 快照 S0 进 行 Rollback (Restore) 时 系统 的 动作 流程 


(1) T13 时 刻 ， 客 户 端 要 求 将 快照 S0 直 接 回 滚 覆 盖 到 产物 理 卷 。 
系统 接收 到 请 求 之 后 ， 直 接 向 客户 端 返回 已 经 成 功 Rollback (与 直接 


挂 载 虚 拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 以 选择 前 台 Rollback， 即 
Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S0 快 照 点 卷 的 任何 IO 操 
作 。 但 是 为 了 保证 操作 友好 性 ， 在 此 设计 为 后 台 操 作 。 后 台 操 作 的 结 
果 是 ， 主 机 直接 认为 Rollback 成 功 ， 则 可 能 立即 向 源 卷 发 起 读 写 10。 
还 需要 注意 的 一 点 是 ， 在 Rollback 之 前 ， 主 机 客户 端 一 定 要 将 其 Buffer 
中 的 内 容 Flush 到 源 卷 ， 否 则 源 卷 一 下 子 被 Rollback， 但 是 主机 中 却 保 
存 着 Rollback 之 前 的 缓存 ， 随 后 又 将 这 些 缓存 Flush 到 Rollback 之 后 的 源 
卷 ， 那 么 数据 就 不 一 致 了 。 不 一 致 的 后 果 是 可 怕 的 。 所 以 ， 在 
Rollback 之 前 ， 干 脆 在 主机 端 Unmount 源 卷 ，Rollback 完 成 后 再 Mount 
回来 即 可 。 


(2) T14 时 刻 ， 系 统 开 始 执行 与 挂 载 虚 拟 影像 读 写 时 相同 的 动 
作 ， 但 是 在 后 台 ， 系 统 会 将 原先 CoFW 出 来 的 数据 块 以 及 刚刚 被 RoFW 
(如 果 后 台 操 作 未 完成 时 客户 端 有 写 IO 进 入 ) 的 数据 统统 覆盖 到 源 物 
理 卷 对 应 地 址 上 ， 在 读 取 IO 仓 库 中 的 CoFW 块 时 要 首先 查询 RoFW 数 据 
映射 表 中 是 否 已 经 针对 当前 操作 的 地 址 有 被 写 入 的 数据 ; 如 果 有 ， 抛 
弃 原 来 被 CoFW 的 数据 转 而 将 刚 被 更 新 过 的 数据 写 入 源 卷 在 处 理 客 
户 端 写 IO 请 求 时 ， 也 可 以 直接 将 写 IO 数 据 覆 盖 到 源 物 理 卷 对 应 地 址 ， 
无 须 RoFW， 节 约 一 轮 IO 操 作 ， 但 必须 记录 每 个 在 Rollback 开 始 与 完成 
之 间 发 生 的 写 IO 地 址 以 便 在 Rollback 时 跳 过 这 些 地 址 ， 可 以 用 Bitmap 
来 记录 ) 。 同 样 ， 线 程 依 赖 关 系 必 须 考 虑 。 处 理 完 的 CoFW 块 将 在 IO 
仓库 的 Bitmap 中 被 标记 为 空 闪 以 便 腾 出 空间 。 


说 明 : 整个 步骤 中 需要 着 重 注意 的 是 ， 比 如 T5 时 刻 系统 状态 
图 所 示 ， 当 系统 要 将 C0 覆盖 C2 的 时 候 ， 此 时 由 于 C2 为 快照 
S2 的 基准 块 ， 所 以 ， 如 果 选 择 保存 S52 快照 ， 那 么 依然 需要 将 
C2 先 CoFW 之 后 放 入 IO 仓库 ， 然 后 更 新 F2 映 射 表 中 对 应 的 条 


目 。 即 ， 在 做 覆盖 操作 之 前 ， 必 须 参 考 恢复 快照 点 之 后 所 有 
快照 点 的 地 址 映射 表 ， 一 旦 任何 一 份 表 中 对 应 的 地 址 没有 了 映 
射 条 目 ， 则 依然 需要 CoFW 过 程 。 

然而 ， 目 前 市 面 上 的 产品 几乎 都 严格 遵照 历史 规则 ， 即 ， 既 


(3) T15 时 刻 ， 当 地 址 映射 表 与 RoFW 数 据 映射 表 中 的 所 有 条 目 
都 被 处 理 完 成 之 后 ， 系 统 立 即将 这 两 份 表 彻 底 删 掉 。 此 刻 之 后 ， 就 相 
当 于 S0 快 照 没 有 被 创建 过 ， 而 系统 只 剩 下 了 S2 快 照 。 随 后 的 动作 流程 
与 生成 S2 快 照 之 后 的 动作 相同 。 


最 后 还 需要 明确 一 点 ， 如 果 在 整个 后 台 过 程 完成 之 前 ， 再 有 新 的 
Snapshot 被 创建 ， 则 新 Snapshot 创 建 之 后 的 CoFW 过 程 将 会 与 后 台 
Rollback 操 作 过 程 相 冲 突 ， 除 非 引 入 额外 的 CoFW 操 作 才 能 保证 数据 一 
致 性 ， 所 耗费 的 开销 和 动作 流程 与 上 文中 的 保存 S2 快 照 的 开销 和 动作 
流程 相同 。 当 然 ， 如 果 一 开始 就 选择 使 用 前 台 方 式 Rollback ， 则 
Rollback 的 时 间 和 效率 都 会 增加 ， 只 不 过 需要 用 户 等 待 一 段 时 间 。 


客户 端 决定 删除 快照 So 时 系统 的 动作 流程 〈S0 尚 未 被 删除 时 ， 从 
T13 时 刻 开 始 ) 


(1) IT13 时 刻 ， 客 户 端 卸载 了 S0 快 照 虚 拟 影像 卷 ， 系 统 收 到 印 载 
请 求 之 后 ， 将 RoFW 数 据 映 射 表 全 部 删除 ， 其 他 不 做 更 改 。 如 果 客 户 


端 再 次 挂 载 该 快照 ， 则 会 重新 得 到 一 份 干净 的 T0 时 刻 的 卷 影像 ， 之 前 
的 写 IO 数 据 由 于 被 系统 删 掉 ， 所 以 全 部 丢失 。 如 果 客 户 端 希 望 在 和 卸 载 
虚拟 卷 之 后 系统 能 够 依然 保持 所 做 的 更 改 ， 则 需要 通知 系统 创建 一 份 
针对 快照 SO 的 Clone 卷 ， 即 针对 S0 的 二 次 虚拟 影像 卷 。 所 谓 Clone 卷 也 
只 不 过 就 是 系统 会 永久 保存 RoFW 数 据 映射 表 ， 除 非 显 式 地 收 到 删除 
请 求 。Clone 卷 下 文 也 会 有 所 介绍 。 


(2) T14 时 刻 ， 客 户 端 请 求 系统 删除 快照 S0。 系 统 接收 到 请 求 之 
后 ， 首 先 扫描 对 应 S0 快 照 的 F0 地 址 映射 表 并 扫描 其 他 所 有 快照 的 地 址 
映射 表 ， 找 出 只 有 S0 映 射 表 F0 中 存在 而 其 他 快照 映射 表 中 都 不 存在 的 
对 应 条 目 ， 比 如 T5 时 刻 的 LBA30 了 映射 条 目 ， 从 IO 仓库 bitmap 中 标记 对 
应 的 CoFW 块 为 空 和 出。 当 S0 映 射 表 中 所 有 条 目 都 扫描 并 处 理 完 成 之 
后 ， 删 除 整 个 S0 映 射 表 F0， 此 时 S0 快 照 便 删除 完毕 。 这 个 过 程 中 依然 
涉及 线程 依赖 关系 ， 需 要 考虑 。 另 外 ， 这 个 过 程 可 以 前 台 操 作 ， 也 可 
以 后 台 操 作 ， 但 推荐 后 台 操 作 ， 这 样 对 系统 和 随后 的 IO 无 影响 。 


(3) 删除 任何 一 个 快照 ， 流 程 缘 相同 。 
如 何 计算 CoFW 模 式 下 两 份 快 照 影像 之 间 所 更 改过 的 数据 地 址 


有 时 候 系 统 需要 得 知 前 后 两 份 快照 之 间 所 变化 的 数据 地 址 ， 这 种 
情况 在 实现 增 量 备份 的 时 候 很 需要 。 比 如 A 时 刻 做 了 一 份 快 照 并 将 其 
做 了 备份 ，B 时 刻 又 做 了 一 次 快照 ， 此 时 没有 必要 将 B 时 刻 的 快照 也 完 
整地 备份 下 来 ， 如 果 只 备份 B 时 刻 快照 相对 于 A 时 刻 快照 之 间 变 化 过 的 
效 据 ， 则 可 以 大 量 节 省 备份 时 间 和 空间 。 待 恢复 时 刻 A 快 照 的 时 候 ， 
正常 恢复 ， 待 恢复 时 刻 B 快 照 的 时 候 ， 当 恢复 程序 读 取 到 更 改过 内 容 
的 地 址 时 直接 读 取 时 刻 B 的 增 量 备份 中 对 应 地 址 的 数据 即 可 。 还 有 一 
种 情况 需要 使 用 快照 比 对 ， 那 就 是 远程 数据 容 灾 系统 的 底层 设计 ， 诸 


如 EMGC/Mirrorview、 3PAR/RemoteCopy、 NetApp/SnapMirror 等 远程 数 
据 复 制 软件 均 使 用 快照 比 对 技术 来 向 远程 批量 传送 变化 的 数据 ， 下 一 
章 将 详细 描述 这 些 技术 的 底层 实现 方式 。 


对 于 CoFW 模 式 的 快照 ， 比 较 任意 两 份 快 照 之 间 所 不 同 的 数据 只 
需 按照 下 面 步骤 操作 即 可 


(1) 某 系 统 先后 生成 了 3 份 快照 ，S0、S1、S2。 现 需要 比较 以 得 
知 快照 So 与 S2 之 间 的 变化 数据 。 系 统 首 先 对 比 S0 和 S1， 找 出 在 S0 地 址 
映射 表 中 存在 但 是 在 S1 地 址 映射 表 中 不 存在 的 地 址 映射 条 目 〈 先 忽略 
映射 结果 的 异同 ， 即 条 目 右 侧 的 地 址 。 只 要 某 个 地 址 存在 条 目 就 是 存 
在 ， 不 存在 条 目 ， 就 是 不 存在 ) ， 以 及 S0 中 和 S1 中 都 存在 但 是 映射 结 
果 不 同 的 地 址 映射 条 目 。 将 所 有 条 目 收 集 到 一 份 新 列表 中 。 


(2) 之 后 ， 系 统 再 按照 相同 的 规则 比 对 S1 和 S2 的 地 址 映射 表 ， 
将 收集 到 的 地 址 追加 到 刚才 的 新 列表 之 后 。 


(3) 对 新 列表 中 的 地 址 条 目 按 照 源 卷 地 址 进行 排序 。 
2) 基于 RoFW 模 式 的 快照 设计 


RoFW 模 式 一 般 没 人 用 在 原生 快照 设计 中 ， 除 非 是 架构 馆 异 的 快 
照 实现 方式 比 ， 如 NetApp WAFL 快 照 (我 们 将 在 后 文中 简要 介绍 
WAFL 快 照 的 实现 原理 ) 。 究 其 原因 是 因为 RoFW 模 式 实现 起 来 相对 
CoFW 方 式 复杂 。 但 是 由 于 其 对 写 性 能 的 影响 显著 低 于 CoFW 方 式 ， 在 
这 里 也 简要 地 演绎 一 下 这 种 模式 。 


快照 生成 及 生成 之 后 的 系统 动作 流程 


(1) T0 时 刻 ， 有 卷 V1，IO 人 仓库 V2。 此 时 系统 触发 一 份 
Snapshot。 进 入 触发 流程 之 后 ， 系 统 创建 一 份 针对 T0 时 刻 的 快照 S0 的 
地 址 映射 表 F0， 这 份 表 在 TO 时 刻 为 室 ， 如 图 16-15 所 示 。 


图 16-15 ”TO 时 刻 


(2) T1 时 刻 ， 有 针对 源 卷 LBA0 地 址 的 写 IO 数据 A1 进 入 ， 此 时 系 
统 直接 将 Al1 写 入 IO 仓库 中 的 LBA0 存 放 。 并 在 S0 对 应 的 地 址 映射 表 F0 
中 的 LBA0 的 Slot 中 加 入 映射 关系 “LBA0 二 LBA0” 如 图 16-16 所 示 。 左 边 
是 源 卷 中 的 地 址 ， 右 边 是 IO 仓库 中 的 对 应 数据 存放 的 地 址 。 这 里 的 意 
义 与 CoFW 方 式 不 同 了 ， 这 里 的 意思 是 ， 源 物理 卷 地 址 LBA0 的 最 新 数 
据 内 容 在 IO 仓库 中 的 LBA0 地 址 存放 而 不 是 源 卷 自身 ， 源 卷 自身 永远 
都 是 S0 时 刻 的 影像 ， 永 久 冻结 ， 拒 绝 写 入 ， 除 非 所 有 快照 都 被 删除 。 


图 16-16 TI1 时 刻 


(3) IT2 时 刻 ， 有 针对 源 卷 LBA30 的 数据 C2 进 入 ， 系 统 依然 直接 
将 C2 写 入 IO 仓库 的 LBA1 地 址 存放 ， 并 在 映射 表 F0 中 对 应 LBA30 的 Slot 
中 增加 映射 条 目 。 最 后 ， 系 统 收 到 命令 触发 一 份 新 快照 S2， 系 统 会 大 
S2 也 生成 一 份 映 射 表 F2， 如 图 16-17 所 示 。 


图 16-17 ” T2 时 刻 


(4) T3 时 刻 ， 再 次 有 针对 源 卷 LBA0 地 址 的 数据 A3 进 入 。 此 时 ， 
由 于 第 二 份 快 照 S2 已 经 生成 ， 而 S2 的 生成 会 引发 系统 动作 的 很 大 变 
化 。 此 时 ， 源 物理 卷 、F0 映 射 表 以 及 表 中 的 指针 所 指向 的 IO 仓库 中 的 
数据 ， 共 同 组 成 了 快照 S2 的 基准 卷 ， 这 三 者 的 共同 体 也 就 是 源 卷 在 T2 
时 刻 的 影像 ， 即 快照 S2， 也 将 会 被 永久 冻结 ， 拒 绝 写 入 ， 如 图 16-18 所 
人 小 o 


图 16-18”T3 时 刻 


系统 就 像 上 几 步 一 样 ， 直 接 将 A3 写 入 IO 仓库 中 的 新 地 址 LBA2 中 
(LBA0 和 LBA1 被 冻结 但 是 其 他 地 址 未 被 冻结 ) ， 并 且 在 F2 映 射 表 中 
将 LBA0 的 Slot 写 入 映射 指针 。 


(5) T4 时 刻 ， 再 次 有 针对 源 卷 LBA0 地 址 的 数据 A4 进 入 。 此 时 ， 
系统 检查 最 晚 也 就 是 最 后 一 份 快照 映射 表 中 是 否 有 对 应 这 个 地 址 的 映 
射 条 目 ， 如 果 有 ， 则 提取 出 映射 的 IO 仓库 地 址 同时 将 数据 写 入 IO 仓库 
中 对 应 的 地 址 ， 也 就 是 覆盖 了 IO 仓库 中 原来 这 个 地 址 上 的 数据 。 本 例 
中 ， 系 统 发 现存 在 LBA0 的 条 目 ， 所 以 直接 用 A4 和 覆盖 了 IO 仓 库 中 原来 
的 数据 A3。 了 映射 表 中 不 做 任何 更 改 。 如 图 16-19 所 示 。 


图 16-19”T4 时 刻 


(6) T5 时 刻 ， 有 针对 源 卷 地 址 LBA11 的 IO 写 入 数据 B5 进 入 。 此 
时 系统 依然 首先 检查 最 晚 也 就 是 最 后 一 份 快照 映射 表 中 是 否 有 对 应 这 
个 地 址 的 映射 条 目 ， 如 果 没 有 ， 则 将 数据 写 入 到 IO 仓库 中 的 一 个 新 地 
址 中 。 本 例 中 ，F2 表 中 没有 LBA11 的 映射 条 目 ， 所 以 系统 直接 将 B5 写 
入 了 IO 仓库 中 的 LBA3 中 ， 并 在 F2 表 中 更 新 了 条 目 ， 如 图 16-20 所 示 。 


图 16-20”T5 时 刻 


(7) T6 时 刻 ， 有 针对 源 卷 LBA0 地 址 的 读 操作 进入 。 此 时 系统 检 
查 最 晚 的 一 份 快 照 中 是 否 有 LBA0 地 址 的 映射 条 目 ， 如 果 没 有 ， 则 继续 
查找 前 一 份 快照 是 否 有 对 应 地 址 的 映射 条 目 ， 如 果 都 没 找到 映射 条 
目 ， 则 直接 从 源 物理 卷 中 对 应 地 址 读 出 数据 并 返回 给 客户 端 。 如 果 按 
时 间 倒 序 的 顺序 查询 之 后 最 终 在 某 份 快照 映射 表 中 查 到 了 对 应 地 址 的 
条 目 ， 则 提取 映射 的 IO 仓库 地 址 ， 并 从 IO 仓库 中 将 这 个 地 址 对 应 的 数 


据 读 出 并 返回 给 客户 端 。 本 例 中 ， 系 统 在 最 晚 的 快照 映射 表 F2 中 找到 
了 LBA0 的 映射 条 目 ， 立 即 从 IO 仓库 中 将 LBA2 处 的 数据 读 出 ， 返 回 给 
客户 端 。 经 过 上 述 的 算法 ， 才 能 保证 传 给 客户 端的 数据 是 最 新 的 ， 而 
不 是 某 份 快照 时 间 点 对 应 的 之 前 的 数据 。 


(8) T7 时 刻 ， 系 统 再 次 触发 一 份 快 照 S7， 创 建 了 对 应 的 F7 映 射 
表 。 此 时 ，F0 和 F2 均 都 处 于 冻结 状态 ， 如 图 16-21 所 示 。 


图 16-21 T7 时 刻 


(9) T8 时 刻 ， 有 针对 源 卷 的 LBA0 和 LBA17 以 及 LBA5 的 三 个 写 
IO 先后 同时 进入 。 系 统 按照 规则 ， 查 询 最 后 一 份 快 照 地 址 映射 表 也 就 
是 F7 中 是 否 有 针对 这 三 个 地 址 的 映射 条 目 ， 发 现 都 没有 ， 所 以 将 这 三 
个 IO 数据 写 到 IO 仓库 中 的 空 肉 位置 ， 然 后 在 F7 中 更 新 映射 条 目 ， 如 图 
16-22 所 示 。 


图 16-22 TIT8 时 刻 
客户 端 挂 载 某 份 快照 进行 IO 读 写 时 的 系统 动作 流程 


(1) T9 时 刻 ， 系 统 接 收 到 客户 端 请 求 将 快照 S0 对 应 的 TO 时 刻 的 
源 卷 的 虚拟 影像 映射 给 客户 端 。 系 统 接收 到 请 求 之 后 ， 立 即 根据 源 卷 
的 大 小 等 属性 ， 通 过 底层 传输 通道 报告 给 客户 端 主 机 一 个 虚拟 卷 。 


(2) T10 时 刻 ， 主 机 识别 到 了 这 个 虚拟 卷 影像 (此 时 主机 对 源 物 
理 卷 依然 在 进行 读 写 IO， 无 影响 ， 并 且 将 其 挂 载 到 某 个 盘 符 下 。 此 
时 有 某 个 程序 (比如 文件 系统 ) 尝试 读 取 这 个 卷 的 LBA0 地 址 对 应 的 数 
据 。 


(3) T11 时 刻 。RoFW 模 式 的 原生 快照 的 好 处 是 ， 把 复杂 留 给 后 
台 ， 把 简单 留 给 前 人 台 。 确 实 是 这 样 的 ， 写 的 时 候 直 接 写 入 对 应 位 置 ， 
不 需要 CoFW 方 式 中 的 多 余 的 一 读 一 写 操作 ， 只 不 过 写 之 前 需要 做 一 
些 映射 运算 以 判断 是 覆盖 还 是 新 写 到 空闲 位 置 ， 但 是 运算 过 程 总 比 IO 
过 程 快 。 同 样 ， 在 读 取 系统 最 早 的 也 就 是 第 一 份 快照 虚拟 影像 的 时 
候 ， 也 是 非常 痛快 淋漓 的 。 本 例 中 挂 载 了 SO 时 刻 快照 ， 也 就 是 最 早 的 
第 一 份 快照 ， 上 文中 说 过 ，S0 快 照 其 实 就 是 当前 的 物理 源 卷 ， 因 为 自 
动 S0 生 成 之 后 ， 源 卷 就 被 永久 冻结 了 。 所 以 此 刻 ， 系 统 针 对 客户 端 发 
起 的 读 请 求 将 直接 定向 到 源 卷 对 应 地 址 ， 不 牵扯 任何 映射 运算 过 程 。 


(4) T12 时 刻 ， 系 统 接收 到 客户 端 请 求 将 快照 S2 对 应 的 T2 时 刻 的 
源 卷 的 虚拟 影像 映射 给 客户 端 。 系 统 接收 到 请 求 之 后 ， 立 即 根据 产 卷 
的 大 小 等 属性 ， 通 过 底层 传输 通道 报告 给 客户 端 主 机 一 个 虚拟 卷 。 


(5) T13 时 刻 ， 主 机 识别 到 了 这 个 虚拟 卷 影像 (此 时 主机 对 源 物 
理 卷 依然 在 进行 读 写 IO， 无 影响 ，， 并 且 将 其 挂 载 到 某 个 盘 符 下 。 此 
时 有 某 个 程序 (比如 文件 系统 ) 尝试 读 取 这 个 卷 的 LBA0 地 址 对 应 的 数 
据 。 


(6) T14 时 刻 。 上 文中 描述 过 针对 最 早 快照 虚拟 卷 的 读 过 程 。 本 
步 中 针对 的 则 不 是 最 早 的 快照 ， 而 是 随后 的 快照 。 系 统 收 到 针对 虚拟 


快照 点 对 应 的 地 址 映射 表 。 这 里 需要 搞 清 楚 ，RoFW 模 式 的 快照 实现 
设计 与 CoFrW 实 现 方式 在 这 个 步骤 中 的 动作 近 异 。 也 就 是 说 ， 本 次 快 
照 的 影像 其 实 是 由 源 物 理 卷 十 上 一 份 快照 对 应 的 地 址 映射 表 所 共同 冻 
结 而 成 的 ， 而 最 后 一 份 快照 地 址 映射 表 中 的 指针 表示 的 则 是 产物 理 郑 
的 最 新 数据 状态 ， 而 不 是 这 份 快 照 时 刻 的 状态 ， 不 要 搞 乱 。 本 例 中 ， 


系统 查询 F0 表 中 是 否 有 LBA0 地 址 的 映射 条 目 ， 如 果 有 ， 则 提取 映射 
地 址 并 从 IO 仓库 中 读 取 对 应 地 址 的 数据 并 返回 给 客户 端 。 


(7) T15 时 刻 ， 系 统 接收 到 针对 S2 快 照 虚拟 影像 卷 LBA11 地 址 的 
读 操作 。 系 统 依然 去 查询 前 一 份 快照 也 就 是 S0 对 应 的 地 址 映射 表 F0， 
本 例 中 ， 没 有 找到 LBA11 对 应 的 映射 条 目 ， 则 系统 将 会 继续 查 前 一 份 
快照 映射 表 中 对 应 地 址 的 映射 条 目 ， 直 到 找到 为 止 。 本 例 中 ， 已 经 到 
了 尽头 ， 所 以 系统 直接 从 源 物 理 卷 中 读 取 LBA11 地 址 对 应 的 数据 并 返 
回 给 客户 端 。 


说 明 : 值得 说 明 的 一 点 是 ，RoFW 设 计 模 式 下 ， 不 像 CoFW 
模式 下 存在 线程 依赖 关系 。 对 快照 虚拟 影像 卷 的 读 操作 并 不 
会 与 对 源 卷 的 写 操作 之 间 有 任何 牵连 和 影响 。 


(8) T16 时 刻 ， 系 统 接收 到 针对 S2 快 照 虚 拟 影像 卷 LBA0 地 址 的 
写 入 请 求 。 与 CoFW 的 处 理 方 式 相 同 ， 此 时 系统 将 新 创建 一 个 针对 S2 
快照 的 RoFW 数 据 映 射 表 ， 并 将 待 写 入 的 数据 写 入 表 中 对 应 地 址 的 
Slot。 人 在 随后 的 读 请 求 处 理 过 程 中 ， 要 优先 查询 RoFW 表 ， 过 程 与 
CoFW 过 程 相 同 ， 其 他 步骤 不 再 重复 论述 。 


客户 端 决定 将 快照 S0 进 行 Rollback (Restore) 时 系统 的 动作 流程 


(1) T17 时 刻 ， 客 户 端 要 求 将 快照 SO 直接 回 滚 履 盖 到 源 物理 卷 。 
系统 接收 到 请 求 之 后 ， 直 接 向 客户 端 返 回 已 经 成 功 Rollback (与 直接 
挂 载 虚 拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 以 选择 前 台 Rollback， 即 
Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S0 快 照 点 卷 的 任何 IO 操 
作 。 但 是 为 了 保证 操作 友好 性 ， 我 们 在 此 设计 为 后 台 操 作 。 后 台 操 作 


过 程 中 如 果 遇 到 客户 端 写 IO ， 处 理 方式 与 CoFW 模 式 下 的 处 理 方式 相 
同 ， 见 前 文 。 


(2) IT18 时 刻 ， 系 统 开始 在 后 台 进 行 Rollback 操 作 。 由 于 S0 快 照 
点 其 实 就 是 当前 的 源 物 理 卷 ， 所 以 Restore 过 程 不 需要 任何 额外 操作 ， 
直接 就 完成 了 。 要 注意 的 是 ，S0 对 应 的 F0 和 S2 对 应 的 F2 映 射 表 需要 保 
留 ， 前 提 是 客户 端 想 保留 S2 和 S7 时 刻 的 快照 的 话 ， 因 为 S2 快 照 需要 参 
考 F0，S7 要 参考 F2。 但 是 F7 映 射 表 无 须 保 留 ， 因 为 F7 中 的 指针 表示 的 
源 物 理 卷 的 最 新 状态 变化 指针 ， 既 然 选 择 回 滚 ， 那 么 就 代表 最 新 时 刻 
的 数据 已 经 不 需要 了 。 


一 般 是 不 推荐 选择 保留 晚 于 S0 的 其 他 所 有 快照 的 ， 因 为 保留 这 些 
快照 需要 支付 额外 的 系统 资源 。 如 果 客 户 端 明确 选择 保留 ， 则 系统 会 
将 S0 之 后 的 所 有 地 址 映射 表 封 存 到 一 个 特定 的 位 置 ， 永 久 冻 结 (这 里 
有 一 个 规律 ， 即 如 果 用 户 选 择 保留 的 所 有 快照 中 最 晚 的 一 个 是 SX 
(X>S0) ， 则 映射 表 FX 及 其 之 后 的 所 有 了 映射 表 皆 可 删除 ) 。 然 后 系 
统 开始 新 一 轮 的 快照 周期 ， 即 必须 首先 再 生成 一 个 S0' 快 照 ， 创 建 一 份 
新 的 F0' 空 映射 表 ， 然 后 再 接受 客户 端的 读 写 IO 操 作 ， 随 后 生成 的 快照 
也 按照 顺序 重新 编号 。 如 果 后 来 用 户 选 择 要 Rollback 或 者 挂 载 之 前 生 
成 的 某 份 快照 ， 则 系统 会 调 出 封存 的 那 几 份 映射 表 ， 根 据 永 久 冻 结 的 
源 物 理 卷 ， 一 层 层 累 加 从 而 获得 对 应 时 刻 快照 的 影像 。 


如 果 客 户 端 在 Rollback 的 时 候选 择 了 不 保存 S0 之 后 的 快照 ， 则 系 
统 会 直接 将 F0 及 以 后 的 所 有 F 了 映射 表 全 部 删 掉 ， 了 映射 表 所 对 应 的 IO 仓 
库 中 的 对 应 地 址 块 也 全 部 标记 为 空间 。 此 时 ， 源 卷 彻底 被 恢复 到 TO 时 
刻 状 态 ， 由 于 当前 系统 中 已 经 没有 任何 快照 存在 ， 所 以 针对 客户 端的 
与 10 操 作 ， 系 统 会 直接 写 同 源 卷 而 没有 任何 RoFW 操 作 ， 直 到 有 又 一 
个 快照 生成 为 止 。 


Rollback 完 成 后 ， 客 户 端 针 对 Rollback 之 后 的 卷 进行 写 操作 时 ， 其 
实 依然 需要 RoFW 到 IO 仓库 中 ， 至 于 写 到 IO 仓库 哪个 位 置 〈 履 盖 还 是 
新 写 ) ， 就 需要 系统 根据 最 后 一 份 地 址 映射 表 判 断 。 读 和 写 操作 均 与 
之 前 的 相关 步骤 相同 。 整 个 系统 的 源 物 理 卷 ， 只 要 还 存在 任何 一 个 快 
照 ， 则 永远 都 是 第 一 份 快照 被 创建 时 候 的 状态 ， 永 久 被 冻结 。 


客户 端 决定 将 非 S0 快 照 S7 进 行 Rollback (从 T17 时 刻 开 始 ) 时 系 
统 的 动作 流程 


(1) T17 时 刻 ， 客 户 端 要 求 将 快照 S7 直 接 回 滚 履 盖 到 源 物理 卷 。 
系统 接收 到 请 求 之 后 ， 直 接 向 客户 端 返回 已 经 成 功 Rollback (与 直接 
挂 载 虚 拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 以 选择 前 台 Rollback， 即 
Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S57 快照 点 卷 的 任何 IO 操 
作 。 但 是 为 了 保证 操作 友好 性 ， 我 们 在 此 设计 为 后 台 操 作 。 后 台 操 作 
过 程 中 如 果 遇 到 客户 端 写 IO ， 处 理 方式 与 CoFW 模 式 下 的 处 理 方 式 相 
同 ， 见 前 文 。 


(2) T18 时 刻 ， 若 客户 端 选择 不 保留 任何 其 他 的 快照 ， 则 系统 首 
先 将 所 有 F7 之 前 的 地 址 映射 表 (不 包含 F7，F7 将 被 删除 ) 做 合并 操 
作 ， 如 果 在 多 个 表 中 遇 到 同一 个 地 址 的 映射 天 系 ， 则 只 留 下 最 晚 的 表 
中 的 条 目 ， 被 抛弃 的 条 目 对 应 的 IO 仓库 中 的 地 址 会 在 bitmap 中 被 标记 
为 空间 。 合 并 之 后 的 新 映射 表 命 名 为 F0'。 源 物理 卷 十 F0' 共 同 组 成 了 
T7 时 刻 快照 S7 时 卷 的 影像 ， 此 时 ， 由 于 系统 内 再 无 其 他 任何 快照 ， 所 
以 系统 扫描 F0' 中 的 每 一 条 映射 ， 然 后 将 IO 仓库 中 对 应 地 址 的 数据 读 出 
并 覆盖 到 产物 理 卷 对 应 地 址 ， 全 表 处 理 完成 后 ，IO 仓 库 清 零 ， 
Rollback 完 成 ， 源 物理 卷 上 的 实际 数据 就 变 为 了 T7 时 刻 的 影像 ， 系 统 
继续 运作 。 


(3) T18 时 刻 ， 若 客户 端 选择 要 求 保留 $S2 快 照 ， 则 系统 首先 将 F2 
之 前 的 所 有 了 映射 表 ， 本 例 中 即 F0 永 久 封存 ， 同 时 删除 F7 映 射 表 (并 在 
IO 仓库 bitmap 中 标记 对 应 F7 映 射 的 所 有 块 为 空闲) ， 之 后 ， 系 统 将 待 
回复 快照 点 之 前 的 所 有 F 了 映射 表 (本 例 中 即 F2 和 F0) 按照 上 一 步 描 述 
的 规则 做 合并 操作 ， 合 并 之 后 的 映射 表 保 存 为 F0'， 此 时 便 可 接受 客户 
端 读 写 IO 操 作 ， 开 始 新 一 轮 周期 ，Rollback 完 成 。 


(4) T18 时 刻 ， 假 设 系统 有 10 个 快照 ， 如 果 客 户 端 选择 恢复 第 8 
个 快照 ， 同 时 保留 第 3 个 、 第 6 个 快照 ， 那 么 此 时 系统 首先 将 第 1 个 快照 
对 应 的 映射 表 合并 到 第 2 个 快照 对 应 的 映射 表 ， 合 并 之 后 封存 (为 3 号 
快照 的 影像 指针 ) ， 然 后 将 刚才 封存 的 合并 之 后 的 映射 表 与 第 3 和 第 4 
个 快照 对 应 的 映射 表 再 次 合并 到 第 5 个 快照 映射 表 中 ， 合 并 后 封存 (为 
6 号 快照 的 影像 指针 ) 。 删 除 F8 映 射 表 。 然 后 ， 系 统 将 1 全 6 号 快照 映 
射 表 与 7 号 映射 表 合 并 ， 合 并 后 存 为 F0' 映 射 表 ， 源 物理 郑 十 F0' 共 同 组 
成 了 T8 时 刻 快照 S8 时 卷 的 影像 ， 最 后 打扫 战场 ， 将 IO 仓库 中 由 于 映射 
表 合 并 而 产生 的 空 闪 数 据 块 在 Bitmap 中 标记 为 0， 即 空间 。 系 统 继 续 运 
作 。 


可 以 判断 出 来 ，RoFW 模 式 的 原生 快照 其 流程 过 于 复杂 ， 实 现 起 
来 流程 较 多 ， 尤 其 是 快照 生成 之 后 的 读 IO 过 程 和 快照 挂 载 或 者 回 深 之 
后 的 一 系列 流程 ， 都 涉及 到 复杂 的 运算 ， 所 以 目前 大 部 分 产品 都 使 用 
CoFW 模 式 进行 快照 设计 。 


NetApp 与 IBM XIV 存 储 系 统 使 用 的 都 是 基于 RoFW 模 式 的 快照 实 
现 模 式 ， 选 择 这 种 模式 与 其 底层 设计 息息相关 。 在 后 面 章节 会 讨论 
NetApp 为 何 会 使 用 WR 模式 。 在 第 15 章 会 讨论 IBM XIV 系 统 为 何 也 会 
使 用 WR 模式 。 


如 何 计算 RoFW 模 式 下 两 份 快 照 影像 之 间 所 更 改过 的 数据 地 址 


对 于 RoFW 模 式 的 快照 ， 计 算 两 份 快照 之 间 的 数据 变化 地 址 要 比 
CoFW 模 式 下 容易 很 多 。 设 系统 先后 创建 了 S0、S1、S2 三 份 快 照 ， 要 
求 比 对 S0 和 S2 之 间 的 变化 数据 地 址 。 


(1) 由 于 WR 模式 的 快照 下 ， 快 照 S0 其 实 就 是 源 物 理 卷 ， 而 快照 
S2 时 刻 的 状态 其 实 被 表现 在 前 一 份 也 就 是 S1 地 址 映射 表 中 。 所 以 系统 
直接 合并 S0 和 S1 地 址 映射 表 ， 将 其 二 者 所 有 存在 的 条 目 合并 ， 如 果 遇 
到 某 个 地 址 有 两 个 条 目 ， 则 抛弃 时 间 点 较 早 的 映射 表 中 的 条 目 ， 只 保 
留 时 间 点 最 晚 的 映射 表 中 对 应 地 址 的 条 目 。 


(2) 将 合并 后 的 条 目 保 存 于 一 张 新 表 中 ， 并 按照 源 卷 地 址 进行 排 
序 。 


其 实 ， 这 个 过 程 与 删除 某 快 照 的 过 程 类 似 。 


提示 : 关于 比 对 两 份 Snapshot 中 的 变化 数据 地 址 ， 有 更 好 、 
更 高 效 的 实现 方法 。 上 文中 介绍 的 在 两 种 快照 模式 下 实现 比 
对 的 设计 都 是 基于 后 处 理 的 ， 即 快照 已 经 生成 ， 而 且 生 成 之 
前 没有 做 任何 处 理 。 如 果 使 用 中 处 理 ， 即 在 第 一 份 快 照 生 成 
之 后 ， 系 统 立 即 为 源 卷 生成 一 份 全 0 的 空 Bitmap， 随 后 的 写 IO 
系统 均 将 这 个 IO 地 址 对 应 的 位 在 Bitmap 中 置 为 1， 一 直到 第 二 
份 快照 生成 之 后 的 瞬间 ， 系 统 首先 将 这 份 Bitmap 封 存 ， 然 后 
再 次 生成 一 份 全 0 空 Bitmap 再 次 重复 刚才 的 步骤 。 被 封存 的 
Bitmap 中 为 1 的 位 就 代表 了 两 份 快照 生成 的 间隔 期 间 ， 所 有 针 
对 源 卷 的 数据 变化 地 址 。 这 种 处 理 方式 是 目前 厂商 所 采用 
的 。 


3) NetApp WAEFL 快 照 实现 方式 简 述 


首先 ，WAEFL 严 格 来 讲 是 一 个 文件 系统 ， 彻 底 的 文件 系统 ， 而 不 
是 一 个 卷 管理 系统 。 这 个 文件 系统 与 其 他 文件 系统 一 样 ， 将 底层 的 存 
储 空间 虚拟 为 文件 ， 文 件 可 以 任意 凌乱 地 存放 于 存储 空间 的 各 个 位 
置 ， 使 用 inode 链 条 来 组 织 所 有 的 零散 块 。 卷 ， 即 Volume， 在 WAFL 下 
面 其实 也 是 一 个 文件 ， 卷 也 可 以 被 任意 零散 地 分 布 于 存储 空间 各 个 角 
落 ， 只 要 WAFL 有 这 个 需要 。 了 解 FIledisk 的 人 都 应 该 理解 WAFL 的 这 
种 基本 作用 机 制 。 所 以 WAFL 很 灵活 ， 既 然 卷 是 一 个 文件 了 ， 那 么 就 
可 以 对 这 个 文件 进行 任意 的 删除 、 修 改 、 扩 充 、 缩 减 等 一 切 针对 普通 
文件 可 以 做 的 动作 。 更 加 离奇 的 是 ， 每 个 文件 中 又 可 以 骨 套 一 个 文件 
系统 ， 即 文件 中 的 文件 ， 文 件 系统 再 次 将 文件 作为 底层 存储 空间 ， 在 
文件 中 再 建立 多 个 二 级 文件 ， 这 便 是 LUN 了 。WAFL 进 程 需要 同时 管 
理 底层 物理 存储 空间 和 二 次 映射 的 文件 虚拟 空间 。 


其 次 ，WAFL 的 文件 系统 根 入 口 不 是 一 个 ， 而 是 每 个 存储 空间 保 
存 256 个 根 入 口 ， 从 每 个 根 入 口 进入 ， 便 可 以 遍历 出 整个 文件 系统 的 元 
数据 链条 。 也 就 是 说 ，WAFL 可 以 在 一 个 存储 空间 内 存放 256 份 文件 系 
统 影 像 ， 每 一 个 影像 便 是 一 个 快照 。 可 以 对 物理 空间 ， 也 就 是 
Aggregate 做 快照 ， 也 可 以 对 Volume 做 快照 ， 因 为 每 个 volume 也 有 256 
个 根 入 口 。 这 256 个 入 口中 的 第 一 个 入 口 被 称 为 “当前 活动 文件 系统 ”， 
也 就 是 Active Filesystem (AFS) 。 从 这 个 入 口 进入 之 后 遍历 出 的 就 是 
当前 的 存储 空间 内 最 新 数据 ， 一 旦 某 时 刻 触 发 一 份 快照 ， 则 WAFI 会 将 
当前 AFS 的 根 节点 入 口 向 下 一 个 空闲 的 入 口 复 制 一 份 ， 即 完成 了 快照 
的 生成 。 生 成 之 后 ， 当 有 针对 AFS 的 写 入 操作 时 ，WAFI 将 这 些 数据 统 
统 写 入 存储 空间 内 空 闪 的 块 中 ， 并 同时 更 新 元 数据 ， 元 数据 的 写 入 一 


样 也 需要 写 入 空 内 块 中 ， 链 条 指针 一 层 层 地 被 修 改 ， 最 终 更 新 到 AFS 
的 根 入 口 指 针 。 


这 样 ， 上 一 份 快照 中 的 所 有 数据 没有 一 个 块 被 覆盖 ， 从 对 应 的 根 
入 口 进 入 ， 便 会 遍历 出 那个 时 刻 的 完整 存储 空间 影像 。 即 便 系统 没 
生成 快照 ，WAF] 也 不 会 覆盖 之 前 的 数据 ， 而 总 是 写 入 空闲 的 块 。 这 样 
做 有 个 好 处 融 是 在 空间 内 有 大 量 空 内 块 时 ，WAPFI1 可 以 肆 无 忌 愉 地 写 入 
而 不 需要 非得 按照 被 覆盖 的 块 在 空间 内 的 排列 顺序 而 对 应 写 入 ， 这 样 
可 以 提高 性 能 。 但 是 随 着 空闲 空间 的 减少 ，WAF] 这 种 性 能 的 提升 会 又 


降 。 


提示 : 关于 快照 虚拟 卷 或 Clone 卷 挂 载 后 系统 识别 冲突 的 问 
题 : 由 于 很 多 操作 系统 的 卷 管理 层 都 会 对 系统 所 识别 到 的 磁 
盘 写 入 一 些 识别 信息 以 便 标识 和 区 别 每 一 个 卷 或 者 磁盘 。 而 
某 个 卷 或 者 磁盘 的 快照 或 者 Clone 中 的 这 些 识别 信息 与 源 卷 是 
完全 一 致 的 ， 所 以 ， 当 源 卷 已 经 被 挂 载 到 系统 中 ， 又 挂 载 了 
Snapshot 虚 拟 卷 或 者 Clone 卷 之 后 ， 此 时 由 于 识别 信息 完全 相 
同 ， 系 统 会 认为 是 相同 的 卷 又 被 挂 载 了 一 次 而 由 下 源 卷 从 而 
挂 载 了 快照 卷 ， 或 者 发 现 新 卷 与 当前 的 源 卷 识别 信息 一 致 而 
不 做 任何 动作 。 不 管 哪 种 应 对 方式 ， 都 会 导致 问题 的 发 生 。 
所 以 解决 这 个 问题 的 关键 还 在 于 位 于 主机 端的 快照 代理 程 
序 ， 快 照 代 理 程 序 在 让 存储 系统 映射 某 个 快照 之 前 ， 会 扫描 
系统 中 当前 的 所 有 已 挂 载 的 卷 的 识别 信息 ， 然 后 生成 一 个 不 
与 它们 冲突 的 新 识别 信息 并 通 向 存储 系统 发 起 写 IO 请 求 将 对 
应 的 局 区 中 的 识别 信息 修改 ， 然 后 再 按照 正常 顺序 挂 载 ， 这 
样 就 不 会 产生 冲突 了 。 


8. 快照 的 生成 对 系统 读 写 性 能 的 影响 


由 于 每 生成 一 份 快照 ， 系 统 就 需要 做 更 多 的 CoFW 操 作 ， 而 写 性 
能 本 身 就 是 衡量 一 个 存储 系统 性 能 的 重要 指标 ， 快 照 的 生成 无 疑 是 雪 
上 加 霜 。 凡 是 使 用 CoFW 模 式 实现 快照 的 存储 系统 ， 此 无 法 逃脱 写 性 
能 降低 的 厄运 。 相 比 来 讲 ，RoFW 模 式 则 能 够 逃脱 这 个 厄运 。 图 16-23 
和 图 16-24 所 示 为 EMC Clariion 系 统 的 写 IO 性 能 影响 统计 图 。 


图 16-23 ”1 个 快照 图 16-24 ”8 个 快照 


可 以 判断 ， 当 一 个 快照 生成 之 后 ， 系 统 的 写 IO 响 应 值 立即 升 高 到 
一 个 峰值 ， 其 原因 是 受到 不 断 的 CoFW 的 影响 。 此 后 的 时 间 内 ， 系 统 
写 IO 响 应 逐渐 降低 到 原来 的 水 准 ， 其 原因 是 因为 系统 在 对 已 经 CoFW 
过 的 地 址 进行 再 次 或 多 次 写 的 时 候 ， 会 直接 写 到 产 卷 而 不 再 进行 
CoFW 动 作 。 图 16-24 显 示 了 生成 了 8 个 快照 的 系统 写 IO 响 应 速度 随时 
间 的 推移 而 变化 的 情况 。 可 以 看 到 每 多 生成 一 个 快照 ，IO 响 应 时 间 就 
比 之 前 的 最 高 响应 时 间 再 上 升 一 些 ， 这 也 是 理所当然 的 ， 快 照 数量 越 
多 ， 处 理 就 越 慢 。 


快照 的 生成 不 仅 对 写 性 能 有 影响 ， 对 于 RoFW 模 式 的 快照 ， 其 对 
读 也 一 样 有 影响 。 由 于 数据 块 被 不 断 重 定向 到 其 他 空间 ， 这 就 导致 本 
来 物理 上 连续 的 数据 块 在 被 重 定 向 写 出 去 之 后 可 能 就 变 得 不 连续 了 ， 
甚至 非常 随机 ， 那 么 此 时 针对 这 些 地 址 的 读 操作 就 会 受到 影响 。 


和 蛤 于 快照 的 这 些 后 焉 症 ， 在 使 用 快照 对 系统 进行 瞬时 恢复 后 ， 可 
以 考虑 在 后 台 将 快照 中 的 数据 回 拷 一 遍 ， 让 其 变 得 连续 ， 从 而 恢复 之 


前 的 性 能 。 


16.2.4” 卷 Clone 
1。 什么 是 卷 Clone 


顾名思义 ，Clone 〈 克 隆 ) 是 指 源 数据 集 某 时 间 点 的 一 份 或 者 几 份 
实 实在 在 的 实体 复制 。 快 照 类 似 一 个 某 时 刻 定型 的 影子 ， 而 克隆 则 是 
某 时 刻 定型 的 实体 。 使 用 快照 技术 来 制作 克隆 ， 先 将 影子 定型 ， 之 后 
再 将 实体 填充 到 影子 当中 。 也 就 是 说 ， 首 先 对 某 个 源 数 据 集 〈 源 卷 或 
者 源 文 件 系统 ) 创建 一 份 快照 ， 之 后 将 这 份 快照 指向 的 所 有 数据 块 复 
制 出 来 到 一 个 额外 存储 空间 ， 这 样 ， 被 复制 出 来 的 所 有 数据 就 组 成 了 
源 数 据 集 在 那个 时 刻 的 一 个 克隆 实体 。 


我 们 知道 Snapshot 一 般 都 是 只 读 的 ， 即 这 个 “幻像 ”你 只 能 去 看 ， 
而 不 能 被 改变 ， 就 像 历史 一 样 。 但 是 在 计算 机 的 世界 里 ， 这 个 结论 是 
不 成 立 的 ，Snapshot 一 样 可 以 写 。 可 能 有 人 不 太 理 解 ，Snapshot 作 为 一 
个 源 卷 在 某 一 时 刻 的 照片 ， 其 内 容 皆 为 源 卷 内 容 的 投射 ， 自 身 并 不 存 
在 任何 实体 内 容 ， 向 Snapshot 写 入 数据 ， 到 底 是 个 什么 概念 呢 ? 正如 
Snapshot 自 身 一 样 ， 可 写 的 Snapshot 也 只 不 过 是 对 指针 的 处 理 而 已 ， 即 
系统 增加 了 一 个 RoFW 数 据 映射 表 。 比 如 ， 人 存储 系统 将 Snapshot1 映 射 
给 了 HostA，HostA 将 其 挂 载 到 了 F 盘 ， 某 时 刻 HostA 对 F 盘 的 第 一 个 局 
区 写 入 全 0， 存 储 系统 收 到 这 个 请 求 之 后 ， 会 将 这 512B 的 数据 重 定向 
地 写 入 一 个 空闲 存储 空间 的 地 址 ， 并 将 用 新 的 MetaData 来 记录 这 个 新 
指向 。 而 且 更 灵活 的 是 ， 还 可 以 为 这 个 Clone 的 虚拟 卷 再 次 创建 快照 ， 
甚至 CDP。 


提示 : 16.2.5 节 中 会 对 这 种 可 写 以 及 创建 二 级 快照 或 CDP 的 
详细 底层 机 制 进行 论述 。 


某 个 物理 卷 某 时 刻 所 生成 的 一 份 可 写 的 Snapshot， 就 叫做 这 个 卷 
某 时 刻 的 一 份 Clone。 然 而 ， 这 份 Clone 其 内 容 没有 被 更 改 的 部 分 是 与 
源 卷 共享 的 ， 只 有 被 更 改 之 后 的 数据 才 是 实 实在 在 地 存在 于 另 一 处 
的 ， 所 以 ， 源 卷 没 了 ， 则 Clone 也 就 没 了 。 这 种 Clone 叫 做 虚拟 Clone， 
虚拟 Clone 的 好 处 是 本 身 不 占用 空间 ， 只 有 被 更 改 的 数据 部 分 占用 对 应 
的 空间 。 如 果 想 对 这 个 Clone 做 保留 ， 保 留 其 实体 的 数据 ， 则 需要 将 这 
份 Clone 与 源 卷 所 共享 的 那 部 分 数据 复制 出 来 ， 加 上 后 来 被 更 改 的 数据 
部 分 (当然 也 可 以 不 去 更 改 这 份 Clone 的 内 容 ) ， 生 成 一 个 独立 的 卷 。 
此 时 ， 这 份 Clone 就 会 与 源 卷 脱 离 关 系 ， 相 当 于 依附 于 源 卷 的 快照 被 切 
割 开 ， 或 者 说 Split， 这 个 过 程 叫做 Split Clone。 Split 完 成 之 后 ， 就 会 生 
成 一 个 实 实在 在 的 真正 的 物理 上 独立 于 源 卷 的 卷 ， 而 且 源 卷 对 应 的 这 
个 快照 也 就 消失 了 ， 因 为 此 时 快照 已 经 变 成 了 实际 的 物理 数据 ， 也 就 
是 实 Clone， 实 Clone 需 要 占用 与 源 卷 等 同 的 物理 空间 。 


2. 虚 克 隆 和 实 克 隆 的 比较 


实 克隆 与 虚 克 隆 相 比 有 两 个 好 处 。 第 一 个 是 安全 性 方面 。 虚 克隆 
是 依托 在 物理 源 卷 上 的 一 个 空中 楼 阁 ， 一 旦 源 卷 发 生 任 何 物理 上 的 损 
坏 ， 比 如 承载 源 卷 的 底层 物理 磁盘 发 生 损 坏 ， 例 如 ， 某 Riad 5 阵列 中 
损坏 多 余 两 块 磁盘 之 后 ， 此 时 源 卷 物理 上 土 朋 瓦解 ， 则 其 对 应 的 
Snapshot 和 克隆 也 就 荡然 无 存 了 。 而 实 克 隆 则 是 源 卷 某 快照 的 一 份 真 
实物 理 复制 ， 如 果 将 克隆 卷 存放 在 与 源 卷 不 同 的 Raid 组 中 ， 则 即便 源 
卷 Riad 组 发 生 故 障 ， 那 么 克隆 卷 依 然 存 在 ， 可 以 直接 将 克隆 卷 挂 载 到 
主机 继续 使 用 。 第 二 个 是 性 能 方面 。 虚 克隆 由 于 在 物理 上 是 与 源 卷 共 
享 大 部 分 数据 块 的 ， 如 果 对 虚 克 隆 进 行 读 IO ， 则 会 与 源 卷 的 读 IO 发 生 
争 抢 效应 ， 从 而 源 卷 和 虚 克 隆 卷 的 性 能 都 受到 影响 。 而 实 克隆 由 于 是 
存在 于 另 一 个 Raid 组 ， 对 实 克 隆 的 读 IO 由 于 是 访问 不 同 的 物理 磁盘 ， 


所 以 不 会 影响 到 源 卷 。 这 里 需要 注意 一 个 问题 ， 如 果 把 实 克 隆 卷 放 到 
与 源 卷 相同 的 Raid 组 中 ， 那 么 在 读 实 克 隆 卷 的 时 候 造 成 的 影响 与 虚 克 
隆 相同 ， 因 为 它们 共同 争 抢 同一 份 物理 Raid 组 。 


3。 卷 Clone 的 作用 


卷 Clone 的 一 个 最 大 的 作用 是 可 以 瞬间 生成 针对 某 个 卷 的 可 写 的 镜 
像 ， 而 不 管 这 个 卷 的 数据 量 有 多 大 。 比 如 某 企 业 有 一 个 数据 量 2TB 的 
数据 库 系 统 ， 为 企业 核心 生产 数据 库 的 存储 空间 ， 非 常 重要 。 近 期 企 
业 决 定 部 署 一 套 应 用 系统 ， 但 是 需要 利用 现 有 的 生产 数据 库 进 行 上 线 
前 测试 ，IT 管 理 员 不 得 不 将 备份 过 的 数据 库 恢复 到 一 个 和 源 库 同样 大 
的 存储 空间 内 ， 但 是 很 塌 炊 地 发 现 目前 存储 系统 剩余 的 空间 已 经 不 足 
以 满足 要 求 ， 不 得 不 将 现 有 存储 系统 扩容 。 这 又 要 牵涉 到 一 个 大 工 
程 ， 而 且 测 试 完毕 ， 新 购买 的 空间 又 要 被 浪费 ， 实 在 划 不 来 。 盏 好 现 
有 存储 系统 支持 卷 Clone，IT 管 理 员 针 对 生产 数据 库 所 在 的 卷 创建 了 一 
份 虚拟 Clone， 并 将 其 挂 载 到 应 用 测试 机 上 ， 应 用 程序 成 功 启 动 ， 进 入 
测试 周期 ， 季 好 应 用 写 入 的 数据 很 少 ， 以 至 于 Clone 卷 没有 占用 太 多 的 
存储 空间 ， 不 需要 额外 购买 存储 空间 了 。 一 周 后 ， 应 用 测试 管理 员 出 
现 失误 ， 将 Clone 卷 中 的 大 量 重要 数据 删 挥 了 ， 急 急忙 忙 找到 了 IT 管 理 
员 。IT 管 理 员 不 慌 不 忙 ， 从 容 地 将 这 个 Clone 卷 删 掉 ， 然 后 直接 在 生产 
数据 库 的 源 卷 上 又 创建 了 一 份 Clone， 了 映射 给 应 用 测试 机 ， 测 试 机 挂 载 
后 ， 一 切 如 故 。 


克隆 可 以 用 来 研究 平行 宇宙 、 蝴 蝶 效 应 等 理论 。 将 某 个 时 间 点 的 
影像 瞬间 复制 成 多 份 平 行 复制 ， 然 后 让 其 并 行 地 继续 向 下 发 展 ， 调 查 
后 续 各 份 平行 数据 的 发 展 路 径 从 而 调查 周围 环境 或 者 未 发 现 的 其 他 隐 
含 因素 对 事件 发 展 的 影响 。 最 简单 和 直观 的 例子 : 有 100 台 硬件 配置 完 


全 相同 的 PC， 用 同一 张 光盘 灌 入 操作 系统 ， 同 样 的 使 用 步骤 和 环境 ， 
但 是 随 着 时 间 的 变化 ， 每 台 PC 上 操作 系统 的 行为 开始 产生 差异 ， 最 后 
他 异 。 那 么 你 如 何 去 调 查 到 底 是 什么 因素 引起 了 如 此 巨大 的 差异 ?” 你 
可 以 编写 一 套数 据 监控 统计 挖掘 分 析 报 告 的 系统 ， 针 对 同一 份 数据 生 
成 多 份 并 行 克隆 ， 然 后 在 其 上 进行 模拟 分 析 。 甚 至 可 以 在 虚拟 现实 系 
统 中 ， 对 虚拟 世界 生成 并 行 的 多 个 克隆 ， 然 后 调查 各 种 行为 对 虚拟 世 
界 后 续 发 展 路 径 的 影响 。 


4。 使 用 Clone 卷 来 进行 Rollback 操 作 


1) 用 虚 Clone 卷 来 Rollback 源 卷 


如 果 某 时 刻 ， 源 卷 中 的 数据 发 生 逻 辑 上 的 错误 ， 比 如 大 规模 病毒 
感染 破坏 、 分 区 误 删 除 、 文 件 误 删除 等 ， 此 时 可 以 选择 直接 使 用 虚 
Clone 卷 进行 Rollback 操 作 ， 直 接 将 原先 被 CoOFW 出 去 的 数据 覆盖 回 产 
卷 。 当 然 ， 如 果 Clone 卷 已 经 被 其 他 程序 更 改 ， 则 也 可 以 选择 保留 这 些 
更 改 。 如 果 选 择 保留 更 改 ， 那 么 系统 会 先 将 前 几 节 中 描述 的 RoFW 了 映 
射 表 与 快照 地 址 映射 表 中 对 应 的 地 址 逐条 检测 ， 如 果 发 现 某 个 地 址 在 
两 份 表 中 都 有 映射 条 目 ， 证 明 Clone 卷 中 对 应 的 地 址 被 改写 过 ， 则 快照 
映射 表 中 对 应 的 IO 仓 库 中 的 CoFW 数 据 过 期 ， 在 Rollback 的 时 候 直 接替 
盖 RoFW 表 中 的 数据 而 无 须 先 覆盖 CoFW 的 数据 再 履 盖 RoFW 表 中 的 数 
据 ， 节 约 了 资源 。 


2) 用 实 Clone 卷 来 Rollback 源 卷 


如 果 使 用 已 经 被 Clone Split 的 实 Clone 卷 来 对 源 卷 进行 Rollback， 则 
需要 的 步骤 就 会 复杂 一 些 。 因 为 当初 Clone 被 Split 之 后 ， 系 统 会 将 产 卷 
和 克隆 原来 共用 的 数据 块 复制 出 来 ， 如 果 在 Split 完 成 和 Rollback 之 间 的 


时 段 内 ， 主 机 并 未 对 源 卷 上 的 这 些 原 本 共享 的 数据 块 做 太 多 更 改 的 
话 ， 那 么 在 Rollback 的 时 候 如 果 依 然 将 所 有 原本 共享 的 数据 块 也 一 同 
覆盖 到 源 卷 ， 则 这 样 做 就 属于 浪费 资源 了 。 


如 何 解 决 这 个 问题 呢 ? 此 时 快照 指针 已 经 不 复 存 在 ， 不 可 能 再 用 
快照 恢复 源 卷 了 。 要 解决 这 个 问题 ， 就 需要 对 这 些 共享 的 数据 块 在 
Split 之 后 所 发 生 的 更 改动 作 做 追踪 。 这 里 人 们 想 出 一 个 办 法 ， 具 体 如 
下 。 


”在 Clone Split 完 成 之 后 ， 立 即 为 源 卷 和 实 克 隆 卷 分 别 创建 两 份 
Bitmap， 针 对 源 卷 的 Bitmap 中 为 全 0， 而 实 克 隆 卷 的 Bitmap 中 ， 
对 应 之 前 被 CoFW 出 的 所 有 地 址 的 位 为 1， 其 他 全 为 0， 为 0 的 位 
则 代表 与 源 卷 共享 的 数据 块 。 

Bitmap 生 成 之 后 ， 系 统 才 允许 继续 对 源 卷 或 者 实 Clone 卷 进行 读 
写 IO 操 作 。 

随后 ， 当 系统 接收 到 任何 针对 源 卷 的 写 IO 后 ， 系 统 就 会 在 刚才 
生成 的 全 0 源 卷 Bitmap 中 将 对 应 IO 地 址 的 位 置 为 1， 并 将 IO 写 入 
源 卷 。 同 理 ， 当 接收 到 任何 针对 实 Clone 卷 的 写 IO ， 也 在 刚才 的 
那 份 针对 实 Clone 卷 的 Bitmap 中 将 对 应 IO 地 址 的 位 置 为 1， 如 果 
已 经 为 1 则 不 做 动作 。 


设想 一 下 ， 经 过 这 样 的 设计 ， 源 卷 和 实 Clone 卷 在 一 段 时 间 的 数据 
更 改 之 后 ， 只 有 在 两 份 Bitmap 中 都 为 0 的 位 ， 才 表示 自 上 一 次 Clone 
Split 之 后 两 端 均 未 发 生 更 改 的 地 址 。 而 针对 实 Clone 卷 的 初始 Bitmap 中 
只 有 当时 与 源 卷 共享 的 数据 块 才 为 0， 这 样 就 可 以 推导 出 ， 两 份 Bitmap 
中 都 为 0 的 地 址 ， 其 对 应 的 数据 块 内 容 是 完全 一 样 的 ， 所 以 在 进行 
Rollback 时 ， 可 以 跳 过 这 些 数据 块 。 


如 图 16-25 所 示 ， 我 们 将 这 两 份 Bitmap 做 OR 操 作 ， 得 到 的 新 
Bitmap 中 ， 所 有 为 1 的 地 址 ， 就 代表 需要 从 实 Clone 卷 中 将 对 应 地 址 的 
数据 才 盖 回 源 卷 ， 为 0 则 跳 过 。 履 盖 成 功 之 后 ， 将 当前 处 理 的 位 重 置 为 
0， 然 后 接着 处 理 下 一 位 ， 顺 序 扫 描 并 处 理 结果 Bitmap 中 的 每 一 位 。 这 
样 的 设计 可 以 大 大 降低 Rollback 过 程 中 需要 复制 的 数据 ， 缩 短 Rollback 
时 间 。 


图 16-25 SplitClone 和 RollBack 
3) 用 源 卷 来 Catchup 实 Clone 卷 到 当前 时 间 点 


在 Clone Split 完 成 之 后 的 某 时 刻 ， 如 果 用 户 对 上 一 个 实 克 隆 卷 做 了 
很 多 更 改 而 且 发 现 有 逻辑 上 的 问题 ， 想 对 当前 的 源 卷 再 次 生成 一 份 实 
克隆 卷 ， 当 然 ， 用 户 可 以 再 次 用 传统 的 步 又， 即 先生 成 快照 ， 然 后 
Split 进 行 数据 复制 ， 成 功 之 后 ， 删 除 原 来 的 旧 实 克隆 卷 。 但 是 这 样 做 
需要 花费 很 长 的 数据 复制 时 间 ， 是 否 有 一 种 办 法 在 上 一 个 旧 克 隆 卷 的 
基础 上 ， 将 源 卷 自 上 次 Clone Split 之 后 所 发 生 的 所 有 数据 更 改 同步 到 上 
一 次 生成 的 实 克 隆 卷 上 呢 ? 


答案 是 肯定 的 。 很 显然 ， 根 据 上 一 步 中 的 OR 操作 之 后 的 Bitmap， 
只 有 为 0 的 位 才 是 Rollback 时 源 卷 和 实 Clone 卷 上 内 容 相同 的 数据 地 址 ， 
那么 此 时 我 们 不 是 要 从 Clone 卷 复制 数据 覆盖 到 源 卷 ， 而 是 要 做 相反 方 
向 的 动作 ， 那 么 直接 就 可 以 根据 结果 Bitmap， 将 所 有 为 1 的 位 对 应 的 源 
卷 上 的 地 址 的 数据 复制 出 来 并 覆盖 到 实 Clone 卷 。 覆 盖 成 功 之 后 ， 将 当 
前 处 理 的 位 置 为 0%， 然 后 接着 处 理 下 一 位 ， 顺 序 扫 措 并 处 理 结果 Bitmap 
中 的 每 一 位 。 之 后 ， 实 Clone 卷 就 与 当前 源 卷 的 内 容 相 同 了 。 这 期 间 的 
数据 复制 跳 过 了 两 个 卷 原本 内 容 就 相同 的 数据 块 ， 节 约 了 很 多 时 间 。 


4) Clone Split 期 间 如 何 处 理 主机 读 写 IO 


Split 执 行 开 始 之 前 ， 系 统 需要 首先 创建 一 个 针对 源 卷 的 RoFW 数 
据 映 射 表 ，Split 开 始 之 后 ， 所 有 针对 源 卷 的 写 操作 都 被 重 定向 写 到 表 
中 ， 一 直到 Split 结 束 ， 将 源 卷 与 快照 中 共享 的 数据 块 复制 到 实 Clone 卷 
中 之 后 ， 系 统 慢 慢 在 后 人 台 将 RoFW 表 中 的 数据 覆盖 回 源 卷 ， 过 程 与 上 
一 步 介 绍 的 相同 。 


5) Rollback 期 间 如 何 处 理 主机 读 写 IO 


Rollback 过 程 都 可 以 在 后 台 执 行 ， 即 对 于 前 端 来 讲 ，Rollback 可 以 
被 通告 为 立即 完成 。 在 Rollback 后 台 执 行 期 间 内 ， 如 果 遇 到 主机 端的 
读 IO 操 作 ， 则 系统 必须 参考 OR 运算 之 后 的 结果 Bitmap。 如 果 IO 的 地 址 
对 应 的 位 为 1， 则 从 实 Clone 卷 中 读 取 对 应 地 址 的 数据 返回 给 主机 (所 
以 在 Rollback 期 间 ， 实 Clone 卷 是 不 允许 写 的 ， 否 则 会 不 一 致 ) ; 如 果 
对 应 的 位 是 0， 则 直接 从 源 卷 对 应 的 地 址 读 取 数据 并 且 返 回 给 主机 。 如 
果 遇 到 写 操作 ， 依 然 首先 查找 结果 Bitmap ， 对 应 地 址 的 位 如 果 为 0， 则 
直接 将 IO 写 入 源 卷 ; 如 果 对 应 的 位 为 1， 则 系统 将 IO 写 入 源 卷 对 应 地 
址 之 后 立即 将 结果 Bitmap 中 对 应 的 这 一 位 置 为 0。 


6) Catchup 期 间 如 何 处 理 主机 读 写 IO 


总 体 来 讲 ， 这 一 步 与 上 一 步 的 操作 步骤 本 质 上 相同 ， 但 是 需要 增 
加 一 步 。 由 于 Rollback 时 实 Clone 卷 不 允许 接受 写 IO ， 那 么 同 理 ， 
Catchup 时 源 卷 也 就 不 能 接受 写 IO。 但 是 这 样 做 是 不 允许 的 ， 除 非 是 前 
台 Catchup， 但 是 这 样 会 对 主机 应 用 造成 暂停 影响 。 解 决 的 办 法 依然 是 
使 用 RoFW 大 法 了 。 在 Catchup 执 行 之 前 首先 创建 一 个 针对 源 卷 的 
RoFW 数 据 映射 表 ， 所 有 在 Catchup 期 间 针 对 源 卷 的 写 IO 都 被 重 定向 到 


这 个 表 中 ， 读 IO 则 首先 查询 这 个 表 ， 如 果 找 到 对 应 的 地 址 则 从 这 个 表 
而 不 是 源 卷 中 读 取 数 据 并 返回 给 主机 ， 如 果 是 写 IO 则 也 先 查 询 这 个 
表 ， 如 果 对 应 10 地 址 已 经 存在 条 目 则 有 覆盖， 不 存在 则 插入 。 当 Catchup 
完成 之 后 ， 系 统 再 将 RoFW 表 中 的 数据 慢 慢 在 后 台 同 步 回 源 卷 。 


卷 Clone 是 依托 在 快照 技术 上 的 一 个 高 附加 值 产 物 ， 其 附加 价值 就 
体现 在 一 个 RoFW 映 射 表 上 ， 从 而 使 快照 可 写 。 实 现 这 个 技术 不 是 什 
么 难事 ， 但 却 能 得 到 高 回报 率 。 


5。EMC 公 司 卷 Clone 产 品 简 述 


1) Snapview 系 列 


Snapview 是 运行 在 EMC 公 司 中 低 端 存储 系统 Clariion CX 平台 的 操 
作 系 统 FLARE 上 的 一 个 软件 模块 ， 它 又 被 分 为 Snapview/snapshot 和 
Snapview/clone 两 个 功能 选项 。 前 者 代表 普通 快照 功能 ， 后 者 则 代表 卷 
Clone 功 能 。 


Snapview/snapshot 在 进行 CoFW 时 会 以 64KB 为 单位 进行 CoFW， 也 
就 是 说 ， 快 照 生 成 之 后 ， 如 果 有 某 个 针对 源 卷 的 写 IO 仅 为 4KB， 那 么 
系统 依然 会 将 这 4KB 所 在 的 64KB 单 元 全 部 复制 到 IO 仓库 (EMC 的 说 法 
是 Reserved LUN) 中 存放 。 如 果 随 后 某 个 写 IO 再 次 落 在 了 这 64KB 单 元 
地 址 的 任何 地 址 段 ， 系 统 也 不 会 再 进行 CoFW 操 作 。 这 种 提高 CoFW 单 
元 粒度 的 方法 一 方面 降低 了 维护 更 细 粒 度 地 址 映射 表 的 开销 ， 另 一 方 
面 也 显著 降低 了 CoFW 对 系统 写 性 能 的 影响 所 持续 的 时 间 。 唯 一 一 个 
坏处 就 是 会 浪费 IO 仓库 中 一 定 的 空间 ， 可 以 说 是 以 空间 换 性 能 。 


Snapview/Clone 使 用 一 种 叫做 Copy On First Access (CoFA) 的 机 
制 ， 当 挂 载 并 使 用 克隆 的 那 台 主机 发 起 针对 这 个 克隆 卷 的 任何 IO 时 ， 
不 管 是 读 还 是 写 ， 如 果 IO 的 目标 地 址 块 是 首次 被 读 或 者 写 ， 那 么 系统 
将 从 源 卷 中 将 对 应 的 块 (或 者 更 大 的 粒度 ， 见 上 文 ) 复制 出 来 放 到 克 
隆 卷 空间 里 存放 。 同 时 ， 针 对 源 卷 的 首次 覆盖 写 入 时 当然 也 会 触发 复 
制 ， 但 是 针对 源 卷 的 块 的 读 操作 是 不 会 触发 复制 的 ， 只 有 针对 克隆 卷 
的 首次 读 才 会 触发 复制 。 这 样 做 的 目的 是 为 了 降低 克隆 卷 对 源 卷 的 性 
能 影响 ， 但 是 却 增加 了 存储 空间 的 需求 量 。 


如 图 16-26 所 示 为 EMC Clariion 配 置 界面 ， 其 中 Fracture、 
Synchronize 和 Reverse Synchronize 分别 对 应 上 文中 的 Clone Split、 
Catchup 和 Rollback。 


图 16-26 Fracture 
2) Timefinder 系 列 


Timefinder 是 运行 在 EMC 公 司 高 端 存储 系统 Symmetrix DMX 平 台 
的 操作 系统 Enginuity 上 的 一 个 软件 套件 模块 。 它 包括 
TimeFinder/Snap 、 TimeFinder/Clone 、 TimeFinder/Mirror 、 
TimeFinder/CG (Consistency Group) 等 几 个 组 件 。 


TimeFinder/Snap、 TimeFinder/Clone 分 别 对 应 了 快照 和 卷 Clone 的 
功能 。TimeFindevCG 则 实现 了 一 致 性 组 功能 ， 关 于 一 致 性 组 技术 会 在 
后 面 的 章节 详细 地 论述 。 


这 里 需要 着 重 提 一 下 TimeFinder/Mirror 功 能 。 传 统 的 Clone 卷 是 基 
于 对 源 卷 在 某 一 时 间 点 的 快照 而 作成 的 ， 但 是 TimeFinder/Mirror 则 不 


依托 快照 来 实现 ， 而 是 直接 对 源 卷 进行 实时 的 同步 镜像 ， 针 对 源 卷 的 
任何 写 IO 都 被 实时 同步 到 一 个 镜像 卷 中 。 


某 时 刻 ， 用 户 可 以 发 起 Split 动 作 ， 使 这 个 镜像 卷 脱 离 源 卷 而 成 为 
一 个 独立 的 卷 ， 也 就 相当 于 在 这 个 时 刻 创建 了 一 份 卷 Clone， 只 不 过 这 
份 卷 Clone 在 Split 之 后 立即 就 是 一 个 物理 独立 卷 了 ， 而 不 需要 任何 数据 
复制 过 程 。Split Mirror 之 后 ， 源 卷 与 切 开 后 的 镜像 卷 也 可 以 各 自 记 录 
一 份 Bitmap ， 就 像 上 文中 所 说 的 。 而 随后 ， 可 以 选择 利用 源 卷 来 
Catchup 这 个 Clone 卷 ， 或 者 选择 使 用 Clone 卷 来 Rollback 源 卷 。EMC 将 
这 种 镜像 卷 称 为 BCV， 即 Business Continuous Volume。 其 作用 与 传统 
Clone 卷 相同 。 唯 一 优点 就 是 Split 之 后 立即 可 用 ， 无 须 等 待 数据 复制 。 
最 大 的 缺点 则 是 由 于 数据 完全 与 源 卷 同步 ， 一 旦 源 卷 数据 发 生 逻 辑 错 
误 ， 而 发 生 错 误 之 前 又 没有 手动 Split， 则 镜像 卷 的 数据 也 同样 变 为 有 逻 
辑 不 一 致 的 了 。 


16.2.5 Continuous Data Protect (CDP， 连 续 数据 保护 ) 


SNIA 对 于 CDP 给 出 了 一 个 定义 。CDP (持续 数据 保护 ) 是 一 种 在 
影响 主要 数据 运行 的 前 提 下 ， 可 以 实现 持续 捕捉 或 跟踪 目标 数据 所 
发 生 的 任何 改变 ， 并 且 能 够 恢复 到 此 前 任意 时 间 点 的 方法 。CDP 系 统 
能 够 提供 块 级 、 文 件 级 和 应 用 级 的 备份 。 


有 一 类 所 谓 的 Near CDP 产 品 ， 可 以 生成 高 频率 的 快照 ， 比 如 一 小 
时 几 十 次 、 上 百 次 等 。 用 这 种 方法 来 保证 数据 恢复 的 粒度 足够 细 。 


CDP 是 这 样 一 种 机 制 ， 即 它 可 以 保护 从 某 时 刻 开始 卷 或 者 文件 在 
此 后 任意 时 刻 的 数据 状态 ， 也 就 是 数据 的 每 次 改变 ， 都 会 被 记录 下 


来 ， 无 一 遗漏 。 这 个 机 制 乍 一 看 非常 神奇 ， 其 实 它 的 底层 只 不 过 是 比 
快照 多 了 一 些 考 虑 而 已 ， 下 面 我 们 就 来 分 析 它 的 实现 原理 。 


1。 应 用 级 和 文件 级 的 CDP 


所 谓 应 用 级 CDP， 是 说 对 数据 的 连续 保护 机 制 是 发 生 在 应 用 程序 
层 的 ， 换 句 话 说 ， 由 应 用 程序 自己 对 自己 的 数据 加 以 连续 保护 ， 记 录 
和 保存 每 一 笔 更 改 。 应 用 级 CDP 的 典型 例子 就 是 比如 Oracle 和 DB2 等 各 
种 数据 库 系 统 ， 数 据 库 系 统 对 每 一 笔 交 易 都 会 进行 日 志 记 录 ， 在 归档 
日 志 模 式 下 ， 所 有 曾经 对 数据 库 进 行 的 更 改 操 作 均 会 被 打 入 时 间 惟 并 
记录 到 日 志 中 ， 老 日 志 不 断 地 被 归档 存放 以 便 为 新 日 志 腾 出 空间 。 当 
数据 库 发 生 问 题 的 时 候 ， 利 用 归档 的 日 志 ， 就 能 够 将 数据 库 状 态 恢复 
到 任何 一 个 指定 的 时 间 点 ， 数 据 库 会 顺序 读 出 库 中 的 每 一 笔 交 易 然 后 
将 其 重 放 (Replay) ， 对 应 的 数据 重新 写 入 数据 库 文 件 。 重 放 完 成 
后 ， 还 需要 进行 Redo 和 Undo 操 作 ， 即 检查 日 志 中 最 后 一 个 CheckPoint 
一 致 点 处 ， 一 致 点 之 后 发 生 的 交易 全 部 回 退 。 回 退 完 成 后 ， 数 据 库 便 
处 于 一 个 一 致 的 状态 并 且 可 用 。 应 用 层 CDP 不 需要 任何 其 他 程序 的 畏 
助 ， 不 需要 任何 特殊 的 存储 系统 功能 ， 完 全 由 应 用 程序 自身 就 可 以 完 
成 。 应 用 级 CDP 是 最 纯粹 、 最 厚道 、 最 彻底 、 最 实用 的 CDP。 


文件 级 CDP 就 是 通过 监视 文件 系统 动作 ， 文 件 的 每 一 次 变化 ( 包 
括 实际 数据 或 者 元 数据 的 变化 ， 比 如 重 命 名 、 删 除 、 裁 前 等 属性 的 改 
变 ) 以 日 志 的 形式 被 记录 下 来 。CDP5 引 和 擎 分 析 应 用 对 文件 系统 的 IO 数 
据 流 ， 然 后 计算 出 文件 变化 的 部 分 ， 将 其 保存 在 CDP 仓 库 设备 (存放 
CDP 数 据 的 介质 ) 中 ， 可 以 针对 每 个 文件 生成 单独 的 日 志 链 。 可 以 对 
一 个 文件 ， 或 者 一 个 目录 ， 甚 至 一 个 卷 来 监控 。 文 件 级 的 CDP 方 案 ， 
一 般 需 要 在 生产 主机 上 安装 代理 ， 用 来 监控 文件 系统 IO ， 并 将 变化 的 


数据 信息 传送 到 CDP 仓 库 介质 中 ， 或 者 使 用 本 地 文件 系统 或 者 磁盘 的 
某 块 额外 空间 来 充当 日 志 仓 库 。 文 件 级 的 CDP， 能 够 保证 数据 的 一 致 
性 。 因 为 它 是 作用 于 文件 系统 层次 ， 捕 获 的 是 完整 事务 操作 。 所 有 的 
文件 版 本 管理 软件 都 可 以 算 作 是 文件 级 CDP 的 实现 。 


其 实 日 志 型 文件 系统 自身 也 可 以 算 作 是 一 个 粗 绪 条 的 CDP 实 现 ， 
因为 日 志 型 文件 系统 自身 也 会 记录 每 一 笔 操作 记录 和 数据 ， 只 不 过 其 
日 志 是 循环 的 ， 并 非 归 档 模式 ， 同 时 默认 的 日 志方 式 是 只 记录 元 数据 
更 改 而 不 记录 实际 数据 ， 并 且 也 不 提供 用 户 自 定义 回溯 时 间 点 的 功 
能 。 如 果 能 够 直接 在 文件 系统 模块 中 或 者 外 同一 个 模块 来 针对 每 个 文 
件 记 录 归 档 模式 的 元 数据 十 实际 数据 日 志 ， 那 么 恢复 的 时 候 就 可 以 指 
定 某 个 文件 的 某 个 时 间 点 进行 数据 回 滚 了 。 


2。 块 级 的 CDP 


块 级 的 CDP， 与 应 用 级 和 文件 级 CDP 实 现 思想 相同 ， 其 实 就 是 捕 
获 底 层 卷 的 写 IO 变 化 ， 并 将 每 次 变化 的 块 数据 打 入 时 间 惟 并 且 保存 下 
来 。 这 里 先 不 探讨 具体 产品 的 架构 ， 而 只 对 其 代码 层 设 计 原 理 做 一 个 
细致 的 描述 。 后 文中 则 会 对 块 级 别 CDP 整 体 架构 做 更 加 细致 的 论述 。 


提示 : 以 下 对 于 CDP 的 描述 引 自 赦 青 云 的 博客 


(aoqingy.spaces.live.com) 。 


CDP 起 源 于 Linux 下 的 CDP 模 块 。 它 持续 地 捕获 所 有 IO 请 求 ， 并 
且 将 这 些 请 求 打 上 时 间 惟 标志 。 它 将 数据 变化 以 及 时 间 戳 保存 下 来 ， 
以 便 恢 复 到 过 去 的 任意 时 刻 。 


在 Linux 的 CDP 实 现 中 ， 包 含 下 列 三 个 设备 。 


" 主机 磁盘 设备 (host disk) 
”CDP 仓 库 设 备 (repository) 
s。 CDP 元 数据 设备 (metadata) 


CDP 代 码 对 主机 磁盘 设备 在 任意 时 刻 所 做 的 写 操 作 都 会 记录 下 
来 ， 将 实体 数据 按 顺 序 写 入 CDP 仓 库 设 备 中 ， 对 于 这 些 实体 数据 块 的 
描述 信息 ， 则 被 写 入 到 CDP 元 数据 设备 的 对 应 扇 区 。 


元 数据 包含 以 下 信息 : 


struct metadata { 

int hrs，min，sec; 该 数据 块 被 写 入 主机 磁盘 设备 的 时 间 
unsigned int bisize; 该 数据 块 以 字 节 为 单位 的 长 度 

sector_t CDP_sector; CDP 仓 库 设备 中 对 应 数据 块 的 起 始 扇 区 编号 
sector_t host_sector; 该 数据 块 在 主机 磁盘 设备 中 的 起 始 局 区 编号 
}; 


图 16-27 反 映 了 主机 磁盘 设备 和 CDP 仓 库 设备 之 间 的 关系 。CDP 仓 
库 设 备 中 按时 间 顺 序 保存 了 对 主机 磁盘 设备 的 数据 修改 。A 为 主机 人 磁 
盘 设备 上 的 一 个 扇 区 ， 该 扇 区 在 9: 00 和 9: 05 分 别 进行 了 修改 ， 它 在 
CDP 仓 库 设 备 中 对 应 的 扇 区 分 别 为 A1 和 A-2。 


图 16-27 ”CDP 仓 库 与 主机 磁盘 设备 间 的 关系 


图 16-28 反 映 了 CDP 仓 库 设 备 和 CDP 元 数据 设备 之 间 的 关系 ， 它 们 
的 写 入 顺序 一 一 对 应 。CDP 仓 库 设备 中 的 一 个 元 数据 ， 对 应 CDP 元 数 
据 设 备 中 一 个 W/O 请 求 ， 实 际 上 可 能 是 多 个 届 区 。 具 体 局 区 数 由 元 数据 
中 的 bisize 指 定 ， 而 起 始 扇 区 位 置 由 CDP_sector 指 定 。 


图 16-28 ”CDP 仓 库 设 备 与 CDP 元 数据 设备 间 的 关系 


全 局 变量 maddr 保 存 了 下 一 个 IO 请 求 ， 在 CDP 仓 库 设 备 上 执行 的 
地 址 《起 始 扇 区 编号 ) 。maddr 的 初 值 被 定义 为 宏 START_METADATA 
(0) 55 


unsigned int maddr = START_METADATA; 


当 一 个 写 请 求 到 来 时 ， 对 应 数据 被 瑟 到 CDP 仓 库 设备 中 ， 这 时 所 
做 的 操作 如 下 : 


(1) 将 号 入 CDP 仓 库 设 备 的 数据 块 起 始 扇 区 编号 设置 为 maddr; 
(2) 根据 要 写 入 主机 磁盘 设备 的 数据 块 的 扇 区 数目 增加 maddr。 


这 时 ， 用 户 要 将 这 里 写 入 CDP 仓 库 设备 的 数据 块 编号 记录 下 来 ， 
以 便 构造 对 应 的 元 数据 。 


全 局 变量 taddr 保 存 了 下 一 个 IO 请 求 ， 对 应 的 元 数据 ， 在 CDP 元 数 
据 设 备 中 保存 的 地 址 (起 始 扇 区 编号 ) 。taddr 的 初 值 被 定义 为 宏 
START METADATA (0) 。 


unsigned int taddr = START_METADATA.; 


当 一 个 写 请 求 到 来 时 ， 对 应 的 元 数据 被 记录 在 CDP 元 数据 设备 
中 。 


为 了 简单 起 见 ， 在 元 数据 设备 上 ， 一 个 扇 区 (512B) 只 保存 一 个 
元 数据 信息 (只 有 32B) ， 这 样 浪费 了 大 量 的 存储 空间 ， 但 对 元 数据 
设备 的 处 理 却 非常 简单 : 


(1) 将 写 入 CDP 元 数据 设备 的 元 数据 起 始 扇 区 编号 设置 为 taddr， 
长 度 为 1 个 扇 区 ; 


(2) 将 taddr 增 加 1 ; 
(3) 请 求 处 理 过 程 。 


请 求 处 理 过 程 是 从 make_request 国 数 开 始 的 。 考 虑 到 读 请 求 处 理 
的 相似 性 ， 甚 至 更 为 简单 ， 这 里 只 分 析 对 写 请 求 的 处 理 过 程 。 首 先 获 
得 当前 的 系统 时 间 ， 然 后 写 请 求 bio 结 构 (为 便于 说 明 ， 这 里 记 为 B) 
被 分 为 三 个 写 请 求 bio 结 构 (分 别 为 B09、B1l 和 B2) ， 如 图 16-29 所 示 。 
这 三 个 bio 结 构 的 作用 如 下 。 


图 16-29 三 个 写 请 求 bio 结 构 


" B0: 将 数据 块 写 到 主机 磁盘 设备 。 
a。 Bl: 将 数据 块 写 到 CDP 仓 库 设 备 。 
a B2: 将 元 数据 写 到 CDP 元 数据 设备 。 


同 其 他 块 设 备 驱 动 程序 的 实现 一 样 ， 从 B 复 制 产 生 BO0、B1 和 了 B2， 
然后 重 定向 它们 要 处 理 的 设备 ， 即 bi _bdev 域 。 另 外 一 个 大 的 变动 是 重 
新 设置 了 bi end io 域 ， 用 于 在 MO 请 求 完 成 之 后 进行 善后 处 理 。 


为 了 处 理 善 后 ， 还 要 将 BO0、B1 和 B2 的 bi private 指 向 同一 个 
CDP_biol 结 构 。 从 这 个 结构 能 够 回 到 对 B 的 处 理 。 


struct CDP bio { 
struct bio *master_bio; 原来 的 bio， 通 过 这 个 域 用 户 可 以 从 BO、B1、 
B2 找 到 B 


struct bio *bios[3]; 如 果 I0 为 VRITE， 这 个 指针 数组 分 别 指向 BO、B1、 


B2， 为 何 
需要 这 个 域 ? 
atomic t remaining; 这 是 一 个 计数 器 ， 在 后 面 会 解释 
unsigned long state; 在 I/0 完 成 方法 中 使 用 
}; 


善后 工作 的 主要 目的 是 在 B0、B1 和 B2 都 执行 完成 后 ， 回 去 执行 
B， 为 此 需要 一 个 “have we finished” 计 数 器 ， 这 就 是 原子 整 型 变量 
remaining。 在 构造 BO0、B1、B2 时 分 别 递 增 ， 同 时 在 BO0、B1 和 B2 的 IO 
完成 方法 中 递 碱 ， 最 后 根据 该 值 是 否 递减 到 0， 来 判断 BO0、B1 和 B2 是 
否 都 已 经 执行 完毕 。 为 了 防止 B0 在 构造 后 、 在 B1 和 B2 构 造 之 前 就 执行 
到 B0 的 W/O 完成 方法 ， 从 而 使 得 remaining 变 成 0 这 种 错误 情况 ， 我 们 没 
有 将 remaining 的 初 值 设 置 为 0， 而 是 设 为 1， 并 在 BO0、B1、B2 都 构造 
完成 执行 递减 一 次 。 


B0、B1、B2 都 执行 完成 之 后 ， 进 行 如 下 的 处 理 。 
(1) 调用 B 的 善后 处 理 函 数 。 

(2) 释放 期 间 分 配 的 数据 结构 。 

(3) 向 上 层 buffer cache 返 回 成 功 /错误 码 。 


提示 : 对 B2 的 构造 ， 这 个 bio 结 构 需 要 处 理 的 是 元 数据 。 时 
间 惟 已 经 在 进入 make_request 时 获得 了 保存 ， 而 对 主机 磁盘 
设备 操作 的 起 始 扇 区 和 长 度 从 B 中 可 以 获得 ， 对 应 的 CDP 仓 
库 和 CDP 元 数据 的 起 始 地 址 分 别 保存 在 全 局 变量 maddr 和 
taddr 中 。 


数据 恢复 过 程 


用 户 可 以 将 数据 恢复 到 以 前 的 任意 时 刻 。CDP 实 现代 码 中 提供 了 
一 个 blk_ioct 函 数 ， 用 户 空间 以 GET_TIME 为 参数 调用 该 函数 ， 将 主机 
磁盘 设备 中 的 数据 恢复 到 指定 的 时 间 点 。 恢 复 的 过 程 分 为 以 下 几 个 步 


桑 。 


(1) 顺序 读 取 CDP 元 数据 设备 的 所 有 局 区 ， 构 造 一 个 从 主机 磁盘 
设备 数据 块 到 CDP 仓 库 设备 的 【在 这 个 时 间 点 之 前 ) 更 新 数据 块 的 映 
射 。 其 结果 保存 在 以 mt_home 为 首 的 (映射 表 ) 链表 中 ， 如 图 16-30 所 
示 。 


图 16-30” CDP 恢复 过 程 


这 里 需要 构造 taddr 个 对 CDP 元 数据 设备 的 读 请 求 ， 每 个 请 求 读 取 
一 个 局 区 。 在 这 些 请 求 的 MO 完成 方法 中 ， 从 读 到 的 数据 中 构造 元 数 
据 ， 并 佣 减 计数 器 counto。 


如 果 元 数据 中 的 时 间 戳 早 于 或 等 于 指定 的 恢复 时 间 点 ， 则 需要 添 
加 或 修改 mt_home 链 表 的 元 数据 结构 。 


提示 : 这 些 项 是 以 host_sector 为 关键 字 索 引 的 ， 因 此 添加 或 
修改 取决 于 前 面 是 否 出 现 对 同一 个 host_sector 的 修改 。 在 以 
顺序 方式 读 取 的 过 程 中 ， 可 以 保证 host_sector (在 指定 的 恢 
复 时 间 点 之 前 ) 的 最 新 修改 CDP_sector 会 出 现在 这 个 链表 
中 。 


由 于 计数 器 count 为 taddr， 如 果 它 递减 为 0， 说 明 CDP 元 数据 设备 
中 的 所 有 数据 均 已 读 出 并 处 理 ， 这 时 就 可 以 继续 往 后 面 执行 。 


(2) 从 CDP 人 仓库 设备 中 读 取 这 些 更 新 的 数据 块 ， 构 造 以 
mt_bi _ home 为 首 的 链表 。 


同上 面 的 处 理 类 似 ， 我 们 需要 为 mt_home 链 表 中 的 每 一 项 构造 对 
CDP 仓 库 设 备 的 读 请 求 ， 每 个 请 求 在 CDP 仓 库 设 备 的 起 始 编号 取决 于 
CDP_sector 域 ， 长 度 则 根据 bisize 而 定 。 这 个 请 求 读 出 的 数据 需要 被 写 
入 到 主机 磁盘 设备 中 ， 为 此 在 读 请 求 /O 完 成 水 数 中 ， 构 造 一 个 对 应 的 
往 主 机 磁盘 设备 的 写 请 求 bio， 该 写 请 求 的 起 始 编号 取决 于 host_sector 
域 ， 长 度 根 据 bisize 而 定 ， 而 要 写 入 的 数据 是 刚刚 从 CDP 仓 库 设 备 中 读 
出 的 数据 。 另 外 ， 在 读 请 求 1O 完 成 函数 中 ， 还 要 递 碱 一 个 计数 器 ， 当 
该 计数 器 递减 到 0 时 ， 说 明 用 户 已 经 全 部 处 理 了 mt_home 链 表 中 的 项 ， 
这 时 会 得 到 一 个 以 mr_bio_home 为 首 ， 每 项 中 都 指向 一 个 bio 结 构 的 链 
表 。 


struct list_head mt_home; //BI0 更 新 链表 
struct most_recent_blocks { //BIO 更 新 表 项 
struct bio *mrbio; 


struct list head list; 


(3) 将 mt_bi home 链表 的 数据 块 都 恢复 到 主机 磁盘 设备 中 。 


这 个 操作 相对 比较 简单 ， 用 户 只 需要 在 主机 磁盘 设备 上 执行 
mt_bi home 链表 的 每 一 个 bio 请 求 项 即 可 。 当 然 还 要 在 这 些 请 求 项 的 
IO 完成 方法 中 做 善后 处 理 ， 即 如 果 所 有 请 求 项 都 已 经 执行 完毕 ， 则 释 
放 mt_home 链 表 和 mt_bi home 链表 。 


3。CDP 架 构 模型 演绎 


前 面 主要 给 出 了 CDP 底 层 的 设计 思想 和 思路 ， 本 节 将 对 CDP 的 具 
体 实 现 做 一 个 架构 模型 猜想 和 分 析 ， 在 下 一 节 中 则 介绍 几 个 目前 市 场 
上 广 家 的 CDP 产 品 ， 通 过 分 析 其 产品 架构 从 而 对 CDP 进 行 更 加 深刻 的 
理解 。 


演绎 之 前 ， 我 们 再 来 总 结 一 下 CDP 的 基本 原理 : 对 需要 保护 的 数 
据 进 行 连 续 的 监视 ， 每 当 有 写 IO 发 生 ， 视 设计 方法 不 同 ， 将 这 份 IO 的 
数据 打上 时 间 改 ， 保 存 到 另外 的 空间 中 (RoW) 或 者 将 被 覆盖 的 数据 
先 复制 出 来 打上 时 间 惟 并 保存 到 另外 的 空间 中 然后 再 履 盖 新 写 入 的 数 
据 (CoW) 。 这 里 为 何 没 有 用 CoFW 或 者 RoFW 呢 ? 因为 我 们 这 里 做 的 
不 仅仅 是 一 次 Snapshot， 而 是 连续 数据 保护 ， 记 录 每 个 IO， 所 以 怎么 
会 允许 第 二 次 覆盖 写 就 不 Copy 或 重 定向 了 呢 ? 每 次 写 都 要 Copy 或 者 
Redirect， 除 非 用 于 保存 变化 IO 的 仓库 已 满 或 者 已 经 达到 用 户 所 设 定 的 
保护 期 限 阐 值 。 


说 明 : CDP 思 想 的 核心 可 以 说 就 是 时 间 戳 ， 任 何 IO 都 必须 有 
时 间 惟 ，CDP 引 擎 在 遍历 整个 链 的 时 候 ， 除 了 要 参考 FS 或 者 
VM 自身 的 元 数据 映射 链 或 者 映射 图 表 之 外 ， 还 要 参考 时 间 
戳 链 ， 能 够 做 到 对 于 每 一 个 给 出 的 时 间 点 ，CDP 引 擎 都 可 以 
从 源 数据 区 和 变化 IO 仓库 区 从 链表 /映射 图 以 及 时 间 戳 链 中 遍 
历 抓 取出 一 份 完 整 的 对 应 所 给 出 的 时 刻 的 源 数 据 卷 的 元 数据 
链 ， 从 而 得 到 了 完整 的 实际 数据 卷 的 一 份 影像 (image) 。 这 
份 影 像 就 像 Snapshot 一 样 可 以 被 只 读 挂 载 以 用 于 恢复 数据 或 
者 备份 到 磁带 ， 或 者 像 卷 Clone 一 样 可 写 。 如 图 16-31 所 示 为 
作者 自演 绎 的 一 种 CDP 产 品 模型 。 


图 16-31 ”自己 演绎 的 CDP 模 型 


图 16-31 所 示 的 是 一 个 假想 中 的 CDP 实 现 架构 。 特 别 需 要 注意 的 是 
图 中 所 有 箭头 的 位 置 和 指向 ， 每 个 位 置 和 指向 都 是 有 特殊 意义 的 ， 方 
向 向 上 的 箭头 代表 读 IO 操作 ， 向 下 则 代表 写 IO 操 作 。 下 面 就 这 个 架构 
模型 来 做 一 个 论述 。 


一 台 主 机 后 端 通过 FC 交 换 机 连接 了 一 台 磁 盘 阵 列 ， 磁 盘 阵列 映射 
了 若干 LUN 给 这 人 台 主 机 使 用 ， 并 且 主 机 还 有 本 地 磁盘 ， 受 保护 的 文件 
和 卷 既 有 一 部 分 存放 在 磁盘 阵列 中 ， 又 有 一 部 分 存放 在 本 地 磁盘 中 。 
其 前 端 通过 以 太 网 交换 机 连接 了 一 台 CDP 服 务 器 。 主 机 上 安装 有 CDP 
客户 端 套件 ， 包 括 的 主要 模块 有 : CDP 主 代理 模块 、 块 IO 捕获 虚拟 设 
备 模块 和 文件 IO 过 滤 驱 动 模块 。 


1) 文件 IO 过 滤 模块 


这 个 模块 作用 于 文件 系统 层 旁 路 以 及 卷 管 理 层 之 上 ， 其 作用 是 监 
视 每 个 受到 CDP 保 护 目 录 下 的 文件 的 所 有 与 操作 ， 一 旦 发 现 某 个 受 保 
护 的 文件 有 写 入 操作 ， 则 将 这 个 操作 所 对 应 的 数据 和 偏 移 量 一 同 通过 
以 太 网 发 送 到 CDP 服 务 器 端 (RoW 方 式 下 ) ， 或 者 先 将 受 保护 的 文件 
对 应 的 即将 被 覆盖 的 部 分 的 现 有 内 容 读 出 然后 附带 对 应 的 偏 移 量 信息 
一 并 发 送 到 CDP 服 务 器 端 后 再 将 待 写 入 的 数据 写 到 对 应 的 磁盘 空间 中 
(CoW 方 式 下 ) 。 文 件 IO 过 滤 层 是 实现 文件 级 CDP 的 一 个 必需 组 件 。 
而 实现 卷 级 或 者 Block 块 级 的 CDP， 就 需要 在 卷 管理 层 之 下 的 Block IO 
链条 之 间 插 入 一 层 ， 也 就 是 图 示 的 块 IO 捕 获 虚 拟 设备 层 。 


2) IO 捕获 虚拟 设备 层 


这 个 组 件 在 卷 管理 层 之 下 生成 了 一 个 虚拟 设备 ， 卷 管理 层 直 接 对 
这 个 设备 进行 IO ， 从 而 将 任何 试图 写 入 受 CDP 保 护 的 卷 的 IO 操作 截 


获 ， 与 文件 IO 过 滤 组 件 作用 方式 相同 ， 根 据 不 同 设计 方式 比如 Cow 或 
者 RoW， 将 对 应 的 数据 和 LBA 地 址 段 信息 发 送 到 CDP 服 务 器 端 。 这 两 
个 组 件 并 不 是 所 有 IO 都 监控 ， 它 们 只 会 向 操作 系统 API 注 册 受 CDP 保 
护 的 目录 或 者 卷 的 监控 过 滤 权 限 ， 上 层 对 未 受 保 护 对 象 的 写 IO 操作 均 
会 Bypass 掉 这 两 个 层 直接 写 向 原 有 的 下 层 。 图 中 的 箭头 明确 标示 了 各 
个 层次 之 间 的 关系 。 


3) CDP 主 代理 模块 


这 个 模块 是 受 保护 的 客户 端 主 模块 ， 负 责 协 调 与 CDP 服 务 器 的 通 
信和 数据 传输 ， 以 及 适 配 上 述 的 两 个 模块 。 如 果 说 上 面 两 个 模块 是 两 
杆 枪 ， 则 客户 端 主 代理 模块 就 是 前 线 指挥 者 ，CDP 服 务 器 就 是 后 方 总 
中 挥 外 加 战俘 集中 营 。 主 代理 模块 还 负责 把 每 个 从 上 面 两 个 模块 接收 
到 的 写 IO 数 据 打 上 时 间 戳 并 发 送 给 CDP 服 务 端 模块 保存 。 


如 果 使 用 Row 方式 ， 则 上 层 的 每 个 读 IO 也 均 会 经 过 文件 IO 过 滤 驱 
动 层 ， 过 滤 驱 动 将 IO 的 地 址 传送 给 主 代 理 模 块 ， 主 代理 模块 向 CDP 服 
务 器 发 出 查询 请 求 ( 良 好 的 设计 情况 下 无 须 每 次 都 查询 ， 代 理应 当 定 
时 从 CDP 服 务 器 端 rr a eno on 
恰好 是 以 前 曾经 被 Row 过 的 地 址 ， 则 CDP 服 务 器 从 IO 仓库 中 将 这 段 地 
we 台 客 户 端 ee 

给 文件 过 滤 驱 动 ， 然 后 文件 过 滤 驱 动 再 将 数据 传送 给 上 层 请 求 者 。 
了 RoW 方 式 的 流程 过 多 ， 效 率 非 常 低下 ， 但 是 可 以 利用 另外 
一 种 方式 来 既 用 到 Row 不 消耗 额外 的 IO 资源 这 个 优势 ， 又 能 屏 贡 掉 读 
操作 对 主机 的 影响 ， 这 种 设计 思路 将 在 下 文 描述 。 


在 利用 CDP 做 实 恢复 (对 应 虚拟 影像 来 讲 ) 的 时 候 ， 主 代理 模块 
还 负责 从 CDP 服 务 器 提取 对 应 时 间 点 之 前 的 所 有 被 保存 的 IO 数据 并 将 


恢复 的 数据 覆盖 到 对 应 的 目录 或 者 卷 。 在 利用 CDP 做 虚拟 影像 挂 载 读 
写 的 时 候 ， 上 层 针对 虚拟 卷 或 者 目录 的 每 次 读 或 者 写 IO ， 都 需要 代理 
根据 本 地 所 缓存 的 地 址 统计 表 来 判断 对 应 IO 的 实际 数据 在 源 目录 / 卷 还 
是 位 于 CDP 服 务 端的 IO 仓库 中 ， 并 去 将 数据 取 回 并 返回 给 请 求 者 。 


4) CDP 服 务 器 端 


CDP 服 务 器 端 是 整个 CDP 系 统 的 总 控制 全 和 IO 仓库 。 服 务 端 负 责 
监控 和 记录 所 有 受 保 护 的 客户 端 主机 上 的 代理 程序 状态 以 及 目录 / 卷 的 
状态 、 传 输 状态 等 。 服 务 端 负责 响应 代理 端的 查询 请 求 并 在 查询 命 
时 将 保存 在 仓库 中 的 IO 数 据 返 回 给 代理 端 。 服 务 端 还 负责 接收 各 个 代 
理 端 传送 过 来 的 需要 保存 的 IO， 并 将 这 些 IO 数 据 加 以 分 类 并 存放 到 本 
地 的 存储 空间 中 ， 并 做 好 时 间 错 索引 /地 址 段 索 引 等 重要 步骤 以 便 提 高 
查询 速度 。 服 务 端 还 负责 提供 用 户 配置 接口 ， 用 CLI/GUI 方 式 接 收 用 
户 的 配置 ， 比 如 保存 期 限 、 空 间 配 额 、 备 份 策略 、 传 输 模 式 、 融 宽 控 
制 、 用 户 权限 控制 等 。 


CDP 服 务 端 可 以 是 一 台 普 通 的 服务 器 ， 安 装 对 应 的 软件 ， 也 可 以 
是 内 赂 软件 的 成 品 一 体 化 硬件 服务 器 。 人 至 于 CDP 服 务 器 的 存储 空间 ， 
则 需要 根据 受 保护 的 总 容量 、 处 理 能 力 和 具体 需求 等 来 配置 ， 服 务 器 
机 箱 内 本 地 磁盘 以 及 通过 FC 或 者 SAS 之 类 的 适 配 卡 连接 的 外 置 扩展 柜 
或 者 第 三 方 独立 存储 系统 ， 均 可 作为 IO 仓库 存储 空间 。 


5) 源 卷 数据 被 保护 的 详细 步骤 曾 述 


有 一 台 主 机 ， 其 上 有 一 个 100GB 大 小 的 卷 或 者 分 区 ， 需 要 对 其 进 
行 CDP 连 续 保护 ， 保 护 期 限 为 一 周 ， 也 就 是 说 只 保留 一 周 前 到 现在 的 
所 有 变化 数据 即 可 。CDP 服 务 器 已 经 安装 配置 完毕 。 


(1) 首先 在 这 人 台 主 机 上 安装 CDP 客 户 端 代理 模块 ， 安 装 完毕 后 需 
要 重新 启动 。 重 启 后 ， 对 这 个 卷 的 IO 更 改 率 进 行 评 估 ， 得 出 结论 ，IO 
仓库 容量 为 源 卷 容量 的 20% 即 可 。 


(2) 打开 代理 程序 主 界面 ， 在 其 中 申请 20GB 大 小 的 IO 仓库 ， 并 
将 其 分 配给 待 保护 的 卷 。 配 置 确定 后 ， 将 其 保存 ， 此 时 代理 与 CDP 服 
务 器 进行 通信 ， 服 务 器 端 自 动 在 其 本 地 存储 仓库 内 分 配 了 一 块 20GB 大 
小 的 空间 并 记录 这 个 空间 的 使 用 者 和 卷 的 信息 ， 并 且 对 这 个 空间 做 一 
些 元 数据 的 初始 化 操作 ， 等 待 接收 客户 端 发 送 过 来 的 IO 数据 。 


(3) 服务 端 完成 配置 后 ， 向 客户 端 代理 发 送 成 功 信号 。 客 户 端 代 
理 在 GUI 界面 中 将 成 功 的 状态 显示 出 来 并 等 待 管理 员 的 下 一 步 指 示 。 
此 时 ， 数 据 保 护 还 没有 启动 ， 需 要 管理 员 手 动 启动 。 管 理 员 手动 将 数 
据 保护 引擎 局 动 ， 此 时 ， 块 IO 捕获 引擎 开始 工作 ， 将 需要 被 保 护 的 IO 
效 据 产 产 不 断 地 发 送 给 代理 主 模块 ， 主 模块 打上 时 间 戳 后 将 IO 效 据 传 
适 到 服务 端 保存 。 


(4) 服务 端 收 到 对 应 客户 端 代理 的 IO 数据 后 将 其 存放 到 对 应 的 
IO 仓库 中 ， 按 照 设计 的 保存 格式 将 其 写 入 硬盘 ， 并 做 好 MetaData 的 更 
新 。 目 前 几乎 所 有 的 CDP 设 计 都 类 似 ， 即 为 每 个 Block 地 址 形成 一 条 单 
独 的 数据 块 链条 ， 每 个 针对 源 卷 这 个 地 址 的 写 IO 所 产生 的 CoW 或 者 
Row 出 来 的 块 都 会 被 妃 加 到 这 个 链条 末尾 并 打 入 时 间 惟 。 


(5) 随 着 客户 端的 IO 数据 不 断 传 来 ，IO 仓 库 将 变 得 越 来 越 满 ， 
在 仓库 未 全 满 之 前 ， 比 如 一 周 之 后 ， 服 务 端 引 擎 开始 根据 时 间 戳 来 判 
断 并 删除 时 间 戳 早 于 一 周 的 所 有 IO 数据 以 便 清 空 部 分 空间 。 


(6) 当 服 务 端的 IO 仓库 内 容量 达到 所 设 定 的 阀 值 的 时 候 ， 将 会 
产生 告警 信息 提示 管理 员 将 IO 仓库 扩容 。 当 满仓 之 后 ， 针 对 这 个 卷 的 
CDP 引 擎 停止 在 当前 的 时 间 点 (Row 模式 下 不 可 全 停 ， 因 为 随时 要 响 
应 上 层 的 读 IO 请 求 ) ， 等 待 管 理 员 进一步 指示 。 当 管理 员 删 除 一 些 早 
期 时 间 戳 IO 数据 之 后 ， 或 者 扩容 IO 仓库 之 后 ， 重 新 启动 CDP 引 擎 ， 停 
止 时 间 点 与 启动 时 间 点 之 间 客 户 端 卷 变化 的 数据 没有 被 记录 ， 所 以 这 
段 时 间 是 空白 期 ， 数 据 不 能 回溯 到 这 期 间 的 时 间 点 。 而 且 ， 如 果 使 用 
Row 方式 的 话 ， 一 旦 IO 仓库 满仓 ， 则 不 但 不 能 回溯 到 空白 期 ， 而 且 还 
会 发 生 逻 辑 上 的 矛盾 。 


比如 ， 满 仓 之 后 ， 假 设 源 卷 有 一 个 写 IO 是 针对 LBA1024 的 ， 并 且 
LBA1024 在 满仓 之 前 就 已 经 被 覆盖 过 多 次 ， 所 以 这 个 地 址 的 多 份 IO 数 
据 被 告 以 不 同 的 时 间 戳 保存 在 仓库 中 ， 此 时 ， 客 户 端 代理 由 于 仓库 满 
仓 而 停止 了 IO 捕获 ， 那 么 这 个 IO 应 该 如 何 处 理 ? 难道 要 直接 写 到 源 卷 
将 原来 的 数据 覆盖 么 ? 如 果 这 样 做 ， 随 后 上 层 发 起 一 个 读 IO 请 求 ， 读 
取 LBA1024 的 话 ， 则 客户 端 代理 经 过 查询 服务 端 后 ， 会 将 服务 端 仓库 
中 对 应 这 个 地 址 的 最 后 一 个 时 间 戳 的 数据 返回 ， 而 忘记 了 这 个 地 址 的 
最 后 一 次 写 动 作 其 实 是 直接 写 到 了 源 卷 了 ， 并 没有 RoW， 此 时 如 果 果 
真 返回 了 仓库 中 的 数据 而 不 是 源 卷 上 这 个 地 址 的 数据 ， 则 会 对 上 层 应 
用 造成 重大 影响 ， 轻 则 数据 错乱 ， 重 则 骨 溃 ， 这 是 绝对 不 容许 发 生 的 
事情 。 


要 解决 也 不 难 ， 客 户 端 代理 在 让 这 个 写 IO 直 接 写 到 源 卷 之 前 ， 先 
做 一 下 记录 ， 这 份 记录 包含 所 有 在 IO 捕获 引擎 停止 之 后 发 生 的 ， 并 且 
服务 端 仓库 中 包含 对 应 地 址 的 数据 的 写 IO 信 息 ， 这 样 ， 上 层 写 完 之 后 
再 发 起 读 这 个 地 址 的 请 求 的 时 候 ， 客 户 端 代理 程序 优先 查询 这 份 记 
录 ， 匹 配 则 直接 将 IO 定向 到 源 卷 。 当 服务 端 IO 仓库 有 足够 剩余 空间 之 


后 ，CDP 引 警 启 动 ， 继 续 接 受 Row 的 IO 数据 ， 一 旦 有 某 个 IO 是 针对 这 
份 新 记录 中 的 某 一 条 地 址 的 ， 则 客户 端 代理 将 IO 打 入 时 间 戳 并 发 送 到 
服务 端 仓库 之 后 ， 立 即将 这 条 地 址 从 记录 中 删除 ， 以 后 上 层 针 对 这 个 
地 址 的 读 IO 便 会 再 次 被 重 定向 到 服务 端 仓库 里 对 应 这 个 地 址 的 最 后 一 
个 时 间 惟 的 数据 。 


提示 : Row 方式 流程 确实 够 复杂 够 变态 ， 所 以 ， 本 模型 宣告 
抛弃 这 种 方式 ， 全 面 转向 CoW 方 式 ， 大 家 可 以 自己 演绎 一 
下 ，CoW 方 式 并 不 会 出 现 上 述 的 问题 ， 这 里 就 不 再 具体 论述 
了 。 使 用 RoW 模 式 的 情景 会 在 另 一 个 模型 中 介绍 ， 而 且 这 也 
是 目前 主流 产品 都 在 使 用 的 模型 。 


6) 数据 恢复 /回溯 时 的 详细 步骤 阐述 (基于 CoW 方 式 ) 


(1) 周一 早晨 ， 管 理 员 对 这 个 卷 做 了 一 次 Snapshot。 周 二 上 午 ， 
一 位 员工 小 糊 找到 管理 员 说 他 在 周一 下 班 的 时 候 ， 在 编辑 完 这 个 卷 上 
保存 的 一 份 重 要 文档 之 后 ， 竟 然 稀里糊涂 地 将 其 误 删 除了 ， 问 能 不 能 
恢复 回来 。 管 理 员 说 ， 恢 复 太 困难 了 ， 得 耽误 很 长 时 间 ， 而 且 很 麻 
烦 。 小 糊 中 午 请 管理 员 吃 了 顿 大 餐 。 


(2) 下 午 上 班 ， 管 理 员 首先 想到 了 用 Snapshot 做 恢复 ， 但 是 不 
巧 ， 最 后 一 份 Snapshot 是 周一 早晨 做 的 ， 而 那 老兄 在 周一 下 午 对 它 进 
行 了 编辑 ， 所 以 这 个 Snapshot 并 不 包含 这 份 被 编辑 后 的 文档 。 幸 好 ， 
这 个 卷 正 受到 CDP 的 保护 ， 就 让 时 光 来 倒流 吧 。 打 电话 询问 了 那 位 糊 
涂 见 ， 得 知 编辑 完 之 后 大 概 是 周一 下 午 5 点 整 左右 ， 什 么 时 候 删 除 的 ， 
他 也 不 知道 ， 他 只 知道 自己 是 5 点 半 下 班 走 人 的 。 这 可 难为 管理 员 了 ， 
不 知道 准确 时 间 的 话 ， 只 能 摸 着 石头 过 河 ， 用 二 分 法 吧 ， 看 来 中 午 这 
顿 饭 吃 对 了 。 


(3) 管理 员 打 开 文 件 服务 器 上 的 CDP 客 户 端 代理 配置 界面 ， 选 择 
了 Rewind Wizard， 然 后 选中 要 时 光 倒 流 的 卷 ， 下 一 步 ， 出 现 一 个 滑动 
条 ， 管 理 员 首先 将 滑 块 拖 动 到 周一 17 点 15 分 ， 也 就 是 糊涂 兄 开 始 编辑 
到 下 班 走 人 这 期 间 的 中 点 。 然 后 单 击 Mount。 当 鼠标 单 击 Mount 的 一 章 
那 ， 客 户 端 代理 迅速 地 将 指令 发 送 给 了 CDP 服 务 器 端 ， 告 知 本 代理 需 
要 提供 服务 ， 请 准备 一 下 相关 的 资产 ， 缓 存 Buffer 进 程 线 程 都 给 准备 
好 ， 不 得 怠慢 ! 服务 端 迅 速 准备 好 ， 然 后 通知 代理 : 准备 好 了 ! 代理 
收 到 服务 端 反 馈 后 ， 立 即 在 文件 服务 器 上 虚拟 出 一 个 新 卷 并 且 挂 载 到 
一 个 盘 符 下 。 


(4) 管理 员 打 开 * 我 的 电脑 ”， 出 现 了 一 个 新 磁盘 F 盘 ， 总 容量 与 
受 保护 的 卷 一 样 ， 一 看 就 知道 是 源 卷 在 周一 17 点 15 分 时 刻 的 虚拟 影像 
了 ， 写 不 犹 驳 地 双击 进去 。 


(5) 客户 端 代理 没 想到 管理 员 手 竟然 这 么 快 ， 刚 挂 载 上 就 要 双 
击 ， 本 来 想 歇 一 阵子 看 来 不 行 了 ， 来 活 了 ! 谁 呀 ， 一 看 是 文件 系统 老 
大 ， 这 可 不 敢 龟 慢 ， 主 机 上 的 红 人 啊 ! “文史 ， 有 何 指示 ? ”代理 点 头 
哈 腰 地 说 。“ 嗯 ， 老 大 有 指示 ， 让 我 来 视察 一 下 F 区 大 堂 都 有 些 什么 人 
儿 啊 ， 我 查 了 查 地 图 ，F 区 大 党 在 LBA1024 到 LBA2048 这 段 地 址 上 ， 
你 给 我 跑 趟 腿 ， 去 看 看 然后 告诉 我 结果 。” 代 理 赶 忙 先 问 了 问 CDP 服 务 
器 端 仓 库 中 对 应 LBA1024 到 LBA2048 这 些 数据 块 的 各 自 链条 中 有 没有 
带 周 一 17 点 15 分 的 戳 子 的 ， 有 的 话 全 部 给 发 过 来 。 得 到 CDP 服 务 端 的 
答复 ，LBA1024 到 LBA1096 有 ， 内 容 也 发 过 来 了 ， 但 是 LBA1097 到 
LBA2048， 在 对 应 的 链条 中 没 找到 带 周 一 17 点 15 分 戳 子 的 。 代 理 一 下 
明白 了 ， 既 然 对 应 这 个 戳 子 的 数据 不 在 CDP 服 务 端 仓库 里 ， 那 一 定 就 
在 原 处 了 ， 赶 紧 去 了 趟 源 卷 ， 把 这 段 地 址 的 数据 也 拿 了 过 来 。 然 后 点 


头 哈 腰 地 给 文件 系统 过 目 ， 文 件 系统 拿 到 数据 后 ， 把 数据 给 了 管理 员 
老大 。 


(6) (上 述 情节 发 生 在 半 秒 钟 前 ) 管理 员 双 击 进去 之 后 ， 看 到 其 
中 有 个 目录 叫做 “难得 糊涂 ”， 想 都 没 想 ， 老 糊 的 那个 文档 一 定 就 在 这 
里 面 了 ， 于 是 又 双击 进去 。 


(7) 文件 系统 喘 着 粗 气 又 来 到 代理 这 里 ， 上 和 气 不 接 下 气 地 说 : 
“竟然 又 让 老子 跑腿 ， 他 就 不 会 一 次 到 位 么 ! 哎 我 说 ， 你 再 跑 个 腿 ， 老 
大 让 我 再 看 看 F 区 下 面 的 难得 糊涂 楼 里 面 都 有 些 什 么 人 儿 ， 我 查 了 
查 ， 在 地 址 LBA8192 到 LBA10240 这 段 上 。” 代 理 心 想 ， 你 这 不 也 在 让 
我 跑腿 么 ， 扯 淡 。 和 上 次 一 样 ， 把 对 应 的 数据 都 给 了 文件 系统 。 老 文 
接 过 来 一 看 :“ 空 的 ? ”代理 扭捏 道 :“ 额 .…... 我 可 看 不 懂 这 些 内 容 。” 
老 文 一 皱眉 :“ 你 小 子 ， 骗 我 的 话 有 你 好 看 ! ” 


(8) ” (上述 情节 发 生 在 半 秒 前 ) 管理 员 打 开 老 糊 的 这 个 目录 一 
看 ， 什 么 都 没有 ， 顿 时 明白 了 : 糊涂 兄 一 定 是 在 17 点 到 17 点 15 之 前 某 
个 时 间 把 文档 给 删 了 。 太 背 了 ， 还 得 再 用 一 次 。 管 理 员 打开 代理 程序 
配置 界面 ， 选 中 已 经 Mount 的 虚拟 卷 ， 单 击 Unmount 将 其 卸载 。 之 后 又 
打开 Rewind Wizard， 滑 动 条 拖 到 17 点 07 分 ， 单 击 Mount， 然 后 “我 的 电 
脑 * 双 击 进入 新 挂 载 的 虚拟 卷 ， 进 入 糊涂 兄 目录 ， 一 看 ， 很 好 ， 这 次 文 
档 出 现 了 ， 证 明 糊 涂 兄 一 定 是 在 17 点 07 分 到 17 点 15 分 之 间 将 其 误 删 除 
的 。 但 是 07 分 的 这 份 文档 影像 并 不 见得 就 是 删除 前 最 后 的 影像 ， 还 得 
继续 找 。 定 位 到 17 点 11 分 ， 挂 载 ， 进 入 目录 ， 文 档 存 在 ; 定位 到 17 点 
13 分 ， 进 入 ， 文 档 存 在 ; 定位 到 17 点 14 分 ， 进 入 ， 文 档 存 在 ; 17 点 14 
分 30 秒 ， 存 在 ;14 分 45 秒 ， 存 在 ;14 分 52 秒 ， 和 存在; 14 分 56 秒 ， 存 
在 ; 14 分 58 秒 ， 人 存在 ; 14 分 59 秒 ， 存 在 .……. 噢 ， 小 样 儿 ， 你 挺 能 整 人 
儿 啊 ， 在 17 点 14 分 59 秒 和 17 点 15 分 之 间 删 除 的 ， 算 你 狠 ， 给 我 出 这 等 


难题 。 看 我 的 ! 再 次 打开 滑动 条 ， 人 傻眼 了 ， 最 小 单位 是 秒 ， 转 眼 一 
看 ， 下 面 有 个 输入 框 ， 旁 边 还 写 着 “请 输入 时 间 点 ， 最 小 单位 ， 富 
秒 ”。 我 算 算 哈 ，1 秒 三 1000 毫 秒 ， 对 吧 ， 对 。 啊 ! ! ! 二 分 1000， 好 
么 ， 谁 怕 谁 .…… 


(9) 文件 系统 跟 跟 踊 踊 来 找 代 理 :“ 我 说 ， 老 兄 ， 大 和 节 ， 帮 才 
我 .….. 快 ， 老 大 发 疯 了 ， 快 去 给 我 查 查 .…...。” 


(10) (两 小 时 后 ) 下 午 下 班 前 ， 管 理 员 精 神 悦 属 地 来 到 糊涂 兄 
面前 :“ 你 小 子 ， 你 知道 我 为 了 恢复 你 这 份 破 文档 ， 费 了 多 少 劲 么 ? 
啊 ! ”。 糊涂 兄 拿 过 文档 一 看 ， 一 点 数据 也 没 丢 ， 乐 呵呵 说 道 :“ 小 
管 ， 平 苦 了 啊 ! 会 有 补偿 地 一 一 ”。 管 理 员 一 忱 ， 只 听 背 后 Boss 走 过 
来 :“ 呵 呵 ， 小 管 啊 ， 做 的 不 错 啊 ，CDP 用 得 很 熟练 了 ， 这 份 文档 如 果 
丢失 ， 将 会 带 来 惨痛 损失 啊 ， 做 的 不 错 ， 这 月 奖金 多 给 你 50%! ”小 管 
顿时 眼泪 哗 哗 .…… 


7) 模型 改进 演绎 


细心 的 读者 可 能 已 经 发 现 了 ， 上 面 的 模型 存在 几 个 问题 。 一 是 ， 
源 数 据 卷 或 者 目录 中 没有 被 写 覆 盖 的 文件 部 分 或 者 Block， 并 未 被 传送 
至 CDP 服 务 端 做 备份 ， 而 只 是 将 被 覆盖 的 数据 (CoW) 或 者 新 数据 
(RoW) 传送 到 CDP 服 务 器 。 如 果 被 保护 的 目录 或 者 卷 由 于 有 某 种 原因 
整体 损坏 ， 或 者 整体 被 删除 ， 则 CDP 服 务 器 上 保存 的 IO 数据 就 会 变 得 
无 用 。 虽 然 在 源 卷 或 者 源 目 录 完 好 的 情况 下 ， 利 用 CDP 可 以 回溯 到 之 
前 的 任何 时 间 点 的 状态 ， 但 是 由 于 没有 对 源 处 的 数据 进行 备份 ， 所 以 
并 没有 达到 严格 的 备份 和 保护 数据 的 作用 。 第 二 个 问题 ，CDP 服 务 器 
与 客户 机 之 间 只 是 通过 以 太 网 互联 ， 作 为 数据 存储 系统 的 IO 传输 通道 
未 儿 有 人 些 捉 标 见 肘 。 


基于 以 上 两 个 因素 考虑 ， 我 们 把 这 个 模型 做 一 下 改进 ， 改 进 后 的 
模型 拓扑 图 如 图 16-32 所 示 。 


图 16-32 ”改进 后 的 模型 


上 图 中 ,主机 端 逻 辑 模块 没有 变化 ， 但 是 主 代理 模块 的 功能 
变 ， 原 来 的 模型 中 ， 主 代理 模块 需要 在 恢复 的 过 程 中 负责 在 本 地 主机 
虚拟 一 个 对 应 时 间 点 的 卷 影 像 ， 并 负责 接收 这 个 卷 的 IO 并 且 通 过 以 太 
网 络 向 CDP 服 务 端 引 擎 发 起 查询 和 数据 传输 操作 。 新 模型 中 ， 这 个 工 
作 全 部 被 转移 给 了 CDP 服 务 端的 虚拟 卷 映 射 引 擎 来 完成 ， 主 机 端 代 理 
模块 主要 负责 状态 监控 和 报告 以 及 提供 用 户 配置 接口 ， 控 制 信息 的 传 
输 依然 通过 代理 模块 经 过 以 太 网 来 与 服务 端 通 信 。 同 时 ， 我 们 可 以 看 
到 CDP 服 务 器 在 新 模型 中 也 连接 了 FC 交换 机 ， 目 的 是 让 捕获 的 10 通 过 
FC 网 络 而 不 是 以 太 网 络 来 传输 ， 加 快速 度 。 


运行 在 CDP 服 务 端 上 的 虚拟 卷 映 射 管理 引擎 的 作用 有 两 个 。 一 是 
在 数据 持续 保护 期 间 ， 生 成 并 通过 FC 通 道 或 者 以 太 网 ISCSI 通 道 向 主 
机 端 映射 一 个 与 源 卷 相 同 容 量 的 卷 空间 ，IO 捕 获 层 首先 将 源 卷 上 已 经 
存在 的 数据 全 部 同步 到 新 映射 的 卷 ， 完 成 之 后 ， 主 机 端 针 对 源 卷 的 每 
个 上 层 IO 便 会 都 镜像 一 份 ， 同 时 写 入 源 卷 和 CDP 服 务 端 映 射 过 来 的 
卷 。 此 时 ， 这 个 块 IO 捕获 层 就 充当 了 类 似 LVM 的 卷 管理 层 。CDP 服 务 
端 接收 到 每 个 写 IO 之 后 ， 打 入 时 间 惟 ， 并 将 服务 端的 镜像 卷 中 等 待 被 
覆盖 的 BLock 进 行 CoW 操 作 ， 复 制 至 IO 仓库 中 保存 。 


这 样 算 来 ，CDP 服 务 端 所 需要 的 空间 等 于 源 卷 空间 再 加 上 IO 仓库 
占用 的 额外 空间 ， 而 第 一 个 模型 则 只 需要 IO 仓库 空间 。 虚 拟 卷 映射 引 
黎 的 第 二 个 作用 ， 便 是 在 回 济 恢复 的 过 程 中 提供 对 应 时 间 点 的 源 卷 的 
虚拟 影像 卷 ， 也 就 是 提供 第 一 个 模型 中 客户 端 代理 在 恢复 过 程 中 所 执 


行 的 功能 。 有 一 点 不 同 的 是 ， 第 一 个 模型 中 的 卷 是 完全 在 本 地 虚拟 ， 
而 第 二 个 模型 中 的 卷 则 是 在 CDP 服 务 端 虚拟 的 ， 通 过 FC 通 道 或 者 以 太 
网 ISCSTI 通 道 映 射 给 主机 ; 其 次 ， 虚 拟 卷 映 射 引 警 向 IO 仓库 管理 引擎 发 
出 查询 等 通信 的 过 程 均 无 须 经 过 任何 外 部 网 络 ， 直 接 在 内 存 中 进行 ， 
与 第 一 个 模型 相 比 ， 速 度 和 效率 相对 提升 。 


上 述 均 以 卷 级 CDP 为 基础 ， 对 于 文件 级 的 IO 过 滤 捕 获 ， 还 是 通过 
以 太 网 来 传递 比较 好 控制 ， 如 果 非 要 将 文件 级 IO 数据 也 通过 FC 网 络 进 
行 传输 ， 不 是 不 可 以 ， 而 是 开发 起 来 相对 复杂 ， 毕 竟 基 于 以 太 网 的 
TCPIP 是 比较 开放 和 成 熟 的 接口 。 而 SCSI Block 级 别 的 捕获 由 于 FC 协 
议 栈 已 经 提供 了 完善 的 FCP 层 支持 ， 所 以 开发 起 来 相对 方便 。 


经 过 改进 之 后 的 模型 ， 优 点 是 达到 了 对 数据 全 部 保护 万 无 一 失 的 
要 求 ， 并 且 提 升 了 数据 传输 速度 ， 而 且 降 低 了 主机 资源 的 耗费 。 不 足 
则 是 CDP 服 务 端 需要 比 源 卷 更 大 的 存储 空间 。 这 种 架构 还 能 够 实现 一 
个 非常 实用 的 功能 ， 就 是 裸 机 恢复 。 比 如 ， 用 CDP 来 保护 主机 操作 系 
统 所 在 的 磁盘 或 者 分 区 ， 一 旦 某 时 刻 ， 主 机 操作 系统 骨 溃 ， 或 者 中 毒 
已 深 ， 或 者 一 些 重要 配置 比如 Domain 配 置 给 倒 腾 废 了 ， 如 果 没 有 CDP 
保护 ， 重 装 个 系统 加 上 应 用 程序 安装 配置 怎么 也 得 半天 时 间 ; 有 了 
CDP 保 护 ， 就 大 不 相同 了 ， 此 时 在 CDP 服 务 端 上 将 系统 源 卷 在 骨 溃 前 
某 时 间 点 的 一 份 可 写 的 影像 通过 FC 通道 Map 给 这 台 主 机 的 FC 适 配 卡 的 
WWPN 地 址 ， 然 后 主机 在 BIOS 中 设置 通过 FC 卡 启动 ， 完 毕 后 重启 ， 
即 可 从 CDP 服 务 端 的 这 份 虚 拟 影像 卷 来 启动 操作 系统 ， 启 动 后 的 状态 
与 朋 溃 之 前 完全 一 致 。 


操作 系统 启动 之 后 ， 通 过 配置 主机 代理 或 者 操作 系统 自身 的 卷 管 
理 软件 ， 将 当前 的 系统 盘 ， 也 就 是 CDP 服 务 器 上 的 虚拟 影像 ， 镜 像 回 
本 地 系统 磁盘 ， 镜 像 同步 完成 之 后 ， 重 新 启动 主机 。BIOS 设 为 本 地 硬 


盘 启动 ， 启 动 系统 之 后 ， 重 新 初始 化 CDP 引 擎 ， 系 统 运行 如 初 。 这 整 
个 过 程 所 耗费 的 时 间 很 得， 操作 熟练 的 话 ， 几 分 钟 之 内 就 能 将 一 台 朋 
溃 的 主机 重新 启动 起 来 。 


8) 二 次 改进 模型 


IO 捕获 模块 运行 在 受 保护 的 主机 上 ， 毕 竟 对 主机 资源 有 一 定量 的 
耗费 ， 尤 其 是 这 个 模块 处 于 比较 低层 的 位 置 ， 处 理 IO ， 延 迟 是 首要 考 
虑 的 事情 ， 此 处 产生 瓶颈 的 话 ， 就 会 对 主机 整体 性 能 产生 很 大 影响 。 
应 该 考虑 将 其 移出 主机 内 部 ， 放 置 到 外 部 某 处 ， 实 现 对 IO 的 捕获 镜像 
而 主机 客户 端 只 运行 一 个 主 代 理 模 块 即 可 ， 用 于 监控 以 及 提供 配置 界 
面 而 且 用 于 Snapshot 管 理 等 。 主 机 IO 路 径 的 下 一 个 关口 就 是 FC 交 换 机 
了 ， 如 果 可 以 在 交换 机 上 实现 一 种 类 似 端口 镜像 同时 又 比 简单 镜像 更 
智能 的 写 IO 镜 像 的 话 ， 那 么 这 个 问题 也 就 解决 了 。 


笠 好 ， 两 大 FC 交 换 机 生产 商 Cisco 和 Brocade 均 已 经 开发 了 这 个 功 
能 ， 分 别称 为 SANTap Service 和 Brocade Storage Application Services。 
这 两 种 功能 在 原理 上 是 一 样 的 ， 只 不 过 分 别 由 两 家 公司 各 自 开 发 。 其 
基本 原理 是 : 通过 在 交换 机 上 运行 一 个 智能 的 IO 处 理 程 序 ， 其 生成 一 
个 或 者 多 个 虚拟 的 Target LUN 和 虚拟 的 Initiator， 受 保护 的 主机 所 连接 
的 LUN 其 实 是 这 个 虚拟 的 Target， 这 样 主机 针对 源 LUN 的 写 IO 便 会 被 
Virtual Target 截 获 ， 然 后 通过 Virtual Initiator 将 这 份 写 IO 同时 发 送 给 源 
LUN 和 镜像 LUN ， 镜 像 LUN 就 是 位 于 CDP 服 务 器 端的 存储 空间 。CDP 
服务 器 需要 通过 FC 链 路 向 运行 在 交换 机 上 的 SANTap Service 或 者 
Brocade Storage Application Services 注 册 所 要 保护 的 产 LUN， 注 册 成 功 
之 后 ， 写 IO 才能 持续 的 镜像 到 CDP LUN。 


如 图 16-33 所 示 为 Brocade 公 司 两 款 支 持 Brocade Storage Application 


Services 的 产品 。 


图 16-33 ”支持 BSAS 的 两 款 博 科 产品 


如 图 16-34 所 示 为 两 款 Cisco 公 司 生产 的 支持 SANTap Service 的 产品 


图 16-34 ”支持 SANTap Service 的 思科 产品 


二 次 改进 之 后 的 模型 拓扑 图 如 图 16-35 所 示 。 可 以 看 到 块 IO 捕获 虚 
拟 设备 已 经 不 再 捕获 FC SAN 上 的 磁盘 的 IO ， 而 只 负责 捕获 针对 本 地 磁 
盘 的 写 IO 了 。 文 件 IO 过 滤 层 依然 存在 ， 因 为 需要 满足 文件 级 CDP 的 需 
求 。 


图 16-35 ”二 次 改进 模型 
4。CDP 所 面临 的 最 大 技术 难题 : 如 何 保证 时 序 一 致 性 


如 果 说 Snapshot 是 普通 照相 机 的 话 ，NearCDP ( 准 CDP) 就 好 比 是 
快速 连 担 照相 机 ，CDP 则 是 寓 移 动 侦 测 功能 的 摄像 机 。CDP 之 所 以 能 
够 比 Snapshot 的 回溯 粒度 更 细 ， 就 是 因为 Snapshot 是 Copy on First 
Write， 在 Snapshot 做 成 之 后 被 履 盖 过 的 Block， 当 再 次 被 覆盖 的 时 候 ， 
被 覆盖 的 数据 就 不 会 再 被 Copy 出 来 了 ， 而 CDP 则 依然 会 Copy， 每 多 一 
个 与 操作 就 会 多 占用 一 份额 外 的 IO 仓库 空间 。 再 就 是 时 间 惟 ， 因 为 用 
户 决定 CDP 恢 复 的 时 候 只 会 给 出 要 恢复 的 时 间 点 的 数据 ， 每 个 IO 数据 
都 需要 记录 时 间 惟 ， 恢 复 的 时 候 根据 时 间 惟 做 统计 。 而 Snapshot 并 不 


对 每 个 IO 都 打 入 时 间 戳 信息 。 再 就 是 回溯 之 后 的 数据 一 致 性 问题 ， 这 
个 非常 重要 ， 下 文 讨论 。 


1) CDP 和 Snapshot 数 据 一 致 性 讨论 


对 这 个 话题 进行 论述 之 前 ， 先 介绍 一 下 所 谓 “ 数 据 一 致 性 ”。 举 例 
说 明 什 么 是 数据 一 致 性 : 比如 有 某 个 程序 正在 运行 ， 它 的 工作 是 计算 1 
十 1 三 2， 不 停 地 计算 ， 并 将 结果 以 “1 十 1 三 2 的 字 串 形式 记录 到 一 个 文 
件 中 ， 并 且 假 设 这 个 程序 在 记录 的 时 候 是 一 个 字 节 一 个 字 节 地 写 入 
的 ， 比 如 先 写 入 “1”， 接 着 是 “十 ”， 接 着 *1”， 再 “三 ”， 然 后 “2”。 某 时 
刻 ， 程 序 运 算 这 个 加 法 完成 了 ， 立 即 开始 向 文件 中 写 入 记录 ， 当 刚 写 
完 “ 三 ”的 时 候 ， 存 储 系 统 触发 了 一 个 Snapshot， 谁 也 没 通知 ， 而 恰好 
在 Snapshot 之 前 一 瞬间 ， 文 件 系统 也 刚好 将 “三 ”这 个 数据 成 功 写 到 了 
磁盘 上 。 


在 这 份 Snapshot 中 ， 对 应 这 个 程序 生成 的 文件 中 的 最 后 一 条 记录 
将 会 是 这 样 的 “1 十 1 二 ”， 这 就 是 数据 不 一 致 的 表现 。 不 一 致 的 数据 会 
带 来 什么 后 果 呢 ? 某 时 刻 ， 人 存储 管理 员 将 这 份 Snapshot 影 像 做 了 
Restore， 重 新 挂 载 了 该 卷 之 后 ， 这 个 应 用 程序 启动 ， 它 需要 将 之 前 的 
数据 结果 读 出 并 显示 到 显示 器 上 ， 当 它 逐 条 扫描 之 后 ， 直 到 最 后 一 条 
它 发 现 竟 然 只 有 等 式 的 左边 ， 结 果 没 了 。 此 时 ， 根据 程序 的 设计 好 坏 
会 做 出 对 应 的 反应 ， 如 果 由 于 某 些 bug 导 致 设计 者 根本 没有 考虑 到 这 种 
只 有 左边 没有 右边 的 情况 ， 很 有 可 能 造成 程序 骨 溃 。 朋 溃 还 算 负 责任 
的 ， 如 果 遇 到 不 负责 任 的 程序 员 ， 不 管 三 七 二 十 一 ， 凡 是 遇 到 这 种 情 
况 ， 结 果 都 是 0(， 那 就 虹 了 ， 自 己 玩 玩 还 行 ， 拿 到 桌面 上 搞 那 可 是 要 出 
大 事情 的 。 而 设计 民 好 的 程序 ， 就 会 充分 考虑 每 一 个 细节 ， 比 如 一 旦 
发 现 这 种 不 完整 的 算式 ， 立 即将 其 删 掉 ， 不 再 处 理 ， 并 且 报 出 具体 错 
误 。 后 者 又 称 为 一 致 性 检查 。 数 据 库 、 文 件 系统 均 有 这 种 机 制 。 所 


以 ， 直 接 在 存储 设备 上 随机 生成 的 Snapshot， 多 数 时 候 都 是 不 一 致 
的 ，Restore 之 后 一 般 都 要 经 过 一 层 层 的 一 致 性 检查 之 后 才能 最 终 被 应 
用 程序 所 使 用 。 


还 有 一 点 很 重要 ， 即 “数据 一 致 性 ”和 “数据 丢失 ”的 关系。 数据 一 
致 ， 并 不 代表 数据 没有 丢失 ， 而 数据 没 丢 失 并 不 代表 数据 就 是 一 致 
的 。 如 果 理 解 起 来 困难 ， 就 看 看 上 面 那个 例子 ， 最 后 一 条 运算 的 结果 
很 显然 在 那个 Snapshot 被 Restore 之 后 就 丢失 了 ， 但 是 通过 程序 的 一 致 
性 检查 过 程 之 后 ， 不 完整 的 记录 被 删 掉 ， 此 时 数据 就 变 得 一 臻 了。 所 
以 说 ， 数 据 一 致 并 不 代表 数据 没有 丢失 。 那 么 数据 没有 丢失 ， 是 否 就 
代表 数据 一 定 一 致 呢 ? 非 也 ， 看 看 数据 库 系统 就 知道 了 ， 数 据 库 对 数 
据 文件 的 每 一 笔 Update 都 会 记录 到 日 志 中 ， 丢 不 掉 ， 但 是 最 终 有 意义 
的 却 是 每 笔 Transaction。 每 笔 Transaction 又 由 多 笔 Update 形 成 ， 只 有 当 
最 后 一 笔 Update 完 成 ， 并 且 应 用 程序 向 数据 库 提起 Commit 请 求 ， 数 据 
库 成 功 地 将 Commit 点 写 入 日 志文 件 ， 此 时 这 笔 Transaction 才 算 真正 完 
成 。 如 果 在 Commit 点 被 写 入 日 志文 件 之 前 ， 系 统 Down 机 ， 虽 然 这 笔 
Transaction 包含 的 每 一 笔 Update 都 还 在 ， 数 据 都 没有 丢失 ， 但 是 
Commit 点 不 存在 ， 此 时 数据 库 在 Replay 的 时 候 无 法 判断 这 些 Update 是 
否 能 形成 一 笔 完 整 的 Transaction ， 所 以 此 时 ， 数 据 就 是 不 一 致 的 ， 这 
些 Update 只 能 被 Undo 回 退 。 数 据 没 有 丢失 但 是 不 一 致 的 情况 是 比较 理 
想 的 情况 ， 通 过 Replay， 总 可 以 回溯 到 一 致 状态 。 


数据 丢失 


天 于 数据 丢失 ， 这 里 还 需要 理解 一 点 。 上 文中 说 过 ， 存 储 端 随机 
生成 的 Snapshot 无 异 于 一 份 系统 突然 掉 电 时 刻 硬盘 上 的 数据 影像 ， 那 
么 有 人 问 了 ， 系 统 Down 机 的 情况 ， 随 时 随地 都 在 发 生 着 ， 而 且 根 据 上 
面 的 例子 来 判断 ， 每 次 Down 机 都 很 有 可 能 丢失 些 数据 了 ? 这 个 问题 要 


从 多 方面 来 看 ， 不 仅 涉及 底层 数据 是 否 丢 失 ， 最 重要 的 是 系统 后 端 与 
前 端的 沟通 ， 以 及 终端 操作 员 的 判断 和 最 终 人 为 的 介入 。 我 们 来 演绎 


一 个 场景 。 


你 去 银行 提现 1 万 元 ， 把 银行 卡 交 给 操作 员 ， 操 作 员 首先 需要 刷卡 
调 出 你 的 信息 ， 然 后 会 输入 要 提取 的 数值 ， 然 后 会 单 击 提取 。 此 时 ， 
这 个 动作 将 会 被 传送 至 应 用 服务 器 端 ， 应 用 程序 将 会 在 你 当前 的 余额 
上 减 掉 1 万 元 ， 然 后 将 更 新 的 数据 发 送 给 数据 库 服务 器 ， 命 令 数 据 库 服 
务 器 更 新 这 条 新 记录 ， 而 且 最 重要 的 一 步 是 需要 对 本 次 操作 进行 
Commit， 也 就 是 提交 操作 。 只 有 Commit 之 后 ， 数 据 库 服务 器 才 会 将 
这 条 记录 写 入 日 志 永 久保 存 于 人 磁盘， 而 且 是 同步 写 入 ， 不 允许 文件 系 
统 将 数据 缓存 到 内 存 而 实际 却 不 写 入 硬盘 。 当 文件 系统 向 数据 库 返 回 
写 入 成 功 的 消息 之 后 ， 数 据 库 此 时 才 会 向 正在 等 待 Commit 结 果 的 应 用 
程序 返回 Commit 结 束 ， 此 时 应 用 程序 便 知道 ， 记 录 百 分 之 百 已 经 写 入 
了 磁盘 ， 掉 电 也 不 会 丢失 数据 了 。 所 以 这 时 候 ， 操 作 员 终端 机 上 才 会 
提示 存 入 成 功 ， 这 时 你 才 可 以 离 去 。 如 果 在 数据 库 成 功 向 日 志 中 写 入 
了 Commit 点 ， 正 准备 向 应 用 程序 通告 Commit 成 功 通知 之 前 ， 数 据 库 
系统 Down 机 ， 此 时 操作 员 终 端 机 长 时 间 没 有 收 到 回应 之 后 将 提示 通信 
和 失败， 未 能 提现 。 而 此 时 ， 数 据 库 确实 已 经 将 余额 减少 了 1 万 。 数 据 库 
服务 器 重启 之 后 ， 系 统 恢 复 ， 操 作 员 重 新 尝试 提现 1 万 元 的 操作 ， 而 此 
时 操作 员 并 没有 关注 账户 中 的 余额 其 实 已 经 相对 刚才 减少 了 1 万 ， 这 次 
提现 成 功 了 。 最 终 实际 情况 就 是 ， 你 只 拿 到 了 1 万 ， 而 系统 却 将 余额 减 
少 了 2 万 ， 你 损失 了 1 万 元 。 如 果 是 换 成 你 存款 1 万 元 ， 按 照 刚 才 的 场景 
演绎 ， 操 作 员 没有 关注 余额 的 变化 ， 而 进行 了 两 次 重复 操作 ， 给 你 多 
存 了 1 万 进去 。 


所 以 ， 数 据 一 致 性 问题 是 所 有 层次 都 要 关心 的 《VM ，FS ， 
APP) ， 而 数据 丢失 和 误 操作 ， 不 是 数据 存储 层 或 者 数据 库 层 的 问 
题 ， 而 是 一 种 沟通 问题 和 应 用 程序 设计 问题 ， 同 时 ， 也 是 最 重要 的 ， 
就 是 人 的 问题 。 如 果 操 作 员 仔细 一 点 ， 就 不 会 出 现 重 复 操 作 。 人 然而 话 
又 说 回来 ， 计 算 机 本 来 就 是 用 来 帮助 人 来 实现 人 的 需求 的 ， 如 果 需 要 
让 人 来 随时 监控 计算 机 所 做 的 事情 ， 如 果 每 一 笔 都 仔细 核对 ， 那 没 什 
么 问题 ， 但 终究 不 是 好 办 法 。 是 不 是 存在 人 也 无 法 探知 的 潜在 数据 丢 
失 呢 ? 很 有 可 能 ， 一 笔记 录 丢 了 可 以 对 一 对 ， 如 果 底 层 某 个 数据 的 丢 
失 并 没有 通过 某 种 渠道 被 业务 层 感 知 ， 或 者 丢失 之 后 到 被 感知 的 时 间 
过 长 以 至 于 业务 层 也 无 法 调查 了 ， 这 是 否 就 是 死 账 形成 的 原因 之 一 
呢 ? 答案 是 : 人 为 因素 十 系统 因素 。 


现在 ， 我 们 对 比 一 下 Snapshot 和 CDP 的 数据 一 致 性 方面 。 先 说 说 
Snapshot 的 一 致 性 。 比 如 ， 摄 影 师 给 你 拍照 之 前 ， 你 总 得 摆好 姿势 后 
才能 拍 ， 也 就 是 说 你 预先 知道 你 要 被 拍 了 ， 已 经 摆 出 了 最 佳 姿势 了 ， 
此 时 应 保持 僵硬 的 笑容 不 许 动 、 不 许 皮 眼 ， 摄 影 师 按 下 快门 。 这 就 好 
比 Application Aware Snapshot 和 FS Aware Snapshot， 即 能 够 感知 应 用 程 
序 和 文件 系统 对 数据 的 操作 此 时 已 经 处 于 一 个 完整 一 致 的 状态 ， 缓 存 
中 没有 留存 的 只 向 磁盘 中 保存 了 一 半 结 果 数 据 的 运算 ， 此 时 立即 对 底 
层 卷 触发 一 个 Snapshot， 此 时 的 卷 影 像 上 的 数据 就 是 一 致 的 。 即 ， 用 
这 个 Snapshot 进 行 回 漳 /Restor 之 后 ， 应 用 程序 将 对 应 的 数据 读 出 之 
后 ， 不 会 产生 异 音 结果。 


这 种 方式 需要 在 主机 端 安装 一 个 Agent 来 负责 将 主机 的 状态 告知 存 
储 系统 从 而 在 正确 的 时 机 生成 Snapshot， 或 者 由 人 为 干预 ， 在 生成 
Snapshot 之 前 将 应 用 程序 退出 或 者 静默 。 如 果 你 不 想 受 到 约束 ， 要 求 
景 影 师 随机 拍照 ， 拍 完 之 后 再 一 张 一 张 挑选 姿势 恰好 的 ， 那 么 也 没有 


问题 ， 这 就 对 应 了 在 存储 端 随机 生成 Snapshot， 乱 放 枪 ， 打 着 赚 了 ， 
打 不 着 也 不 浪费 什么 ， 但 是 要 查看 哪个 Snapshot 是 一 致 的 ， 哪 个 是 不 
一 致 的 ， 那 可 就 难 了 。 Snapshot 毕 竟 不 是 可 以 拿 在 手中 端详 的 照片 ， 
除非 另外 部 署 一 套 应 用 系统 ， 一 个 一 个 地 挂 载 Snapshot 卷 ， 一 次 一 次 
地 启动 应 用 程序 判断 ， 这 也 属于 无 事 生 非 。 至 于 抓拍 偷拍 ， 目 前 的 存 
储 系 统 可 没有 这 个 能 力 来 直接 感知 应 用 层 什 么 时 候 处 于 一 致 状态 ， 表 
说 也 用 不 着 这 样 ， 做 个 Snapshot 还 得 藏 着 掖 着 不 让 人 知道 。 


再 来 说 说 CDP 的 一 臻 性。 看 照片 是 看 瞬间 的 姿势 ， 看 电影 则 是 看 
情节 ， 电 影 的 情节 是 一 段 一 段 的 ， 漏 下 一 段 没 看 的 话 ， 就 感觉 很 不 爽 
了 。 此 时 你 需要 将 播放 器 的 滑动 条 往 回 拖 ， 拖 一 拖 ， 看 一 看 ， 再 拖 一 
拖 ， 再 看 一 看 ， 直 到 你 有 记忆 的 地 方 为 止 ， 接 着 往 下 看 。 这 个 场景 恰 
好 对 应 了 糊涂 兄 让 小 管 恢复 数据 的 那个 场景 ， 小 管用 二 分 法 尝试 了 N 
次 才 找 到 那 份 文档 的 最 后 时 间 点 的 影像 。 但 即便 是 这 样 ， 我 们 仍然 无 
法 确定 哪个 时 刻 的 影像 是 对 于 应 用 层 一 致 的 ， 因 为 底层 的 处 理 根 本 就 
无 法 感知 上 层 的 逻辑 ， 除 非 一 次 一 次 的 尝试 ， 但 是 这 样 做 却 是 费时 费 
力 而 且 也 失去 了 CDP 的 意义 。 所 以 说 ，CDP 虽 然 在 回溯 时 间 粒 度 上 比 
Snapshot 强 大 ， 但 是 在 保证 数据 一 致 性 方面 ， 却 不 如 Snapshot。 在 后 面 
的 产品 介绍 章节 中 我 们 就 会 看 到 ， 存 储 产 品 厂家 是 深刻 意识 到 这 一 点 
的 ， 所 以 它们 结合 了 CDP 和 Snapshot 的 优点 ， 将 二 者 整合 起 来 使 用 。 


利用 CDP 随 机 回溯 到 任何 一 个 时 间 点 之 后 所 得 到 的 数据 影像 ， 很 
大 几率 上 都 是 不 一 致 的 ， 此 时 ， 影 像 被 挂 载 到 主机 端 之 后 ， 一 定 要 经 
过 一 层 层 的 一 致 性 检查 。 一 致 性 检查 会 在 下 面 几 个 层次 上 依次 进行 : 
VM 卷 管理 层 ， 文 件 系统 层 ， 最 后 是 应 用 层 。 首 先是 VM 层 ，VM 是 一 
个 程序 ， 它 自身 需要 向 硬盘 上 写 入 MetaData 元 数据 用 以 记录 虚拟 换 和 
物理 卷 地 址 的 映射 关系 ， 如 果 这 些 数据 变 得 不 一 致 或 者 丢失 ， 轻 则 无 


法 挂 载 (这 也 是 为 何 Down 机 经 常 导致 操作 系统 无 法 启动 或 者 不 认 卷 、 
无 法 挂 载 卷 的 原因 ) ， 重 则 卷 边界 错乱 以 假 乱 真 。 所 以 VM 在 挂 载 某 
个 卷 之 前 一 定 要 对 其 进行 数据 一 致 性 检查 。VM 层 之 上 是 文件 系统 
层 ， 与 YM 同样 的 道理 ， 文 件 系 统 MetaData 同 样 要 经 过 一 致 性 检查 的 
步骤 ， 检 查 完成 之 后 方 可 被 挂 载 。 最 后 就 是 应 用 层 了， 应 用 层 人 逻辑 上 
的 不 一 致 只 能 够 靠 应 用 程序 自身 解决 。 在 一 层 层 一 致 性 检查 完成 之 
后 ， 系 统 方 可 恢复 工作 。 


2) 一 致 性 组 技术 


设想 这 样 一 个 应 用 程序 ， 它 需要 将 数据 存放 在 多 个 不 同 的 卷 中 ， 
而 且 这 多 个 卷 中 的 数据 有 相互 依存 关系 ， 哪 个 卷 中 的 数据 发 生 不 一 致 
或 者 丢失 ， 其 他 卷 中 的 数据 也 就 不 再 可 用 。 要 对 这 样 的 环境 做 
Snapshot 或 者 CDP 数 据 保护 ， 需 要 考虑 额外 的 步骤 ， 即 必须 保持 这 多 
个 卷 在 相同 的 时 刻 同 时 被 触发 APP &FS Aware Snapshot， 保 证 APP 和 
FS 层面 的 一 致 性 。 那 么 对 于 CDP 来 说 ， 由 于 CDP 的 先天 优势 ， 即 IO 时 
间 惟 ， 既 然 每 个 卷 的 IO 都 被 打 入 时 间 惟 ， 那 么 只 要 给 出 一 个 时 间 点 ， 
CDP 所 遍历 出 的 卷 影像 ， 其 上 的 IO 写 入 时 序 一 定 是 可 以 保证 严格 按照 
时 间 的 行进 排列 的 。 比 如 ，T1 时 刻 应 用 向 卷 1 写 入 了 数据 ， 然 后 T2 时 
刻 又 向 卷 2 写 入 了 数据 ， 当 用 CDP 恢 复 卷 1 到 T1 时 刻 之 后 ， 卷 2 则 必须 
也 恢复 到 T1 时 刻 。 虽 然 CDP 不 能 保证 任意 时 间 点 的 应 用 层 一 致 性 ， 但 
是 它 起 码 可 以 保证 底层 的 一 致 性 ， 然 后 靠 应 用 的 Replay 过 程 来 完成 最 
终 一 致 性 恢复 。 


一 致 性 组 技术 对 于 Snapshot 和 CDP 来 讲 其 实 并 不 需要 多 么 复杂 的 
额外 设计 ， 只 需要 将 相互 关联 的 多 个 卷 组 成 逻辑 组 ， 做 Snapshot 的 时 
候 保 证 同时 触发 即 可 ，CDP 则 更 是 无 须 做 什么 本 质 改变 ， 只 需要 在 程 
序 界 面 中 告诉 操作 员 哪 些 卷 在 一 个 组 中 即 可 。 


而 真正 需要 大 动 干戈 的 是 远程 异步 数据 复制 容 灾 系统 ， 多 个 关联 
益 的 效 据 一 致 性 问题 的 解决 需要 引入 更 复杂 的 一 致 性 组 技术 。 在 DR 系 
统 中 , “一致 性 组 ”将 有 两 个 含义 ， 下 文 以 及 本 书后 面 章节 会 详细 介绍 
一 致 性 组 技术 的 细 世 原理 。 


3) 关于 CDP 的 回溯 粒度 问题 的 论述 


不 少 人 认为 CDP 既 然 连 续 捕获 了 每 个 写 IO 并 且 打 入 时 间 戳 ， 那 么 
CDP 的 回溯 粒度 最 小 可 以 达到 一 个 IO 的 级 别 。 这 种 看 法 是 错误 的 ， 持 
有 这 种 观点 的 人 忽略 了 一 个 问题 ， 即 时 间 的 最 小 粒度 和 上 层 的 IOPS 
数 。 本 书 第 3 章 中 的 3.1.3 小 节 中 曾经 得 到 结论 ， 即 时 间 是 没有 最 小 单位 
的 ， 在 目前 的 认 知 领域 中 可 以 认为 其 是 无 限 连 续 的 。 


设想 这 样 一 种 情景 ， 某 CDP 设 备 所 接收 到 的 写 IOPS 为 每 秒 10000 
次 ， 也 就 是 说 平均 每 党 秒 会 有 10 次 IO。 如 果 这 个 CDP 设 备 的 恢复 粒度 
可 以 达到 一 个 IO 的 级 别 ， 即 分 辨 出 这 1 坚 秒 之 内 发 生 的 所 有 IO 的 先后 
顺序 ， 那 么 它 的 额定 时 间 戳 粒度 就 必须 至 少 设置 为 0.1 宫 秒 级 别 。 如 果 
收 到 的 写 IOPS 每 秒 100 万 次 (当然 目前 现 有 存储 系统 可 以 达到 这 种 级 
别 ，CDP 产 品 就 更 别提 了 ， 这 里 只 是 理论 推导 ) ， 则 要 达到 回溯 每 个 
IO 的 粒度 ， 时 间 戳 设 定 粒 度 就 要 设置 为 微 秒 级 别 了 ， 以 此 类 推 。 时 间 
戳 粒度 越 细 ， 维 护 的 开销 就 要 越 大 ， 耗 费 资源 越 大 ， 效 率 也 就 越 低 。 
但 是 如 果 非 要 实现 单个 IO 级 别 的 区 分 ， 也 不 是 没有 办 法 ， 如 果 对 每 个 
IO 标记 一 个 自然 数 序号 而 不 是 时 间 戳 ， 那 么 就 可 以 完全 分 开 每 个 IO 了 
〈 这 种 方法 同样 可 以 用 于 容 灾 技 术 中 的 一 致 性 组 技术 中 ， 参 考 本 书后 
面 章节 ) 。 此 外 ，IO 序 号 的 功能 不 仅仅 是 区 分 每 个 IO 先后 ， 而 且 它 的 
另 一 个 重要 作用 则 是 对 乱 序 接受 的 IO 进行 重 排 和 丢 包 监 测 〈 见 容 灾 一 
章 中 一 致 性 组 一 节 ) 。 由 于 数据 包 在 网 络 上 传输 的 时 候 有 可 能 是 乱 序 


到 来 的 ， 如 果 将 乱 序 的 IO 按照 顺序 奶 加 到 CDP 日 志 链 末尾 ， 那 么 所 保 
存 的 IO 也 是 乱 序 的 ， 这 样 不 管 怎 么 搞 都 不 可 能 做 到 时 序 一 致 。 


话 又 说 回来 ， 既 然 CDP 随 机 回溯 后 的 数据 一 致 性 本 来 就 几乎 不 可 
能 保证 ， 没 有 人 能 够 判断 在 哪 两 个 IO 之 间 切 开 时 数据 是 一 致 的， 所 以 
以 每 个 IO 为 回溯 粒度 ， 不 仅 没 有 必要 而 且 也 没有 意义 。 通 音 时 间 戳 粒 
度 设 置 为 毫秒 级 别 已 经 足够 。 


注意 : 只 用 时 间 戳 而 不 使 用 自然 数 序号 来 标记 IO 的 情况 下 ， 
不 能 够 保证 单个 IO 的 时 序 一 致 性 ( 见 本 书后 面 章节 对 一 致 性 
组 技术 的 讨论 ) ， 所 以 生成 的 LUN 影 像 也 将 会 是 时 序 不 一 致 
的 ， 而 这 种 不 一 致 是 最 严重 的 一 种 ， 可 以 导致 数据 库 类 应 用 
程序 甚至 操作 系统 都 无 法 启动 。 所 以 ， 一 个 CDP 系 统 设计 是 
否 考虑 了 数据 一 致 性 ， 是 非常 重要 的 考量 指标 。 所 以 ， 同 时 
使 用 序号 和 时 间 戳 才 是 解决 数据 时 序 一 致 性 错乱 的 有 效 方 
法 ， 序 号 用 于 区 分 单个 IO 的 时 序 ， 时 间 戳 则 只 用 来 定位 用 户 
给 出 的 大 致 的 影像 时 间 点 。 


然而 ， 即 便 是 同时 使 用 时 间 戳 和 序号 也 只 能 够 保证 全 局 日 志 连 模 
式 〈 见 下 文 ) 的 CDP。 对 于 每 个 块 均 对 应 一 个 日 志 链 的 CDP 系 统 ， 由 
于 块 与 块 之 间 的 日 志 链 之 间 互 相 独 立 ， 当 用 户 要 求 某 时 间 点 的 卷 影 像 
的 时 候 : CDP 系 统 就 需要 在 每 个 块 的 日 志 链 中 找到 用 户 所 要 求 的 这 个 
时 间 点 所 对 应 的 块 ， 此 时 间 题 就 出 现 了 : 每 个 块 日 志 链 的 序号 如 果 都 
各 自 计 数 的 话 ， 那 么 就 无 法 分 辨 块 与 块 之 间 的 先后 顺序 了 (不 像 全 局 
日 志 链 ) 。 此 时 的 解决 办 法 就 是 全 局 计数 ， 不 管 所 接收 到 的 IO 目标 是 
哪个 块 ， 每 接收 到 一 个 IO 计数 器 就 加 1 并 且 将 序号 保留 在 对 应 块 的 日 
志 链 中 。 


同时 使 用 IO 序号 和 时 间 戳 必定 会 耗费 不 少 资源 ， 为 了 提高 效率 ， 
有 些 厂 商定 时 在 每 个 块 的 日 志 链 中 做 标记 。 


理想 : 有 若干 条 豆腐 传送 带 ， 每 条 传送 带 上 接收 到 的 豆腐 速 
率 不 同 ， 形 状 也 不 同 ， 间 隔 也 不 同 ， 如 果 要 区 分 所 有 传送 带 
上 的 所 有 有 豆腐 的 到 达 先 后 ， 是 很 复杂 的 。 但 是 如 果 降低 粒 
度 ， 比 如 每 秒 记 录 一 次 ， 保 证 秒 与 秒 之 间 肯 定 是 先后 排列 
的 ， 但 是 一 秒 之 内 所 接收 的 豆腐 无 法 分 辨 其 先后 顺序 ， 这 也 
不 失 为 一 种 变通 方法 。 所 以 ， 在 这 些 传送 带 上 方 放 一 把 闻 
刀 ， 每 秒 切 下 一 次 ， 这 样 豆腐 不 管 是 什么 形状 ， 以 什么 速率 
到 达 ， 豆 腐 块 之 间 间 隔 多 少 ， 只 要 闸 刀 一 落下 ， 所 有 传送 市 
上 的 豆腐 此 时 都 被 定型 ， 每 秒 定 一 次 型 。 当 数据 回溯 的 时 


候 ， 只 能 恢复 到 每 次 定型 的 时 候 。 这 个 思想 就 是 “一 致 性 组 ” 
的 思想 。 (一 致 性 组 的 具体 内 容 可 以 在 容 灾 一 章 中 阅读 。) 


CDP 即 便 是 从 理论 上 来 讲 ， 也 不 可 能 做 到 每 个 应 用 程序 的 写 IO 都 
不 遗漏 。 因 为 有 缓存 机 制 的 存储 系统 层 都 有 一 种 所 谓 Delay Write 的 机 
制 ， 比 如 文件 系统 层 ， 某 时 刻 应 用 程序 要 求 更 改 文件 名 A 为 B， 这 个 要 
求 被 文件 系统 收 到 ， 文 件 系 统 会 读 出 这 个 文件 的 元 数据 ， 然 后 将 对 应 
的 部 分 更 改 。 但 是 更 改 之 后 的 dirty 数 据 块 先 不 急于 写 入 人 磁盘， 会 缓存 
一 段 时 间 ， 一 旦 在 这 段 时 间 内 ， 应 用 程序 再 次 发 起 请 求 ， 要 求 将 B 再 
改 为 C， 文 件 系统 接收 到 请 求 之 后 会 发 现 这 个 文件 的 元 数据 所 对 应 的 
最 新 数据 块 已 经 在 缓存 中 的 某 个 dirty 块 中 ， 则 文件 系统 直接 再 次 更 改 
这 个 dirty 块 使 其 二 次 dirty， 直 到 文件 系统 将 dirty 块 写 盘 之 前 ， 任 何 再 
次 的 更 改 请 求 都 会 直接 更 改 。 这 种 情景 为 “ 写 命 中 ”的 一 种 情况 (其 他 
情况 见 本 书后 面 章 节 ) 。 这 样 ， 应 用 程序 的 多 次 写 IO 请 求 ， 在 底层 却 


只 表现 为 文件 系统 的 一 次 写 IO 请 求 ， 如 果 CDP 是 作用 在 文件 系统 及 之 
下 的 层次 ， 那 么 这 样 的 CDP 系 统 就 不 能 截获 每 个 应 用 层 的 IO 了 。 


能 做 到 真正 意义 的 应 用 层 一 致 性 保障 的 以 及 最 细 粒 度 的 CDP 其 实 
就 是 基于 应 用 层 的 基于 Transaction 日 志 链 记录 的 CDP 系 统 ， 每 一 笔 改 
变 都 不 会 丢掉 ， 而 且 占 用 存储 空间 少 ， 只 不 过 针对 应 用 层 的 CDP 需 要 
针对 每 个 应 用 来 开发 ， 不 像 底层 CDP 一 样 具备 通用 性 。 在 此 是 否 可 以 
大 胆 想 象 一 下 : 今后 可 能 会 出 现 类 似 VSS 公 共 快 照 服 务 一 样 的 公共 
CDP 日 志 中 间 件 。 


通过 记录 日 志 的 方法 很 容易 做 到 一 致 性 保证 ， 但 是 对 于 使 用 分 块 
日 志 链 的 卷 级 的 CDP， 由 于 为 了 保证 任意 历史 版 本 可 以 瞬间 挂 载 读 
写 ， 不 可 能 采取 全 局 日 志 链 ( 见 下 文 ) 的 方式 ， 必 须 保 证 每 个 块 的 历 
史 版 本 都 可 迅速 定位 寻 址 。 这 样 的 话 ， 如 何在 这 些 众多 的 块 日 志 链 中 
迅速 地 抓 取出 一 份 具有 时 序 一 致 性 的 块 和 链 出 来 ， 成 了 一 大 技术 难题 。 
下 面 我 们 来 看 一 下 CDP 是 如 何 攻 破 这 个 技术 难题 的 。 


4) 自演 绎 的 一 招 一 一 疾风 镁 月 斩 

从 上 文中 的 * 切 豆腐 ?思想 ， 作 自己 推演 出 了 一 个 保证 CDP 回 溯 时 
时 序 一 致 性 的 模型 。 说 明 : 此 模型 完全 为 个 人 演绎 ， 如 与 某 专利 或 者 
厂商 实现 雷同 ， 纯 属 巧合 ， 请 勿 对 号 入 座 。 

在 如 图 16-36 所 示 的 二 维 象 限 中 ， 横 轴 是 时 间 轴 ， 纵 轴 上 的 每 个 点 
代表 某 个 LUN 或 者 卷 中 的 一 个 BlockvSectovCluster ， 有 具体 粒度 是 块 / 簇 


还 是 局 区 可 以 人 为 选择 ， 一 般 使 用 Block 作 为 最 小 单位 。 这 里 只 示意 了 
8 个 块 ， 并 不 表示 实际 情况 。 


图 16-36 ”疾风 镁 月 斩 关 系 模型 


在 没有 引入 CDP 之 前 ， 这 个 LUN 是 没有 时 间 轴 的 ， 此 时 整个 LUN 
殉 是 一 个 线性 的 由 所 有 Block 所 串 起 来 的 一 维 直 线 ， 不 可 回 湖 。 当 引入 
CDP 后 ， 时 间 轴 被 拉 开 ， 将 一 维 直线 拉 成 了 二 维 的 平面 ， 这 个 平面 就 
是 图 16-36 所 示 的 二 维 象 限 。 这 个 象限 中 的 每 个 点 B (Tn，Bn) 表示 卷 
中 对 应 的 Block 在 某 时 刻 的 内 容 ， 这 个 象限 的 本 质 其 实 就 是 一 个 CDP 分 
块 日 志 链 。 每 个 块 每 次 的 写 IO 内 容 都 被 记录 了 下 来 ， 每 个 块 在 每 个 时 
间 点 都 有 它 对 应 的 内 容 。T0 时 刻 表 示 CDP5 引 擎 启动 之 后 对 应 的 卷 影像 
时 刻 ， 即 尚未 有 任何 变化 的 时 刻 ，Too 时 刻 表 示 当 前 最 新 时 刻 。 采 用 
CoW 模 式 的 CDP 系 统 中 ， 当 前 时 刻 的 源 卷 影像 就 是 最 新 的 卷 影 像 。Tn 
表示 任何 一 个 介 于 T0 和 当前 时 刻 之 间 的 时 刻 ， 即 任 一 历史 时 刻 。 


F 这 个 函数 关系 没有 规律 可 循 ， 因 为 IO 顺序 、 间 隔 都 是 无 规律 可 
循 的 。 正 因 如 此 ， 可 以 看 到 所 有 块 日 志 链 中 的 历史 块 的 存在 形式 是 凌 
乱 而 没有 规律 的 ， 除 了 T0 时 刻 的 块 纵向 链 之 外 。 因 为 T0 时 刻 是 一 个 确 
定 的 时 刻 ，CDP 系 统 做 好 准备 接收 卷 ITO 的 那 一 刻 ， 就 是 T0 时 刻 。 但 是 
随后 的 时 间 中 ，IO 可 以 在 任意 时 间 点 到 达 任 意 块 ， 所 以 从 T0 之 后 就 再 
也 没有 规律 可 循 。 只 要 对 应 的 块 有 写 IO ， 那 么 第 一 个 被 CoW 出 来 的 块 
就 是 T0 时 刻 的 历史 块 ， 所 以 可 以 看 到 这 个 时 刻 的 纵向 块 链 是 整齐 排列 
的 。 另 外 ， 由 于 B3 这 个 块 从 未 被 修改 过 ， 所 以 它 的 日 志 链 为 空 ， 当 前 
的 B3 块 的 内 容 等 于 TO 时 刻 的 B3 内 容 。 


上 文中 多 次 说 过 ， 面 对 高 1IOPS 数 的 情况 下 ， 系 统 可 能 对 一 个 块 日 
志 链 中 先后 来 到 的 多 个 甚至 上 千 个 被 CoW 出 来 的 历史 块 打 入 同一 个 时 
间 戳 《或 者 使 用 时 间 戳 十 全 局 序号 法 来 避免 这 个 问题 ， 但 是 消耗 资源 
太 大 ) ， 那 么 此 时 整个 系统 就 不 可 能 分 辨 出 纵向 的 块 与 块 之 间 的 时 序 
先后 性 了 (横向 依然 可 以 分 辨 ,但 是 没有 意义 ) 。 上 文 也 提 到 过 ， 解 


决 这 个 问题 的 一 个 变通 方法 就 是 定时 地 在 所 有 块 日 志 链 中 做 标记 以 划 
靖 青 时 间 ] 线 。 


那么 大 家 来 看 一 下 ， 何 时 、 何 地 、 怎 么 来 做 标记 呢 ? 如 果 这 个 做 
标记 的 动作 发 生 在 后 台 ， 即 前 台 源 源 不 断 地 将 历史 块 存 入 日 志 链 之 后 
再 做 标记 的 话 ， 一 定 行 不 通 ， 因 为 此 时 你 已 经 无 法 分 清 到 底 该 在 哪 两 
个 块 之 间 切 开 了 ， 具 有 相同 时 间 戳 的 块 随处 可 见 ， 此 时 再 做 标记 已 经 
晚 了 。 那 就 只 能 在 前 台 做 标记 ， 也 就 是 说 在 被 CoW 出 来 的 历史 块 尚未 
与 到 日 志 链 之 前 ， 用 一 把 闸 刀 纵 同 地 在 所 有 块 日 志 链 上 挥 斩 一 下 ， 被 
斩 到 的 块 便 被 做 上 对 应 时 刻 的 标记 ， 之 后 这 些 已 经 标记 的 块 便 被 写 入 
对 应 的 日 志 链 。 以 不 同 的 频率 挥 刀 抢 斩 ， 就 可 以 做 到 不 同 粒度 的 CDP 
回溯。 


我 们 假设 CowW 出 来 的 块 会 按照 图 示 的 顺序 和 间隔 到 达 ， 如 图 16-37 
所 示 。Ta 时 刻 系统 做 了 一 次 斩 断 (对 应 到 专业 说 法 是 “采集 ”或 者 “ 采 
样 ") ， 其 中 B0、B2、B7 这 三 个 日 志 链 都 斩 中 了 块 ， 而 剩余 的 日 志 链 
斩 空 。 对 于 斩 中 的 块 ， 系 统 对 其 做 时 间 线 标记 然后 追加 到 日 志 链 末 
尾 。 对 于 新 空 的 日 志 链 ， 可 以 认为 当前 时 间 点 对 应 的 块 内 容 与 本 日 志 
链 下 一 个 即将 到 来 的 块 相同 ， 此 时 系统 可 以 沿 着 日 志 链 的 上 游 方向 监 
测 ， 如 果 在 线程 监测 的 时 间 段 内 恰好 有 刚 被 CoW 出 来 的 块 准备 存 入 该 

日 志 链 ， 则 线程 将 其 标记 纳入 本 次 斩 断 的 时 间 线 ， 如 果 在 监测 时 间 段 
内 没有 新 块 被 追加 到 该 日 志 链 ， 那 么 线程 需要 从 源 卷 将 对 应 的 块 内 容 
读 出 (注意 读 取 对 应 的 块 时 需要 考虑 线程 竞争 互 斥 ， 必 须 锁定 该 块 防 
止 新 数据 将 其 覆盖 ) ， 然 后 做 标记 纳入 本 次 时 间 线 ， 然 后 追加 到 日 志 
证 末尾 存放 。 


图 16-37 ”Ta 时 刻 挥 刀 抢 斩 


然而 ， 对 于 那些 更 新 频率 很 小 的 源 卷 块 来 讲 ， 每 次 斩 断 均 需 要 读 
取 源 卷 ， 每 次 读 出 的 内 容 都 相同 ， 除 非 对 应 块 被 更 改 ， 这 样 的 话 日 志 
链 中 将 会 有 很 多 多 余数 据 并 且 耗 费 额外 的 读 操 作 。 对 于 这 个 问题 ， 可 
以 使 用 另外 的 方法 来 解决 ， 比 如 对 每 个 由 于 斩 空 而 从 源 卷 读 出 并 追加 
到 日 志 链 的 块 ， 除 了 做 时 间 线 标记 之 外 ， 再 做 一 个 特殊 标记 来 表明 它 
的 特殊 性 ， 这 样 ， 当 下 一 次 斩 断 时 刻 到 来 的 时 候 ， 系 统 检 查 日 志 链 末 
尾 ， 如 果 末 尾 的 块 被 标记 为 这 种 特殊 块 ， 那 么 系统 只 需要 完成 日 志 链 
上 游 巡 检 《其实 就 是 向 CoW 绪 程 进行 查询 ) 阶段 即 可 。 如 果 巡 检 完 
之 后 未 发 现 已 被 CoW 出 的 块 ， 那 么 本 次 斩 断 时 间 线 可 以 直接 指向 日 志 
证 末尾 的 那个 块 而 无 须 再 次 复制 ， 节 约 了 资产 。 


在 图 16-37 中 ， 标 记 为 C 的 块 意味 着 此 块 是 从 当前 的 源 卷 中 复制 出 
来 的 ， 可 以 看 到 由 于 B3、B4、B5 这 三 条 日 志 链 在 挥 刀 抢 斩 的 时 刻 并 没 
有 CoW 出 的 块 到 来 ， 所 以 Ta 时 刻 对 应 的 块 的 内 容 就 是 源 卷 对 应 块 的 内 
容 ， 因 此 系统 从 源 卷 将 这 三 个 块 读 了 出 来 追加 到 日 志 链 末尾 存放 并 做 
时 间 线 标记 和 特殊 标记 。 被 标记 为 W 的 块 表示 相关 线程 沿 日 志 链 上 游 
方向 巡查 时 一 定 会 遇 到 该 块 ， 所 以 系统 会 等 待 (W) 该 块 的 到 来 ， 届 
时 会 将 其 作 时 间 线 标记 (不 做 特殊 标记 ) 。 这 里 的 所 谓 “ 等 待 ”其 实 并 
不 是 真正 的 去 等 待 ， 而 是 采样 线程 主动 地 查询 CoW 线 程 去 探测 是 否 
经 有 Cow 出 的 块 正 等 待 写 入 日 志 链 ， 如 果 有 则 去 获取 ， 没 有 则 按照 上 
文 所 述 的 逻辑 继续 处 理 。 


依 此 类 推 ， 在 Ta 十 b 和 Ta 十 c 时 刻 ， 系 统 又 做 了 两 次 斩 断 。 可 以 看 
到 ，B3、B4、B5 三 个 块 被 公用 了 ， 节 约 了 IO 资 源 ， 如 图 16-38 所 示 。 


图 16-38 ”定时 挥 刀 抢 斩 


我 们 对 图 16-38 做 一 些 抽象 工作 。 对 于 每 个 时 间 线 ， 沿 着 时 间 绪 所 
跨越 的 块 的 右边 界 划 线 ， 如 图 16-39 所 示 。 


图 16-39 划 定 时 间 线 


然后 ， 将 凡是 右边 界 不 贴 线 的 所 有 块 进行 炙 空 ,剔除 它 们 ， 只 留 
下 被 时 间 线 跨越 的 块 ， 如 图 16-40 所 示 。 


图 16-40 “” 镁 空 不 可 回溯 的 块 


然后 我 们 再 将 被 时 间 线 所 跨越 的 块 也 全 部 删 挤 ， 如 图 16-41 所 示 。 
这 样 ， 这 个 象限 中 只 剩 下 了 我 们 所 画 的 线条 。 可 以 将 这 个 线条 称 做 “ 回 
溯 线 ”。 只 有 右 侧 边 紧邻 回溯 绪 的 块 才 可 以 被 回 湖 ， 也 融 是 图 16-40 中 
所 包含 的 那些 块 。 


图 16-41 ”回溯 线 


回溯 线 是 纵向 延伸 、 横 向 上 有 所 浮动 的 线 ， 理 想 情 况 下 ， 每 次 斩 
断 所 生成 的 回溯 线 不 交叉 不 重合 ， 便 于 分 辨 ， 但 是 一 旦 遇 到 共享 块 ， 
那么 多 条 回溯 线 便 会 有 所 重合 和 交叉 。 回 漳 线 是 在 纵向 方向 上 将 这 一 
时 间 点 的 所 有 块 的 内 容 连接 成 为 一 个 完整 的 卷 影像 的 脉络 线 。 如 果 利 
用 快刀 斩 乱 麻 的 方式 来 鲁莽 地 将 日 志 链 切 分 ， 那 么 得 到 的 虽然 是 个 光 
滑 表 面 ， 但 是 这 个 光滑 的 表面 是 之 无 用 处 的 ， 不 能 保证 时 序 一 致 性 ; 
而 利用 疾风 钱 月 斩 所 生成 的 虽然 是 一 条 曲 多 拐弯 的 坑 洼 表面 ， 但 是 依 
附 在 这 个 表面 上 的 数据 块 都 是 带 有 时 序 一 致 性 的 。 


每 次 进行 回溯 的 时 候 ， 系 统 会 根据 用 户 所 指定 的 时 间 点 来 寻找 系 
统 中 离 用 户 给 出 的 时 间 上 点 最 为 接近 的 斩 断 点 ， 然 后 将 数据 回溯 到 此 
处 ， 这 样 即 可 保证 整个 卷 所 有 块 之 间 的 时 序 一 致 性 了 。 


另外 ， 本 招 之 所 以 被 称 为 “疾风 钱 月 斩 ”， 不 但 是 因为 其 像 疾风 一 
样 迅速 ， 而 且 还 因为 它 可 以 将 日 志 链 中 不 可 回溯 的 无 用 块 剔除 掉 以 节 
省 空间 。 


5) 改进 之 后 的 招式 一 一 迅雷 幻影 手 


疾风 铁 月 斩 在 斩 断 点 之 间 保 存 了 大 量 的 无 用 历史 块 ， 写 入 这 些 块 
需要 耗费 额外 的 IO 资源 。 与 其 先 写 入 再 钱 空 ， 为 何不 干脆 就 不 要 将 这 
些 明 知 后 来 将 要 被 镑 空 反 的 块 写 到 日 志 链 中 呢 ? 


思考 : 想象 一 下 ， 有 成 千 上 万 串 的 IO 在 不 断 的 下 落 ， 速 度 非 
常 快 ， 此 时 有 一 只 手 ， 它 能 够 以 迅雷 不 及 掩 耳 的 速度 将 某 个 
时 间 点 的 某 个 固定 横向 方向 上 的 正在 下 沙 的 IO 抓 取 出 来 ， 没 
被 抓 取 的 IO 块 随后 就 被 漂 炙 了 ， 只 保留 那些 被 抓 取出 来 的 
块 。 


是 的 ， 在 疾风 铁 月 斩 一 招 中 ， 负 责 斩 断 的 线程 和 负责 写 日 志 的 线 
程 之 间 沟 通 的 不 够 ， 导 致 效率 低下 。 如 果 让 斩 断 线程 作用 于 写 日 志 线 
程 之 前 ， 日 志 写 线程 只 写 入 那些 被 保留 的 数据 块 并 且 做 相应 标记 ， 这 
样 就 可 以 大 大 提高 效率 。 


且慢 ! 仔细 考虑 考虑 。 如 果 这 样 做 的 话 ， 那 么 在 两 次 采样 的 间 隐 
中 所 发 生 的 更 改 块 融 不 会 被 保 留 ， 可 能 在 某 个 采样 间 际 之 中 ， 某 个 块 
已 经 有 了 多 次 更 改 ， 而 都 没有 被 记录 下 来 。 这 样 ， 当 下 一 次 采样 点 
时 ， 如 果 恰 巧 没有 采 到 针对 这 个 块 的 更 新 块 ， 而 上 一 次 采样 时 的 块 是 
从 源 卷 复制 而 来 的 ， 那 么 本 次 采样 依然 会 将 回溯 线 贴 附 到 日 志 链 结尾 
的 上 一 次 采样 点 对 应 的 块 中 。 而 这 样 显然 是 错误 的 ， 因 为 这 个 块 在 之 


前 的 间 隐 中 已 经 有 了 多 次 更 新 ， 而 晚 于 这 些 更 新 时 间 点 的 采样 却 错误 
地 认为 采样 点 对 应 的 块 与 上 次 采样 相同 。 


所 以 ， 迅 雷 幻 影 手 这 一 招 ， 用 不 得 ! 只 能 先 留 底 ， 所 有 IO 一 个 都 
不 能 少 ， 后 删除 ， 后 台 处 理 ， 先 斩 后 奏 ! 


6) 一 次 修炼 之 后 的 新 套路 


之 前 的 招 法 都 是 基于 CowW 模 式 来 设计 的 ，CDP 服 务 端 不 停 的 
CoW， 这 样 的 话 如 何 保证 性 能 ?由 于 产生 额外 的 2 倍 写 惩罚 ， 相 当 于 
IOPS 和 带宽 耗费 变 为 不 启动 CDP 时 的 3 倍 ! 这 怎么 可 以 让 人 接受 呢 ? 
必须 无 条 件 转向 RoW 模 式 ， 有 再 大 的 技术 难题 ， 也 要 攻克 ! 我 们 之 前 
曾经 讨论 过 CowW 与 Row 方式 的 对 比 ，Row 耗 费 IO 资 源 ， 但 是 后 续 的 所 
有 访问 会 一 直 持 续 地 计算 资源 ， 但 是 这 个 结论 对 于 CDP 环 境 就 不 成 立 
了 ， 主 机 发 起 的 读 操作 不 会 落 到 CDP 镜 像 卷 上 ， 而 是 落 在 了 源 卷 ， 这 
样 根本 不 需要 CDP 来 处 理 什么 。 既 然 这 样 ， 如 果 在 CDP 环 境 下 使 用 
RoW 模 式 ， 那 么 将 不 会 影响 到 主机 IO。RoW 模 式 虽 然 不 适合 大 部 分 快 
照 设计 ， 但 却 非常 适合 CDP 设 计 ! 


此 外 ， 可 以 看 到 在 疾风 铁 月 斩 招 法 中 ， 首 次 采样 时 如 果 遇 到 某 个 
块 从 来 没 被 CoW 过 ， 那 么 需要 从 镜像 卷 中 将 其 复制 出 来 放 到 日 志 链 
中 ， 而 第 一 次 采样 时 基本 上 大 部 分 的 块 都 是 尚未 被 覆盖 过 的 ， 那 几 不 
是 等 于 需要 复制 出 镜像 卷 中 大 部 分 的 数据 块 到 日 志 链 中 ? 几乎 等 于 表 
将 镜像 卷 又 镜像 了 一 份 ! 在 首次 采样 的 短 短 时 间 之 内 需要 做 这 么 大 量 
的 事情 ， 从 空间 和 性 能 上 都 不 能 接受 ， 是 否 可 以 只 用 指针 来 指向 镜像 
卷 对 应 的 块 地 址 呢 ? 其 实 ， 首 次 复制 这 个 动作 是 有 苦衷 的 。 


试想 一 下 ， 一 旦 CDP 引 擎 (CowWw 或 者 Row 引擎 ) 发 生 故 障 ， 中 断 
工作 ， 而 源 卷 可 不 管 你 CDP 是 否 故 障 ， 它 还 是 在 不 断 地 被 写 入 。 


那么 此 时 有 两 种 处 理 办 法 。 第 一 种 处 理 方 式 是 主机 端的 IO 镜像 器 
停止 向 CDP 服 务 端 发 送 IO 数据 ， 等 CDP 恢 复 之 后 再 次 发 送 ， 如 果 这 样 
的 话 ， 从 故障 到 恢复 这 期 间 的 数据 变化 就 无 法 被 同步 到 CDP 上 的 镜像 
卷 了 。 融 算 CDP 恢 复 之 后 ， 再 次 采样 ， 那 么 所 生成 的 历史 时 刻 影像 融 
是 不 一 致 的 ， 因 为 缺失 了 一 段 历史 ， 在 采集 之 前 必须 补 回来 才 可 以 。 
解决 这 个 问题 的 办 法 是 在 主机 端 IO 镜像 器 设计 一 个 位 图 用 于 追踪 断 开 
与 恢复 之 间 的 数据 变化 ， 当 恢复 之 后 ， 首 先 利 用 这 个 追踪 位 图 将 这 些 
变化 的 块 不 断 地 传送 到 CDP 端 覆盖 到 镜像 卷 ， 同 时 不 断 地 记录 正在 发 
生 的 源 卷 改 变 ， 之 后 不 断 地 仍 赶 ， 最 终 达 到 收 玖 状态 ， 双 方 严格 同 
步 ， 然 后 再 启动 采样 进程 开始 采样 。 但 是 恢复 之 后 的 采样 进程 在 首次 
采样 时 也 依然 需要 将 镜像 卷 中 对 应 的 块 复制 出 来 放 到 日 志 链 中 ， 这 又 
会 占用 大 量 的 存储 空间 。 


提示 : 这 样 做 的 好 处 是 : CDP 故 障 之 前 的 历史 版 本 都 还 可 
用 ， 因 为 当时 首次 采样 时 做 了 复制 留 底 而 不 是 用 指针 指向 镜 
像 卷 ， 所 以 ，CDP 故 障 期 间 所 丢失 的 历史 时 刻 数 据 仅仅 是 故 
障 到 恢复 期 间 这 段 时 间 的 历史 。 所 以 ， 如 果 首 次 采样 时 只 
指针 指向 镜像 卷 对 应 的 块 ， 那 么 当 镜 像 卷 上 的 某 些 块 发 生 覆 
盖 的 时 候 ， 指 针 就 无 效 了 ， 之 前 的 历史 版 本 数据 也 就 都 随 之 
泽 火 了 。 


第 二 种 处 理 方 式 是 : 当 CDP 引 擎 发 生 故障 时 ， 主 机 端 IO 镜像 器 依 
然 源源 不 断 地 将 写 IO 发 送 过 来 ， 此 时 这 些 IO 会 直接 覆盖 镜像 卷 上 对 应 
的 块 ， 因 为 此 时 由 于 CDP 故 障 而 做 不 了 拷 出 或 者 重 定向 动作 了 ， 如 果 
当初 没有 首次 采样 复制 而 只 是 用 了 指针 ， 那 么 之 前 的 指针 与 现在 的 实 


际 数据 的 时 序 一 致 性 将 无 法 得 到 保证 了 ， 因 为 镜像 卷 已 经 受到 了 “ 污 
染 ”。 所 以 ， 之 前 所 有 的 历史 版 本 数据 此 时 也 同样 都 将 不 再 可 用 。 


如 果 使 用 指针 ， 那 么 故障 之 后 当 CDP 引 擎 恢复 时 ， 就 必须 从 头 开 
台 ， 之 前 所 有 保存 的 历史 数据 版 本 都 不 可 用 。 而 如 果 首 次 采样 时 复制 
一 份 基线 版 本 出 来 ， 那 么 就 算 CDP 引 擎 暂时 停止 工作 ， 也 只 是 导致 从 
停止 那 一 刻 到 恢复 那 一 刻 起 这 之 间 的 历史 时 刻 不 可 回溯 ， 再 往 前 或 者 
再 往 后 的 版 本 都 可 以 回溯 。 另 外 ， 不 管用 指针 还 是 首次 复制 方式 ， 当 
CDP5 引 擎 恢复 之 后 ， 需 要 以 当前 时 刻 的 镜像 卷 为 基线 版 本 重新 开始 采 
样 ， 这 也 就 意味 着 不 能 与 之 前 首次 复制 的 块 公 用 了 。 这 样 做 显然 是 非 
常 浪费 空间 的 ， 可 以 估算 日 志 卷 至 少 是 源 卷 的 一 倍 大 小 ， 这 是 至 少 。 
要 真正 跑 起 来 ， 了 恐怕 得 1.5 倍 而 且 还 得 期 望 CDP 引 擎 不 要 中 断 ， 中 断 了 
再 恢复 如 果 还 想 保留 以 前 的 历史 版 本 的 话 那 就 得 2 倍 起 了 。 


鉴于 首次 复制 方式 太 过 浪费 空间 ， 也 无 法 让 人 承受 ， 只 好 退 而 求 
其 次 ,一 旦 CDP 故 障 或 者 中 断 ， 那 么 在 CDP 恢 复 之 前 ， 用 户 可 以 选择 
将 某 几 个 关键 时 间 点 的 数据 影像 备份 下 来 ， 然 后 再 恢复 CDP 运 行 。 恢 
复 之 后 ， 所 有 历史 版 本 数据 将 被 删除 重 来 ， 但 是 CDP 服 务 端 的 镜像 卷 
可 以 保留 ， 主 机 端的 10 镜像 器 可 以 在 CDP 中 断 工作 期 间 记 录 变更 位 
图 ， 当 CDP 再 次 启动 之 后 ， 主 机 端 可 以 只 将 变更 的 块 再 次 同步 过 来 即 
可 。 


经 过 上 面 两 层 的 修炼 之 后 ， 我 们 有 了 结论 : 必须 使 用 Row 方式 ， 
必须 抛弃 首次 复制 的 做 法 ， 改 用 指针 。 我 们 下 面 看 一 下 Row 十 首次 指 
针 模 式 下 CDP5 引 警 的 工作 流程 。 


如 图 16-42 所 示 为 Row 十 无 首次 复制 模式 下 采样 示意 图 。 


图 16-42 ”RoW 十 无 首次 复制 模式 下 采样 示意 图 


T0 时 刻 的 块 链 〈 卷 ) ， 也 就 是 图 中 所 示 的 CDP 引 擎 开始 采集 的 那 
一 瞬间 的 基线 卷 版 本 。 当 采集 尚未 开始 时 ， 人 
接 覆 盖 于 其 上 ， 不 产生 RoW 动 作 。 一 旦 来 集 线 程 开 始 工 作 时 ， 那 一 
ee i i 
加 到 每 个 块 的 日 志 链 中 。 每 隔 一 段 时 间 ， 采 样 线 程 触发 采样 。 


A de 
以 确认 是 否 当 前 时 刻 存 在 即将 被 RoW 入 日 志 链 的 数据 块 ， 也 就 日 志 写 
线程 已 经 对 外 面 返回 ACK 写 成 功 信号 但 尚未 写 到 日 志 中 的 数据 块 。 如 
果 得 到 日 志 写 线程 的 回馈 说 没有 ， 那 么 采样 线程 直接 对 日 志 链 尾部 的 
块 做 标记 ， 将 其 标记 为 本 次 采样 的 命中 块 。 


本 例 中 ， 对 于 B0、B1、B2、B5、B6 这 5 个 块 的 日 志 链 ， 采 样 线程 
A en rid i 
前 的 RoW 的 块 〈 本 例 中 T1 时 刻 这 几 个 块 的 日 志 链 为 空 ) ， 所 以 采样 线 
eet i te 个 指针 记 
录 ) ; 对 于 B3、B7 的 日 志 链 ， 采 样 点 时 恰好 采 到 了 日 志 链 末尾 的 一 个 
RoW 过 来 的 块 ， 标 记 之 ; 对 于 B4 的 日 志 链 ， 采 样 点 时 刻 并 未 发 现 日 志 
链 末 尾 有 RoW 的 块 ， 但 是 通过 查询 日 志 链 写 线程 ， 得 到 回馈 ， 正 有 一 
个 RoW 的 块 要 被 写 入 日 志 链 ， 所 以 采样 线程 等 待 日 志 写 线程 成 功 将 这 
个 块 写 入 日 志 链 之 后 ， 对 其 进行 标记 。 至 此 ，T1 时 刻 采样 完成 。 


T2 时 刻 再 次 触发 采样 。 同 样 ， 采 样 线程 首先 查询 日 志 瑟 线程 得 到 
有 哪些 块 的 日 志 链 将 要 有 RoW 的 块 被 瑟 入 ， 对 于 那些 有 RoW 块 即将 被 
写 入 的 日 志 链 ， 采 样 线程 就 等 待 其 写 入 ;对 于 那些 没有 Row 即将 被 写 
入 的 日 志 链 ， 采 样 线程 直 接 对 日 志 链 末尾 的 块 进行 标记 ， 标 记 为 本 次 


采样 的 命中 块 。 如 果 遇 到 尚 为 空 的 日 志 链 ， 则 在 日 志 链 尾部 生成 指针 
指向 TO 时 刻 源 卷 对 应 的 块 。 


之 后 的 所 有 采样 点 都 依 此 类 推 ， 执 行 同样 的 过 程 。 同 时 ， 系 统 可 
以 局 动 一 个 后 台 进 程 ， 专 门 对 日 志 链 中 没有 被 采样 点 采 中 的 块 进行 钱 
空 操作 ， 将 其 删 掉 以 节约 空间 。 删 掉 之 后 就 变 成 了 如 图 16-43 所 示 的 样 
子 ， 每 条 采样 线 粘 住 的 块 链 就 是 这 个 时 刻 这 个 卷 的 历史 影像 了 。 经 过 
再 次 抽象 ， 将 粘 住 的 块 也 腐蚀 反之 后 ， 只 剩 下 了 抽象 的 回溯 线 ， 系 统 
只 能 回溯 到 这 些 线 所 代表 的 时 刻 以 及 块 链 ， 也 就 意味 着 只 有 右 侧 紧 贴 
回溯 线 的 块 才 可 以 被 回 郑 。 


图 16-43” 先 斩 后 镁 及 镁 空 后 显现 出 来 的 回溯 线 


CDP 引 擎 必须 作用 于 整个 CDP 服 务 端的 总 IO Queue 之 下 ， 缓 存 之 
前 。 即 在 Queue 这 个 水 渠 处 做 拘 断 ， 这 样 才 可 以 分 辨 出 每 个 IO 的 时 序 
先后 然后 严格 按照 时 序 下 发 到 日 志 链 中 ， 从 而 让 采样 线程 中 相关 时 序 
逻辑 的 作用 结果 达到 预期 。 如 果 等 到 所 有 IO 都 进入 了 缓存 ， 然 后 再 将 
各 个 块 内 容 下 发 到 日 志 链 ， 那 么 此 时 就 像 大 海 捞 针 一 样 ， 无 法 分 辨 出 
时 序 ， 所 下 发 的 IO 都 是 乱 序 的 。 日 志 写 线程 为 了 保证 每 个 IO 被 按照 顺 
序 写 入 日 志 链 ， 也 要 耗费 一 定 资源 ， 比 如 在 写 入 数据 之 前 ， 需 要 把 所 
有 待 写 入 的 IO 数据 块 做 成 一 条 按时 间 先 后 排列 的 链 ， 然 后 依次 下 发 ， 
这 样 是 非常 低 效 的 ， 必 须 进 行 流程 优化 。 


一 步 优 化 流程 : 在 总 Queue 的 尾部 处 执行 Suspend 暂 挂 ， 当 然 暂 
人 I Queue 不 断 充 满 。 当 拘 住 点 之 下 的 
IO 全 部 写 到 日 志 链 中 之 后 ， 采 集 线 程 立刻 做 采集 ， 采 集 完 毕 ， 回 漳 线 
生成 之 后 ， 总 Queue 解 除 暂 挂 。 这 样 ， 数 据 按照 批 次 来 写 入 日 志 链 ， 


这 一 个 批 次 之 内 的 IO 不 需要 分 辨 时 序 ， 但 是 批 次 与 批 次 之 间 是 严格 按 
照 时 序 先 后 发 生 的 ， 每 一 批 次 的 IO 被 写 入 日 志 链 之 后 ， 再 进行 采集。 
这 样 做 ， 不 但 可 以 简化 日 志 写 线程 的 设计 以 及 流程 ， 同 时 也 简化 了 采 
集 线 程 的 设计 与 流程 ， 因 为 采集 线程 此 时 不 需要 沿 着 日 志 链 向 上 游 巡 
查 了 ， 也 就 是 说 采集 线程 在 采集 时 不 需要 向 日 志 写 线程 进行 查询 操作 
了 。 


此 外 ， 除 了 在 CDP 服 务 端 存储 阵列 的 总 IO Queue 处 实现 暂 挂 外 ， 
还 可 以 定期 的 在 主机 端 相 应 的 层次 ， 比 如 文件 系统 处 、 各 种 应 用 程序 
处 实现 一 致 性 刷 盘 暂 挂 ， 待 CDP 采 集 线 程 采集 标记 完 后 解除 暂 挂 ， 这 
样 就 可 以 实现 完全 应 用 层 的 一 致 性 了 ， 这 些 采 样 点 便 是 应 用 层 一 致 
的 。 不 过 这 种 采样 不 可 多 做 ， 因 为 会 对 应 用 产生 影响 ， 定 期 做 即 可 。 
这 样 ， 在 日 志 链 中 既 可 以 保证 若干 份 应 用 层 一 致 的 影像 ， 又 可 以 保证 
一 致 性 层次 较 低 的 大 量 其 他 历史 时 刻 的 影像 。 


批量 IO 以 保证 时 序 一 致 性 的 做 法 是 个 通用 做 法 ， 已 经 用 于 数据 远 
程 复 制 技术 中 。 这 种 技术 又 被 称 为 “一 致 性 组 技术， 关于 这 一 技术 更 
详细 的 阐述 请 见 本 书后 面 的 章节 。 


经 过 这 样 的 流程 优化 之 后 ， 系 统 就 可 以 利用 有 限 的 资源 生成 更 高 
频率 的 采样 ， 降 低 CDP 的 回溯 粒度 到 秒 级 甚至 更 低 。 


7) 二 次 修炼 之 后 的 最 终 招式 一 一 雕 心 炙 月 幻影 斩 


之 前 所 列 出 的 招式 ， 无 一 例外 都 需要 在 块 日 志 链 中 做 动作 ， 标 记 
对 应 的 块 。 但 是 仔细 思考 一 下 之 前 的 模型 ， 每 个 块 都 有 一 条 物理 上 的 
日 志 链 ， 那 么 一 开始 要 为 每 个 块 的 日 志 链 分 配 多 少 空间 呢 ? 如 果 某 个 
块 频繁 被 更 新 导致 其 日 志 链 迅速 充满 ， 此 时 如 何 解 决 ? 另外 一 个 问题 


是 ， 每 次 采样 时 需要 对 所 有 的 块 做 标记 ， 需 要 做 大 量 的 写 入 动作 ， 而 
且 这 些 写 入 都 属于 随机 IO 类 型 ， 那 么 此 时 如 何 保证 IO 性 能 ”针对 以 上 
两 个 问题 ， 虽 然 可 以 有 各 种 技术 手段 解决 ， 但 是 其 效率 将 会 是 非常 低 
的 ， 尤 其 是 IO 效率 上 ， 将 会 使 整个 系统 运行 缓慢 。 


如 图 16-44 所 示 为 分 块 日 志 链 与 全 局 日 志 链 的 物理 结构 比较 ， 很 显 
然 ， 对 分 块 日 志 链 的 写 入 动作 将 会 非常 耗费 资源 ， 但 是 写 入 全 局 日 志 
链 就 不 用 考虑 那么 多 了 ， 所 有 分 块 的 Row 的 IO 只 要 追加 到 日 志 链 末尾 
即 可 。 但 是 这 样 做 又 不 利于 快速 寻 址 ， 也 就 不 可 能 实现 瞬间 挂 载 历史 
时 刻 的 影像 。 那 么 有 没有 什么 办 法 将 这 两 种 模式 的 优点 相 结合 呢 ? 


图 16-44 “分 块 日 志 链 与 全 局 日 志 链 


答案 似乎 已 经 浮 出 水 面 了 。 如 果 把 分 块 日 志 链 的 这 个 框架 全 部 搬 
到 内 存 中 ， 做 成 一 张 分 块 日 志 链 表 ， 而 底层 实际 数据 的 存储 使 用 全 局 
日 志 链 的 模式 来 存储 ， 在 分 块 日 志和 链表 中 不 保留 实际 数据 块 而 只 保留 
数据 块 在 全 局 日 志 空 间 的 地 址 指针 ， 那 么 就 可 以 完美 地 解决 效率 问题 
了 。 


如 图 16-45 所 示 为 全 局 日 志 链 存储 结构 与 分 块 日 志 元 数据 链 结合 
后 的 新 模型 。 通 俗 一 点 说 ， 每 个 块 的 RoW 的 IO 到 来 之 后 全 部 顺序 追加 
到 日 志 空 间 末 尾 ， 属 于 一 种 完全 连续 IO， 同 时 在 分 块 元 数据 日 志 链 中 
将 每 个 RoW 块 被 写 入 到 日 志 空 间 内 的 地 址 措 针 记录 下 来 并 且 追 加 到 每 
个 块 日 志 元 数据 链 的 末尾 ， 由 于 这 个 动作 是 在 内 存 中 完成 ， 不 需要 对 
磁盘 进行 额外 IO 操作 ， 所 以 可 以 保证 性 能 。 


图 16-45 ”全 局 日 志 链 存储 十 分 块 元 数据 链表 


在 每 次 采样 点 时 ， 系 统 也 只 会 在 分 块 元 数据 日 志 链 中 做 标记 ， 而 
不 需要 去 日 志 存 储 空间 内 相应 的 块 上 做 标记 了 ， 也 避免 了 无 谓 的 磁盘 
IO 消耗 。 采 样 点 之 间 的 无 用 块 可 以 在 后 全 将 其 铁 空 掉 以 降 低 日 志 空 间 
的 耗费 ， 同 时 分 块 元 数据 链 中 的 对 应 这 些 无 用 块 的 指针 也 可 以 被 删 掉 
以 降低 元 数据 链 的 容量 和 复杂 度 ， 加 速 寻 址 速度 。RoW 线 程 维 护 一 个 
对 日 志 空间 的 Space Bitmap 来 充分 利用 被 删除 的 无 用 块 后 所 腾 出 来 的 
空余 空间 。 分 块 元 数据 日 志 链 相当 于 给 无 法 直接 迅速 寻 址 的 、 顺 序 保 
存 的 Row 数据 块 空间 创建 了 一 份 类 似 于 文件 系统 思想 的 、 可 迅速 寻 址 
的 元 数据 链 。 全 局 日 志 链 底层 的 每 个 Row 数据 块 都 是 完全 随机 排 布 
的 ， 没 有 按照 每 个 块 来 划分 ， 但 是 这 不 重要 。 正 像 文件 系统 中 的 文件 
在 底层 也 可 以 是 完全 随机 分 布 一 样 ， 只 要 有 一 条 清 清楚 楚 的 元 数据 链 
图 纸 ， 按 图 索 戏 就 可 以 将 对 应 的 块 串 成 一 条 按照 历史 时 间 先 后 顺序 排 
列 的 链 了 。 


相对 于 之 前 的 “疾风 镁 月 斩 ” 所 用 的 这 内 元 数据 记录 方式 (直接 将 
日 志 链 按照 分 块 来 排 布 而 不 是 全 局 排 布 ， 并 且 直 接 在 分 块 日 志 链 的 数 
据 块 上 增加 标记 ) ，“ 雕 心 铂 月 幻影 斩 " 则 属于 一 种 融 外 元 数据 记录 方 
式 ， 其 好 处 是 对 实际 数据 的 排 布 方式 没有 限制 ， 可 以 按照 最 优 的 模式 
来 排 布 。 


分 块 元 数据 链表 虽然 存放 的 全 部 都 是 地 址 指针 以 及 相应 的 标记 ， 
容量 远 小 于 实际 数据 日 志 ， 但 是 其 容量 也 是 不 可 忽视 的 ， 需 要 为 其 提 
供 一 个 专门 的 存储 空间 。 为 了 保证 性 能 ， 元 数据 链 全 部 载 入 内 存 ， 所 
有 的 更 改 在 内 存 中 进行 ， 刷 盘 时 间 可 以 适当 提高 而 不 必 频 繁 刷 盘 。 频 
繁 刷 盘 意 义 不 大 ， 因 为 如 果 CDP 服 务 器 发 生 故 障 、 宕 机 之 后 ， 需 要 做 
重新 同步 ， 同 步 之 后 ， 之 前 所 有 的 历史 时 刻 影 像 均 会 被 抹 除 。 


挂 载 某 历史 采样 点 的 影像 之 后 ， 针 对 影像 中 某 个 块 的 IO 操作 ， 均 
需要 查询 分 块 元 数据 链 来 寻找 对 应 采样 点 回溯 线 上 对 应 的 块 的 地 址 指 
针 ， 然 后 通过 这 个 指针 到 全 局 日 志 链 中 将 对 应 地 址 的 块 内 容 读 出 并 且 
返回 给 主机 端 。 如 果 遇 到 针对 这 份 虚拟 影像 的 写 操 作 ， 那 么 就 像 之 前 
一 样 ， 再 次 对 这 些 二 次 写 操作 进行 RowW， 形 成 新 的 日 志 链 ， 也 就 是 日 
志和 链 上 某 个 历史 时 刻 的 分 支 日 志和 链 ， 也 束 相 当 于 历史 回 退 之 后 ， 从 回 
退 点 再 次 向 前 发 展 ， 将 所 有 的 发 展 用 相同 的 方法 记录 下 来 ， 从 而 使 得 
对 虚拟 影像 的 变更 也 可 以 回 退 。 或 者 选择 将 当前 的 虚拟 影像 同步 到 一 
个 新 存储 空间 ， 比 如 主机 直接 从 这 份 虚拟 影像 启动 ， 然 后 将 这 份 影 像 
同步 到 本 地 启动 盘 ， 同 步 之 后 再 切换 到 本 地 盘 启 动 ， 这 就 是 一 个 典型 
的 本 地 操作 系统 或 者 物理 故障 之 后 的 迅速 恢复 过 程 。 


从 上 面 的 模型 不 难看 出 ， 对 CDP 虚 拟 影 像 卷 的 读 IO 操 作为 完全 随 
机 的 IO 类 型 ， 因 为 历史 时 刻 的 块 是 完全 随机 分 布 在 全 局 块 日 志 链 中 各 
个 位 置 的 ， 这 也 就 会 导致 性 能 很 低 ， 请 意识 到 这 一 点 。 但 是 对 其 的 写 
入 操作 由 于 会 被 不 断 地 追加 到 日 志 链 末尾 ， 属 于 一 种 连续 IO 类 型 ， 所 
以 上 层 的 写 IO 不 管 原生 状态 有 多 么 离散 随机 ， 到 了 地 层 全 部 变 为 连续 
IO， 从 这 种 角度 来 看 ，CDP 服 务 端 至 少 不 会 被 随机 写 IO 所 拖 慢 ， 反 而 
还 可 能 比 主 存储 的 响应 时 间 更 快 。 不 仅 对 虚拟 影像 的 写 入 操作 时 如 
此 ， 所 有 CDP 所 接收 的 写 IO 在 底层 均 被 连续 化 处 理 ， 充 分 屏 浅 了 写 IO 
的 原生 随机 性 ， 这 样 就 可 以 大 大 降低 随机 IO 对 系统 性 能 的 影响 ， 随 机 
度 完 全 被 体现 在 分 块 元 数据 链 中 。 


8) CDP 和 快照 的 生态 关系 


我 们 回头 看 一 看 16.2.3 节 中 对 快照 底层 的 演绎 ， 发 现 CDP 和 快照 其 
实 本 是 同根 生 ， 快 照 是 用 一 个 全 局 IO 仓库 卷 和 多 份 映 射 表 来 维持 块 映 
射 天 系 ， 而 CDP 则 是 用 多 份 日 志和 迹 和 多 个 回溯 线 来 维持 块 映射 天 系 。 


CDP 中 的 回溯 线 相当 于 快照 系统 中 的 块 映 射 表 ， 每 次 生成 一 份 快 照 都 
需要 新 建 一 份 新 映射 表 ， 同 样 ， 每 次 生成 一 个 可 回溯 点 ， 也 需要 生成 
一 条 回溯 线 。 快 照 是 个 照相 机 ， 而 CDP 则 是 个 摄像 机 ， 摄 像 机 与 照相 
机 的 区 别 就 是 摄像 机 每 秒 可 以 过 24 张 胶片 ， 生 成 每 秒 24 帧 的 可 以 骗 过 
观众 眼睛 的 影片 。 电影 尚且 有 每 秒 24 帧 的 粒度 ， 那 么 CDP 是 不 是 也 可 
以 使 用 某 种 粒度 来 满足 用 户 需求 呢 ? 一 个 道理 ， 没 有 必要 记录 到 自然 
界 的 每 一 个 微小 的 位 移 ， 就 像 没有 必要 记录 每 一 个 IO 一 样 。 


CDP 的 主要 价值 还 是 体现 在 本 地 和 远程 容 灾 ，CDP 自 身 这 个 技术 
只 是 一 个 收 子 。 两 分 钟 做 一 个 快照 ， 保 留 30 份 或 60 份 ， 也 就 是 可 以 以 
两 分 钟 的 粒度 回溯 最 近 一 个 或 者 两 个 小 时 内 的 数据 ， 或 者 比如 半分 钟 
一 次 快照 ， 保 留 一 个 小 时 的 ， 再 早 的 通过 磁带 等 其 他 备份 介质 来 恢 
复 ， 这 样 算 不 算 CDP? 也 差不多 。 


思考 : 以 特定 频率 生成 回溯 线 的 CDP 系 统 ， 就 是 所 谓 Near 
CDP。 本 质 上 其 实 就 相当 于 高 频 度 的 快照 。 所 以 说 ， 我 们 经 
过 这 场 游历 之 后 ， 最 终 发 现 : CDP 是 快照 的 进化 形态 ， 粒 度 
的 大 小 是 评价 它 是 快照 还 是 Near CDP 或 者 是 Pure CDP 的 唯一 
标准 ， 粒 度 并 没有 一 个 界限 ， 正 因 如 此 ，CDP 和 快照 之 间 是 
一 个 随 着 粒度 变化 而 连续 变化 的 形态 。CDP 相 对 于 快照 并 没 
有 本 质 上 的 进化 。 所 以 ， 目 前 市 场 上 的 CDP 产 品 本 质 上 都 是 
Near CDP。 如 果 有 人 宣称 他 可 以 回溯 每 个 IO 做 到 真正 的 Pure 
CDP， 基 本 上 是 在 忽悠 你 ， 因 为 就 算 底层 实现 了 回溯 每 个 
IO ， 用 户 也 不 可 能 一 个 IO 一 个 IO 的 来 回溯， 没有 实现 的 必 
cS 


9) CDP 产 品 对 应 用 层 一 致 性 的 解决 办 法 


上 文中 给 出 了 解决 IO 时 序 一 致 性 的 方法 。 然 而 ， 仅 仅 保 证 时 序 一 
致 性 已 经 无 法 满足 用 户 需求 了 。 保 证 了 时 序 一 致 性 ， 与 突然 宕 机 没有 
本 质 区 别 ， 突 然 宕 机 之 后 硬盘 上 的 数据 也 是 具有 时 序 一 致 性 的 ， 但 是 
对 于 数据 库 等 应 用 来 讲 ， 宕 机 10 次 ， 大 概 会 有 2 次 导致 数据 库 无 法 启 
动 ， 需 要 从 备份 中 恢复 。 所 以 ，CDP 系 统 最 好 可 以 提供 应 用 层 一 致 性 
解决 办 法 。 


要 解决 应 用 层 一 致 性 问题 ， 必 须 与 应 用 层 来 交互 ， 也 就 是 说 必须 
在 主机 端 安装 一 个 代理 程序 。 有 两 种 办 法 来 解决 : 第 一 种 是 代理 程序 
监控 文件 系统 的 Flush 点 ， 在 每 次 Flush 完 成 之 后 ， 立 即 通知 CDP 系 统 ， 
CDP 引 擎 便 在 当前 日 志 链 中 对 当前 时 间 点 进行 标记 ; 第 二 种 办 法 则 是 
直接 与 应 用 程序 进行 交互 ， 比 如 代理 程序 向 对 应 的 应 用 程序 发 送 Clear- 
Up/Flush 请 求 ， 完 成 之 后 便 通 知 CDP 引 擎 在 日 志 链 当前 点 上 做 标记 。 
这 两 种 方式 中 ， 后 者 对 应 用 系统 有 一 定 影响 ， 随 着 标记 点 的 频 度 提 
高 ， 应 用 的 Flush 频 度 也 越 高 ; 前 者 则 具有 一 定 的 普 适 性 ， 作 用 在 文件 
系统 处 ， 至 少 能 够 保证 文件 系统 这 一 层 的 一 致 性 ， 但 是 仍然 不 能 彻底 
保证 应 用 一 致 性 ， 只 有 后 者 才能 做 到 真正 端 到 端的 一 致 性 。 用 户 进行 
回溯 的 时 候 ， 可 以 选择 回溯 到 这 些 列 出 的 一 致 点 处 。 


保证 应 用 层 一 致 性 就 像 在 观看 视频 时 所 执行 的 回溯 动作 ， 回 溯 点 
处 所 对 应 的 图 像 帧 所 表达 的 意义 ， 可 能 是 杂乱 无 章 的 。 比 如 某 人 的 手 
正 处 于 半空 中 想 要 做 些 什 么 ， 但 是 观众 单 从 这 一 帧 图 像 来 判断 的 话 可 
能 根本 无 法 预测 这 个 人 要 干什么 ， 此 时 这 一 帧 图 像 对 于 观众 来 讲 就 是 
不 一 致 的 。 如 果 将 视频 回溯 到 这 个 点 ， 让 视频 中 的 事件 从 这 个 点 开始 
继续 演化 ， 那 么 此 时 系统 就 无 法 判断 出 这 个 人 的 手 为 何 此 时 处 于 半空 
中 ， 他 是 想 抬 起 来 还 是 想 放 下 去 呢 ? 更 不 知道 这 个 人 此 时 具体 想 要 做 
什么 。 但 是 如 果 将 回溯 点 向 未 来 再 推进 一 些 ， 那 么 此 时 对 应 的 这 帧 图 


像 可 能 恰好 停留 在 此 人 拾 起 手 握 住 一 扇 门 的 把 手 ， 那 么 此 时 这 个 事件 
就 具有 标志 性 意义 ， 也 就 相当 于 数据 系统 中 此 时 的 数据 状态 是 一 至 
的 ， 业 务 系统 应 用 程序 可 以 根据 这 个 状态 继续 演变 下 去 ， 比 如 产生 多 
种 情 市 : 


(1) 此 人 推 开门 走 了 进去 ， 看 到 某 某 场景 ; 

(2) 此 人 突然 想到 了 什么 ， 狐 驳 了 一 下 ， 又 把 手 放 了 下 来 走 了 ; 
(3) 僵 住 了 ， 一 直 握 着 把 手 不 放 ; 

(4) 其 他 各 种 发 展 路 径 ， 这 也 就 对 应 了 平行 宇宙 理论 所 设想 的 。 


但 是 有 人 会 有 疑问 : 如 果 回 洲 到 刚才 那个 不 一 致 的 历史 时 间 氮 ， 
难道 此 时 应 用 系统 不 能 够 针对 这 个 人 的 手 自己 选择 几 种 场景 继续 发 展 
么 ? 比如 : QW 手 继续 向 上 拾 起 ;，(2 手 向 下 放下 ; (3) 僵 在 那 不 动 了 。 其 
实 ， 提 出 这 个 疑问 的 人 自身 已 经 回答 了 这 个 问题 ， 也 就 是 说 ， 此 时 世 
界 针对 这 个 人 的 手 的 发 展 路 径 只 给 出 了 三 种 选择 : 向 上 、 向 下 、 不 
动 。 而 第 三 种 情况 ， 也 就 是 静止 不 动 的 场景 下 ， 其 随后 的 发 展 要 么 也 
是 向 上 或 者 向 下 ， 如 果 永 远 不 动 了 ， 那 么 就 证 明 系统 出 现 问题 了 ， 这 
个 人 的 路 径 已 经 无 法 再 继续 发 展 了 。 


所 以 ， 这 个 人 的 手 最 终 还 是 要 向 上 或 者 向 下 发 展 到 一 定 的 程度 才 
可 以 体现 出 具体 标志 性 意义 ， 比 如 向 上 抬 起 握 住 把 手 或 者 返 了 授 头 
发 ， 抑 或 向 下 垂 到 了 腿 边 。“ 抬 起 来 、 返 了 返 头 发 ”， 这 个 动作 包含 两 
个 子 动作 ， 第 一 个 是 “ 抬 起 手 *>， 第 二 个 是 “ 放 到 头 上 ”， 第 三 个 是 “ 返 头 
发 "。 完 成 这 一 次 对 于 观众 有 意义 的 动作 ， 需 要 完成 多 个 子 动作 才 可 
以 ， 而 这 其 中 任何 一 个 子 动作 都 是 无 法 单独 让 观众 看 懂 的 ， 必 须 结合 
起 来 。 而 对 于 应 用 系统 ， 也 是 这 样 的 。 每 一 笔 业务 逻辑 (或 称 事务 、 


交易 ，Transaction) 是 由 多 个 原子 操作 (Atomic Operation) 组 成 的 ， 
要 完成 一 个 有 意义 的 业务 逻辑 ， 必 须 完成 其 包含 的 所 有 原子 操作 。 而 
如 果 在 一 连 串 的 原子 操作 之 间 出 现 问题 ， 系 统 停机 ， 那 么 这 些 原子 操 
作 在 系统 重新 启动 之 后 就 必须 进行 前 滚 或 者 回 滚 从 而 保证 一 致 性 。 


前 滚 就 是 将 原本 应 该 完成 而 未 完成 的 原子 操作 继续 执行 完毕 ; 而 
回 滚 则 是 指 将 自从 上 一 次 业务 逻辑 操作 之 后 发 生 的 原子 操作 全 部 回 
退 ， 恢 复 到 上 一 个 业务 逻辑 完成 时 刻 的 状态 ， 从 而 保证 数据 一 致 性 。 
系统 根据 日 志 中 所 记录 的 所 有 操作 以 及 状态 来 判断 是 需要 前 滚 还 是 回 
滚 。 也 就 是 说 ， 电 影 里 的 那 只 手 要 么 就 向 上 发 展 到 一 定 标志 性 时 间 
点 ， 比 如 抬 起 来 握 住 把 手 ， 要 么 就 向 下 回溯 回 之 前 的 标志 性 时 间 点 ， 
也 融 是 未 抬 起 之 前 的 状态 ， 比 如 垂 在 两 腿 边 。 


那么 ， 对 于 一 个 CDP 系 统 ， 回 溯 时 最 好 可 以 保证 应 用 一 致 性 以 避 
免 应 用 挂 起 这 份 CDP 影 像 之 后 所 经 历 的 前 滚 或 者 回 滚 过 程 。 而 保证 应 
用 层 一 致 性 的 方法 ， 只 能 靠 应 用 层 解决 ， 比 如 应 用 系统 每 提交 一 份 
Transaction 之 后 ， 利 用 某 种 手段 将 这 个 事件 通知 CDP 系 统 ， 后 者 从 而 
可 以 做 好 相应 的 回溯 标记 。 这 也 就 对 应 着 观众 在 看 电影 时 ， 对 天 键 时 
间 点 做 标记 ， 当 回 洲 的 时 候 ， 只 要 回溯 到 这 些 标志 性 时 间 点 就 可 以 得 
到 一 个 可 感知 其 意义 的 图 像 。 


5。CDP 的 适用 场合 


作为 真正 的 “数据 时 光 机 ”"，CDP 以 其 叹为观止 的 技术 革新 ， 成 功 
实现 了 人 类 梦 朵 以 求 的 时 光 回 淹 技 术 ， 甚 至 可 以 改写 数据 历史 〔 下 文 
中 有 详细 描述 ) ， 当 然 只 是 在 计算 机 数据 存储 领域 。 然 而 ， 这 项 技术 
的 价值 也 是 不 菲 的 ， 企 业 部 署 起 来 也 应 综合 考虑 。 


首先 要 考虑 的 一 定 是 RPO。 没 有 任何 技术 所 提供 的 RPO 可 以 媲 
CDP 了 。 从 纯 底层 角度 来 看 ，CDP 的 RPO 绝 对 等 于 0， 即 数据 0 丢失 。 
这 是 理所当然 的 ， 每 一 个 写 IO 都 被 同步 到 了 CDP 服 务 端 ， 有 什么 理由 
RPO 大 于 0 呢 ? 如 果 非 要 说 大 于 0， 也 只 能 是 上 层 不 争气 ， 就 如 上 文中 
对 于 数据 丢失 的 讨论 一 样 。 


然后 还 需要 考虑 RTO。 值 得 肯定 的 是 ， 目 前 的 这 种 CDP 解 决 方案 
架构 ， 其 所 提供 的 RTO 也 是 相当 惊人 的 。 不 管 是 系统 灾难 还 是 个 别 文 
件 等 数据 灾难 ，CDP 所 能 提供 的 RTO 都 可 以 达到 几 分 钟 级 别 。CDP 基 
于 磁盘 的 数据 镜像 及 Snapshot 十 CDP 后 处 理 ， 已 经 注定 了 它 所 能 提供 
的 RTO。 恢 复 单 个 文件 只 需 在 主机 端 将 对 应 时 间 点 的 影像 挂 载 即 可 ， 
主机 无 须 重 启 。 恢 复 整 机 操作 系统 也 只 需要 将 虚拟 卷 影像 映射 给 相应 
主机 并 在 主机 端 配置 为 SAAN Boot 即 可 。 试 问 哪 种 方案 还 能 够 如 此 方便 
呢 ? 


CDP 架 构 也 不 是 完美 无 缺 的 ， 首 先 它 需要 比 受 保护 的 数据 源 的 存 
储 容量 更 大 的 容量 ， 相 比 多 余 的 部 分 被 用 作 IO 仓 库 以 保存 持续 的 写 IO 
数据 。 其 次 ， 由 于 写 10 的 持续 镜像 操作 ， 势 必 会 对 主机 性 能 造成 一 定 
的 影响 ， 如 果 CDP 服 务 器 使 用 的 后 端 存 储 性 能 远 低 于 数据 兰 所 用 的 存 
储 性 能 的 话 ， 这 种 影响 将 会 变 得 更 显著 。 再 次 ，CDP 方 案 绝 不 适合 
数据 量 改 动 的 场合 ， 比 如 经 党 有 大 文件 被 高 速 上 传 到 受 保护 的 卷 ， 用 
不 了 多 久 便 被 删除 ， 然 后 再 上 传 新 文件 。 这 种 情况 下 ，CDP 服 务 端 很 
快 便 会 被 塞 满 ， 而 且 效 据 高 速写 入 效 据 产 ， 也 融 同 样 需要 高 速 被 同步 
到 CDP 服 务 端 ， 如 果 是 基于 主机 的 IO 捕获 ， 则 其 对 资源 的 耗费 将 不 得 
不 考虑 进去 。 


CDP 到 底 适 合 什 么 样 的 场景 呢 ? 总 结 如 下 : 


=。 对 RITO 和 RPO 要 求 甚 是 苛刻 ; 

= 对 源 卷 的 数据 更 新 IO 尺寸 较 小 但 是 每 一 笔 都 很 重要 ; 

= 强烈 需要 极 细 粒 度 的 时 光 回 漳 或 者 历史 改写 ， 比 如 需要 创建 
个 平行 影像 卷 进行 测试 等 情景 ; 

= 关键 业务 宕 机 频繁 ; 

" 不 差 钱 。 


符合 上 述 几 个 要 求 的 场合 ， 部 署 CDP 将 会 得 到 很 高 的 投资 回报 


6. CDP 与 VTL 


同样 都 是 使 用 磁盘 作为 Online 存 储 介质 ， 当 VTL 遇 见 CDP， 就 像 
是 小 鸡 遇 见 凤凰 一 般 。VTL 算 个 什么 呀 ? 就 一 虚拟 磁带 库 ， 立 着 磁带 
库 的 牌坊 却 用 硬盘 来 当 存 储 介 质 ， 浑 身 都 透 着 假 。 说 它 容量 大 ， 物 理 
磁带 库 就 笑 了 ; 说 它 耗 电 少 ， 物 理 磁 带 库 又 笑 了 ， 磁 盘 一 直 转 能 不 耗 
电 么 ? 说 它 备 份 和 恢复 速度 快 ， 连 本 地 磁盘 和 NAS 都 笑 啦 ! 能 快 到 哪 
去 ? 备份 格式 都 和 磁带 一 样 ， 恢 复 之 前 还 得 吧 吧 嗪 嗪 扫描 一 大 堆 索 
引 ， 创建 一 大 堆 文 件 列表 。 那 它 到 底 能 干什么 呢 ? 大 家 都 笑 啦 ， 异 口 
同 声 地 说 : “给 物理 带 库 当 个 缓冲 员 ! ” 


VTL 的 处 境 正如 它 实 际 的 作用 一 样 ， 确 实 很 塌 炊 。 


你 说 都 是 同样 的 柜子 同样 的 磁盘 同样 的 接口 ， 这 同 处 一 个 机 房 的 
两 个 东西 ， 它 差别 咋 就 这 么 大 ?有 买 CDP 吧 ， 不 差 钱 儿 ! 


思考 : 可 以 将 所 有 级 别 的 CDP 理 解 为 Database-Like。 即 任何 
操作 均 记 录 于 日 志 中 ， 日 志 可 以 前 滚 或 者 回 滚 ， 每 条 记录 都 


有 时 间 惟 或 者 序号 。 本 地 CDP 设 备 的 容 灾 就 可 以 考虑 为 类 似 
Oracle Dataguard 或 者 DB2 HADR 的 架构 ， 其 实 本 质 上 就 是 这 
样 的 。 但 是 CDP 的 日 志 具 体 实现 起 来 与 数据 库 的 日 志 还 是 有 
很 大 差别 的 。 因 为 CDP 可 以 瞬间 提供 任意 时 间 点 的 直接 可 访 
问 影像 ， 如 果 使 用 数据 库 类 日 志 记 录 方 式 ， 实 现 这 个 功能 是 
绝对 不 可 能 的 ， 因 为 数据 库 日 志 的 恢复 需要 Replay 过 程 ， 而 
这 个 过 程 将 会 耗费 一 定时 间 。CDP 的 日 志 是 针对 每 个 LBA 或 
者 LBA 段 (Block) 都 保存 一 个 日 志 链 条 ， 而 不 是 全 局 的 事件 
日 志 ， 这 样 可 以 保证 RTO。 此 外 ， 也 不 排除 有 些 CDP 设 计 为 
了 简化 操作 和 效率 而 直接 使 用 数据 库 方 式 日 志 ， 恢 复 时 ， 
CDP 根 据 给 出 的 时 间 点 ， 将 时 间 点 之 前 的 所 有 日 志 进 行 
Replay， 但 是 又 不 能 将 日 志 中 的 数据 操作 直接 覆盖 了 产 卷 
( 源 卷 需要 保留 以 使 得 可 以 放弃 当前 影像 ，， 所 以 只 能 将 日 
志 Replay 到 另外 的 存储 空间 ， 而 且 必 须 以 LBA 为 顺序 来 排放 
以 便 查 找 (日 志 中 只 包含 被 写 过 的 块 ， 对 于 没有 被 写 过 的 
块 ， 依 然 存 放 于 源 卷 中 ， 所 以 Replay 出 去 的 块 只 是 那些 被 写 
过 的 块 ， 整 个 LUN 影 像 是 由 源 卷 中 未 被 写 过 的 块 和 被 Replay 
的 块 共同 组 成 的 ， 所 以 针对 每 个 针对 生成 影像 的 读 IO， 都 需 
要 先 查 找 Replay 出 去 的 块 ) ， 也 就 是 将 无 序 的 日 志 处 理 成 有 
序 的 LBA 与 数据 的 对 应 表 。 所 以 本 质 上 来 讲 ，CDP 最 终 都 要 
实现 以 LBA 或 者 Block 为 单位 的 数据 链条 ， 如 果 使 用 类 数据 库 
日 志 的 方式 也 只 是 拆 东 墙 补 西 墙 ， 看 似 写 入 日 志 的 时 候 简 
单 ， 但 是 最 后 恢复 的 时 候 却 要 将 节约 的 时 间 再 拿 出 来 ， 而 且 
还 得 贴 上 一 部 分 存储 空间 。 时 间 、 空 间 、 性 能 总 是 两 两 巴 
盾 。 所 以 说 万 物 同 源 ， 虽 处 于 不 同 层次 却 拥 有 相同 的 本 质 。 


7。. CDP 与 传统 备份 系统 的 比较 


1) 传统 备份 所 面临 的 挑战 


传统 的 备份 方法 已 经 在 企业 中 根深 蒂 固 地 使 用 了 很 长 一 段 时 期 
了 。 在 主机 端 安 装 对 应 应 用 程序 的 备份 代理 ， 然 后 通过 代理 程序 ， 将 
需要 备份 的 数据 传送 给 磁带 机 或 者 磁带 库 。 备 份 任务 一 般 每 天 都 要 执 
行 ， 如 果 遇 到 数据 量 很 大 的 情况 ， 甚 至 在 一 次 备份 窗口 所 能 够 提供 的 
时 间 之 内 ， 比 如 晚 10 点 到 早 6 点 ， 备 份 可 能 都 并 没有 执行 完 ， 备 份 速度 
已 经 成 为 传统 备份 系统 的 一 个 主要 瓶颈 了 。 其 次 ， 在 企业 所 制定 的 备 
份 策略 中 ， 全 备份 一 般 都 需要 定期 执行 ， 比 如 一 周 执行 一 次 ， 如 果 是 
大 型 企业 ， 可 能 还 需要 保留 数 周 甚 至 数 月 、 数 年 之 内 的 每 次 全 备份 磁 
带 。 在 这 种 情况 下 ， 多 次 保留 的 全 备份 中 ， 就 会 有 相当 一 部 分 数据 是 
重复 的 ， 如 果 打算 节省 空间 ， 那 么 就 得 引入 重复 数据 删除 等 数据 缩减 
技术 ， 这 又 是 一 笔 额外 开销 。 


另外 ， 用 磁 审 来 备份 大 量 小 文件 ， 此 时 将 会 是 区 广 。 备 份 效 据 
时 ， 备 份 软 件 都 会 预 移 生 成 待 备份 文 件 的 索引 以 及 其 他 的 元 数据 ， 如 
果 备 份 的 目标 是 大 量 小 文件 ， 比 如 十 万 个 小 文件 ， 那 么 光 是 索引 阶段 
器 要 耗费 掉 大 量 的 时 间 ， 有 的 时 候 甚至 可 以 持续 数 小 时 。 


在 需要 做 数据 恢复 的 时 候 ， 传 统 的 基于 人 磁 市 的 备份 系统 又 会 表现 
出 多 个 问题 。 比 如 恢复 速度 慢 ， 恢 复 之 后 不 能 立即 可 用 ， 由 于 磁带 介 
质 或 者 磁带 驱动 器 机 械 故 障 导致 的 恢复 失败 ， 恢 复 大 量 小 文件 速度 极 
慢 等 ， 这 些 问题 都 是 实 实在 在 摆 在 眼前 的 ， 时 常会 让 备份 管理 员 痛心 
疾 首 。 


2) VTL， 加 速 传统 备份 


为 了 缓解 磁带 备份 的 次 端 ，VTL 被 发 明了 出 来 。VTIL 是 为 了 解决 
备份 和 恢复 速度 慢 的 问题 而 生 的 。 它 利用 磁盘 来 虚拟 成 一 盘 一 盘 的 磁 
带 ， 利 用 软件 来 虚拟 一 个 或 者 多 个 厂商 的 多 种 磁带 驱动 器 和 机 械 臂 ， 
从 而 替代 了 传统 的 物理 磁带 库 。 由 于 使 用 了 磁盘 而 不 是 磁带 来 作为 存 
储 介 质 ， 其 表现 出 的 速度 也 有 了 很 大 提升 。 当 然 单 块 磁盘 的 顺序 读 写 
速度 有 时 甚至 赶不上 一 盘 LTO4 磁 带 ， 但 是 如 果 将 磁盘 组 成 Raid 之 后 ， 
所 表现 出 来 的 速度 就 远 超过 LTO 磁 带 了 。 


然而 ，VTL 并 没有 脱离 备份 软件 成 为 一 个 独立 的 系统 ， 它 只 是 替 
代 了 传统 的 物理 磁带 库 而 已 。 底 层 使 用 硬盘 作为 存储 介质 ， 而 上 层 却 
并 没有 表现 出 硬盘 随机 快速 寻 址 的 优势 ， 对 外 还 是 表现 为 一 种 流 式 的 
顺序 访问 设备 。 其 表层 并 未 进化 ， 这 也 是 VTL 的 关键 限制 ， 除 了 速度 
加 快 、 管 理 简单 了 之 外 ，VTL 相 对 于 传统 物理 市 库 并 没有 本 质 上 的 进 
化 ， 也 并 没有 问 覆 传统 的 备份 系统 。 


并 且 ，VTL 虽 然 使 用 磁盘 作为 备份 介质 ， 但 是 它 却 并 没有 加 速 大 
量 小 文件 情况 下 的 备份 ， 备 份 软件 的 索引 过 程 依然 需要 执行 。 


3) CDP， 彻底 颠覆 了 传统 备份 架构 


CDP 意 为 Continuous Data Protection， 即 连续 数据 保护 。CDP 会 记 
录 主 机 对 源 数 据 所 作 的 每 一 笔 更 改 ， 并 且 将 更 改 的 内 容 记录 下 来 。 这 
样 ， 就 可 以 恢复 到 任何 一 个 时 间 点 时 候 的 数据 影像 了 。 目 前 市 场 上 的 
CDP 产 品 ， 几 乎 都 是 相同 的 架构 ， 即 在 主机 端 安 半 一 个 底层 IO 过 滤 驱 
动 ， 将 所 有 针对 目标 数据 的 写 IO 镜 像 写 到 CDP 服 务 端 设 备 上 保存 ， 
CDP 服 务 端 会 为 每 个 Block 保 存 一 条 日 志 链 ， 每 次 针对 这 个 块 的 写 IO 内 
容 都 被 追加 到 链条 末尾 ， 并 记录 对 应 的 元 数据 映射 。 


CDP 保 存 了 源 数 据 的 每 一 次 改动 ， 但 是 它 与 写 镜像 不 同 : 写 镜 像 
情况 下 ， 针 对 一 个 块 的 后 一 次 的 写 会 覆盖 之 前 的 内 容 ; 而 CDP 却 不 
会 ， 针 对 每 次 写 ，CDP 相 当 于 都 做 了 Row 操作 。 这 样 ， 就 可 以 恢复 到 
任何 一 个 指定 的 时 间 的 数据 影像 了 。 也 就 是 说 ，CDP 是 一 个 高 级 的 、 
可 回溯 的 实时 镜像 系统 。 


这 种 把 数据 变化 实时 镜像 保存 的 方法 ， 彻 底 颠 履 了 传统 的 磁 襄 备 
份 系统 。 由 于 CDP 的 本 质 进化 ， 被 镜像 之 后 的 数据 中 几乎 没有 重复 见 
余数 据 。 而 且 ， 更 为 神奇 的 是 ， 在 灾难 发 生 之 后 ， 主 机 可 以 直接 从 
CDP 服 务 端 来 挂 载 任意 时 刻 的 卷 影像 ， 或 者 直接 挂 载 系 统 盘 对 应 的 
卷 ， 直 接 从 SAN 网 络 启动 主机 ， 整 个 恢复 过 程 非常 快 ， 远 非 传统 备份 
可 比 。 


由 于 CDP 作 用 于 块 级 别 ， 所 以 与 文件 层面 无 关 ， 纵 使 文件 再 小 ， 
数量 再 大 ， 镜 像 和 恢复 的 过 程 中 也 丝毫 不 会 影响 速度 。 


4) CDP 将 会 是 VTL 的 替代 品 么 ? 


CDP 完 全 脱离 了 各 种 备份 软件 ， 它 只 需要 在 主机 端 安装 一 个 过 滤 
驱动 或 者 客户 端 管理 界面 程序 。 而 VTL 可 以 说 是 一 个 四 不 像 的 东西 ， 
并 没有 发 挥 出 磁盘 本 来 的 优势 。 从 这 一 点 来 讲 ，CDP 完 胜 YVTL。 但 是 
由 于 传统 备份 的 根深 蒂 国 ， 以 及 CDP 产 品 被 认 知 和 接受 的 程度 还 有 待 
推进 ， 还 有 成 本 等 因素 的 制约 ， 所 以 ， 短 时 间 内 CDP 并 不 会 完全 替代 
VTL， 或 者 说 并 不 能 彻底 颠 履 传 统 备份 架构 。 但 是 长 期 来 看 ， 随 着 企 
业 对 数据 安全 以 及 RPO 和 RTO 的 要 求 越 来 越 高 ，CDP 将 会 逐渐 打开 并 
且 占 领 备份 市 场 的 大 部 江山 。 


CDP 产 品 基本 上 有 两 种 形式 : 一 个 是 纯 软件 ， 另 一 个 是 捆绑 了 
CDP 软 件 的 硬件 。 不 管 是 硬件 还 是 软件 ， 它 们 最 终 其 实 都 是 软件 ， 将 
软件 安装 在 某 x86 服 务 器 上 ， 后 端 使 用 各 种 扩展 卡 连接 若干 JBOD， 便 
成 了 CDP 硬 件 。 


5) CDP 相 比 传统 备份 所 具有 的 优点 


根据 目前 的 CDP 模 型 ， 数 据 从 源 到 目的 是 一 个 实时 同步 镜像 过 
程 ， 所 以 这 种 模式 如 果 称 其 为 备份 的 话 ， 那 么 就 是 一 种 最 彻底 最 纯粹 
的 备份 。 它 相 比 传统 的 备份 有 如 下 优点 。 


= 0 备份 窗口 : 数据 实时 的 同步 复制 ， 源 端的 任何 变化 都 同步 地 体 
现在 备份 端 。 再 加 上 备份 端的 CDP 和 Snapshot 功 能 ， 一 个 一 致 
的 备份 瞬间 就 可 以 生成 。 

接近 0 的 恢复 窗口 : 可 以 直接 从 备份 端 将 某 时 刻 的 卷 挂 载 ， 直 接 
使 用 。 这 个 过 程 操 作 非 常 简单 ， 耗 费时 间 也 相当 于 点 几 下 最 
标 。 

具备 实时 容 灾 功 能 : 传统 备份 系统 只 能 将 数据 备份 下 来 之 后 再 
传输 到 远程 ;CDP 系 统 则 可 以 直接 充当 实时 容 灾 系统 。 

面 对 大 量 小 文件 的 备份 具有 天 生 优 势 : 传统 备份 系统 在 备份 大 
量 小 文件 的 时 候 性 能 很 才 ， 耗 费时 间 过 多 ; 而 CDP 则 是 在 块 级 
别 运作 ， 而 且 是 实时 同步 ， 与 文件 的 种 类 、 大 小 等 都 没有 关 
系 。 

回溯 粒度 能 够 达到 秒 级 甚至 更 低 ， 当 然 为 了 充分 保证 一 致 性 ， 
通 单 恢复 时 都 是 选择 一 个 一 致 点 来 恢复 。 

部 署 方 便 : 主机 端 代理 无 须 复杂 配置 ， 无 须 与 各 种 应 用 相 耦 
合 。 可 以 实现 不 停机 部 署 。 


”数据 重 复 率 低 : 未 变化 的 块 都 是 共享 的 ， 而 传统 备份 中 ， 相 同 
的 块 会 被 保存 多 份 。 
" 大 量 小 文件 的 情况 下 ，CDP 有 着 根本 性 的 优势 。 


6) CDP 到 底 适 合 什么 样 的 场景 呢 ? 


CDP 哩 好， 但 也 不 是 完全 适合 任何 环境 的 。 比 如 ， 如 果 源 天 入 
的 写 入 流量 非常 大 ， 比 如 200MB 每 秒 ， 那 么 此 时 使 用 CDP 就 显得 不 
时 宜 了 ， 会 对 主机 端的 IO 性 能 产生 一 定 影响 ， 并 且 CDP 服 务 端 也 会 吃 
不 消 。 


总 体 来 讲 ， 具 有 下 列 特点 的 环境 ， 可 以 考虑 部 署 CDP: 


对 RTO 和 和 RPO 要求 甚 是 苛刻 ; 

对 源 卷 的 数据 更 新 IO 尺寸 较 小 但 是 每 一 笔 都 很 重要 ; 

人 比如 需要 创建 N 
平行 影像 卷 进行 测试 等 情景 ; 

| 

预算 充足 ; 

源 数据 端 写 入 流量 不 是 很 大 ， 或 者 大 量 小 文件 的 环境 下 。 


当然 ， 与 传统 备份 相 比 ，CDP 系 统 在 成 本 方面 也 将 是 投入 巨大 
的 。 究 竟 选 择 哪 一 个 ， 还 要 看 预算 和 需求 的 平衡 结果 。 


8。. CDP 产 品 简 介 (EMC RecoverPoint) 


目前 CDP 市 场 上 的 主打 产品 有 两 个 ， 一 个 是 存储 行业 巨头 EMC 经 
过 收购 之 后 推出 的 RecoverPoint， 另 一 个 则 是 顶级 存储 软件 提供 商 飞 康 
(Falconstor) 自 研 发 的 IPstor CDP。 两 个 的 CDP 解 决 方案 ， 其 架构 如 


出 一 略 ， 在 使 用 方式 上 也 类 似 。 前 文中 所 提供 的 几 个 CDP 架 构 模 型 均 
是 从 这 两 家 的 CDP 产 品 架构 中 提炼 抽象 而 来 ， 所 以 读者 看 过 前 文 之 
后 ， 就 相当 于 已 经 了 解 了 实际 产品 的 架构 。 这 里 只 对 EMC 的 
RecoverPoint 产 品 做 一 个 简要 的 介绍 。 


如 图 16-46 所 示 ， 左 右 分 别 为 RecoverPoint CDP 服 务 器 硬件 的 前 视 
图 和 后 视图 。 


图 16-46 ”RP 服务 器 


这 个 硬件 其 实 是 一 台 Dell R610 lu 服务 器 ， 配 有 两 个 千 兆 以 太 网 口 
和 4 个 4Gb/s 的 FC 接口 (一 张 4 口 QLogic FC HBA) 。 操 作 系统 为 Linux 
Based。CDP 功 能 实现 于 其 上 的 核心 应 用 程序 软件 。 


如 图 16-47 所 示 的 是 RecoverPoint 的 回溯 粒度 与 普通 的 日 备份 和 
Snapshot 的 对 比 。 前 文中 曾经 提 到 过 ， 由 于 CDP 在 数据 一 致 性 方面 不 
如 Snapshot 可 控 性 好 ， 可 以 说 根本 不 可 控 ， 这 确实 是 个 问题 。 但 是 
ReconverPoint 则 提供 了 一 种 机 制 ， 即 让 用 户 自己 记录 对 应 的 时 间 点 都 
干 了 什么 ， 回 溯 的 时 候 融 会 有 个 参考 。 甚 至 通过 安装 App Aware Agent 
的 方式 ， 还 可 以 自动 获取 被 监视 的 应 用 程序 目前 所 处 的 状态 ， 比 如 ， 
Database Agent， 一 旦 监控 到 数据 库 此 时 做 了 CheckPoint ， 则 会 通知 
CDP 服 务 端 将 当前 的 时 间 点 做 一 个 Bookmark， 以 便 在 回溯 恢复 的 时 候 
让 用 户 知道 这 个 时 间 点 的 影像 对 数据 库 来 说 是 一 致 的 。RecoverPoint 还 
可 以 监视 其 他 多 种 应 用 ， 比 如 Windows 下 的 VSS 模 块 、MS SQL Server 
VDI 等 。 


16-47 CDP 与 Snapshot 


如 图 16-48 所 示 的 窗口 中 就 显示 了 这 些 显 式 的 重要 时 间 点 以 及 对 应 
的 事件 。 


图 16-48 一致 性 标记 


另外 ，RecoverPoint 不 仅 可 以 实现 本 地 CDP 数 据 保护 ， 还 可 以 实现 
跨越 广域网 实现 异地 CDP 数 据 保护 。 其 本 质 原理 实际 上 是 在 本 地 和 远 
程 各 部 署 一 台 CDP 服 务 器 ， 本 地 的 CDP 此 时 除了 将 IO 镜像 到 自身 的 存 
储 空 间 然后 进行 Snapshot 十 CDP 后 处 理 之 外 (或 者 自身 没有 存储 空 
间 ， 只 作为 IO 转发 器 ) ， 还 作为 一 个 IO 转发 器 ， 将 收 到 的 IO 数据 通过 
广域网 同步 到 远程 站 点 的 RecoverPoint 服 务 器 ， 由 远程 CDP 服 务 器 来 处 
理 镜像 的 数据 。 这 样 ， 一 旦 本 地 站 点 整体 灾难 ， 远 程 站 点 依然 可 以 保 
存 一 份 可 用 的 数据 。 远 程 Disaster Recovery 功 能 在 飞 康 IPstor CDP 产 品 
中 同样 提供 。 其 整体 架构 如 图 16-49 所 示 。 


图 16-49 ”整体 架构 
9。. CDP 产 品 配置 实例 


上 文中 介绍 了 EMC 的 Recover Point 产 品 。 本 节 中 我 们 改 用 飞 康 
IPstor CDP 来 为 大 家 做 一 个 CDP 具 体 配置 演示 。 


IPstor CDP 同 样 也 支持 基于 主机 端的 IO 镜像 和 基于 Fabric API 的 FC 
网 络 层 IO 镜像 ， 这 里 我 们 只 给 出 基于 WIndows 操 作 系统 的 主机 端 IO 镜 
像 的 演示 。IPstor CDP 运 行 于 主机 端的 代理 程序 叫做 *DiskSafe”， 这 个 
代理 程序 模块 不 但 操控 IO 镜像 ， 还 负责 创建 Snapshot 和 挂 载 Snapshot。 


(1) 如 图 16-50 所 示 ， 打 开 DiskSafe 主 界面 ， 左 边 的 项 目 很 简单 ， 
分 别 为 Disk、Group、Snapshot、Event。 其 中 Group 中 定义 的 就 是 任意 


多 个 卷 的 组 合 ， 形 成 一 致 性 组 。 首 先 右 击 Disk， 从 弹出 的 快捷 菜单 中 


单 击 Protect 命 令 。 
图 16-50” 主 界面 


(2) 出 现 如 图 16-51 所 示 的 窗口 ， 窗 口中 列 出 所 有 这 人 台 主 机 上 的 
磁盘 以 及 分 区 。 可 以 针对 整 盘 或 者 某 分 区 进行 镜像 保护 。 在 此 我 们 选 
中 Disk0 准 备 对 其 进行 整 盘 保护 ， 单 击 Next 按 钮 继续 。 


图 16-51 ”选择 要 镜像 的 盘 


(3) 如 图 16-52 所 示 ， 代 理 程序 便 会 与 CDP 服 务 器 端 通信 以 便 查 
询 是 否 服务 器 端 存 在 已 经 创建 好 的 镜像 存储 空间 。 本 例 中 ， 新 出 现 的 
窗口 为 室 ， 所 以 我 们 需要 在 CDP 服 务 端 新 建 一 个 镜像 存储 空间 ， 单 击 
New Disk 按 钮 。 


图 16-52 ”在 服务 器 上 创建 镜像 盘 


(4) 如 图 16-53 所 示 ， 出 现 Allocate Disk 对 话 框 。 上 半 部 分 的 窗口 
显示 了 目前 所 连接 的 CDP 服 务 器 端的 名 称 和 地 址 ， 下 半 部 分 则 显示 了 
镜像 卷 的 大 小 。 本 例 中 大 小 与 源 卷 相同 ， 并 且 这 个 镜像 卷 挂 载 到 主机 
的 方式 是 使 用 iSCSI， 由 于 本 机 没有 安装 FC 卡 ， 所 以 FC 方 式 不 可 用 。 
ThinProvision 默 认 启用 ， 即 镜像 卷 占 用 的 空间 会 随 着 实际 源 卷 的 IO 不 
断 同步 逐渐 增加 ， 而 不 是 一 开始 就 占用 所 设 定 的 空间 ， 空 间 渐 增 分 配 
单位 设 定 为 1024MB。 


图 16-53 ”创建 新 盘 


(5) 如 图 16-54 所 示 ， 单 击 OK 按钮 之 后 ，CDP 服 务 器 端 便 开 始 创 
建 这 个 镜像 卷 。 创 建 完 成 之 后 便 会 出 现 如 图 16-55 所 示 的 窗口 ， 此 时 ， 


新 卷 已 经 出 现在 了 窗口 中 。 选 中 它 后 ， 单 击 Next 按 钮 继续 。 
图 16-54 ”创建 过 程 图 16-55 ”选择 新 建 的 盘 


(6) 出 现 如 图 16-56 所 示 的 窗口 。 在 这 个 窗口 中 ， 提 供 了 一 些 可 
以 调节 的 参数 ， 比 如 实时 IO 镜像 模式 (Continuous mode) ， 即 每 个 对 
源 卷 的 写 IO 都 同步 传输 到 CDP 服 务 端 镜像 卷 之 后 才 允 许 后 续 的 源 卷 写 
IO; 周期 性 镜像 同步 模式 (Periodic mode) ， 即 本 地 先 将 一 段 时 间 之 
内 (比如 几 秒 钟 ) 的 源 卷 所 有 写 IO 的 数据 复制 暂 存在 本 地 ， 然 后 一 批 
一 批 地 镜像 到 CDP 服 务 端 ， 相 当 于 异步 镜像 。 前 者 对 本 地 IO 性 能 有 和 较 
大 影响 ， 而 后 者 则 影响 较 小 ， 但 是 存在 数据 丢失 的 风险 。 我 们 用 默认 
的 参数 即 可 。 另 外 值得 一 提 的 是 ， 代 理 端 不 但 可 以 进行 全 卷 局 区 对 局 
区 的 完整 镜像 ， 而 且 还 可 以 识别 源 卷 中 的 NTFS 文 件 系 统 ， 而 只 对 文件 
实际 占用 的 那 部 分 空间 数据 进行 镜像 操作 ， 这 将 会 大 大 降低 不 必要 的 
传输 ， 降 低 初次 同步 时 间 。 单 击 Next 按 钮 继续 。 


图 16-56 “参数 选择 


(7) 如 图 16-57 所 示 ， 这 个 窗口 中 可 以 设 定 对 镜像 卷 做 Snapshot 的 
自动 触发 时 刻 表 ， 每 当 一 个 Snapshot 被 触发 ， 代 理 模块 便 会 通知 OS 层 
面 将 FS 缓存 写 入 源 卷 ， 或 者 调用 VSS 服 务 对 相关 的 应 用 进行 Freeze。 
之 后 代理 通知 CDP 服 务 端 对 对 应 镜像 卷 生成 一 份 Snapshot， 而 这 个 
Snapshot 总 是 一 致 的 。 


图 16-57 ”选择 Snapshot 时 刻 表 


(8) 还 可 以 对 Snapshot 做 一 些 高 级 设 定 ， 如 图 16-58 所 示 。 


图 16-58 ”时 刻 表 高 级 设 定 


(9) 当 完 成 Snapshot Schedule 设 定之 后 ， 出 现 Summary 窗 口 ， 单 
击 Finish 按 钮 ， 如 图 16-59 所 示 。 


图 16-59 “完成 


(10) 此 时 ， 在 代理 主 窗 口中 的 Disk 项 目 右 边 就 会 显示 出 这 个 受 
保护 的 Disk0， 其 状态 显示 为 Protection Initializing， 正 在 执行 同步 镜像 
初始 化 操作 。 稍 等 片刻 ， 状 态 就 会 变 为 Synchronizing 状 态 ， 即 首先 将 
源 卷 上 已 经 存在 的 数据 同步 到 镜像 卷 。 当 初次 同步 完成 之 后 ， 便 进入 
了 持续 同步 期 ， 即 源 卷 不 断 接收 的 写 IO 被 不 断 同 步 到 镜像 卷 。 这 个 过 
程 如 图 16-60 所 示 。 

(1) 
(2) 
(3) 
图 16-60 ”同步 过 程 
(11) 镜像 卷 在 主机 端 表 现 为 一 个 物理 卷 ， 此 时 千 万 不 要 在 操作 


系统 自 带 的 卷 管 理工 具 中 对 这 个 卷 进 行 任何 操作 ， 因 为 此 时 是 由 代理 
模块 在 管理 这 个 卷 ， 如 图 16-61 所 示 。 


图 16-61 ”镜像 卷 的 状态 


(12) 在 代理 主 界面 中 ， 按 照 图 16-62 所 示 的 方法 来 手动 创建 一 个 


Snapshoto 


图 16-62 创建 Snapshot 


(13) 当 需 要 从 Snapshot 中 恢复 文件 的 时 候 ， 则 在 左边 窗口 定位 
到 Snapshot 项 目下 ， 找 到 对 应 的 Disk0， 在 右边 的 窗口 中 会 出 现 系统 针 
对 Disk0 所 做 的 所 有 Snapshot。 选 中 需要 恢复 的 时 间 点 Snapshot， 碳 
击 ， 从 弹出 的 快捷 菜单 中 选择 Mount Snapshot 命 令 ， 如 图 16-63 所 示 。 


图 16-63” 挂 载 Snapshot 


(14) Mount Snapshot 之 后 ， 打 开 磁 盘 管 理 器 ， 此 时 会 发 现 这 份 
Snapshot 对 应 的 虚拟 影像 已 经 被 挂 载 到 了 主机 上 ， 代 理会 自动 为 其 分 
配 一 个 盘 符 (本 例 中 为 F 盘 ) ， 如 图 16-64 所 示 。 


图 16-64 ”快照 影像 卷 


此 时 便 可 以 浏览 这 个 影像 磁盘 中 的 内 容 ， 将 需要 恢复 的 文件 复制 
出 来 了 。 


(15) 如 果 需 要 整 卷 恢 复 ， 则 更 加 方便 ， 直 接 在 对 应 的 Snapshot 
上 右 击 ， 从 弹出 的 快捷 菜单 中 单 击 Restore 命 令 ， 如 图 16-65 所 示 。 


图 16-65 “Restore 快 照 
(16) 在 出 现 的 窗口 中 ， 单 击 Next 按 钮 ， 如 图 16-66 所 示 。 
图 16-66 单 击 “下 一 步 ” 


(17) 在 出 现 的 窗口 中 ， 选 择 Disk or Partition 单 选 按钮 ， 单 击 
Next 按 钮 ， 如 图 16-67 所 示 。 


图 16-67 ”选择 分 区 恢复 


(18) 如 图 16-68 所 示 ， 在 出 现 的 窗口 中 ， 我 们 选择 恢复 一 个 
Snapshot， 选 中 对 应 的 Snapshot， 然 后 单 击 Next 按 钮 。 出 现 如 图 16-69 
所 示 的 窗口 。 这 里 我 们 选择 将 Snapshot 直 接 覆 盖 恢 复 到 源 卷 ， 即 
Original primary disk， 然 后 单 击 Next 按 钮 。 


图 16-68 ”选择 Snapshot 图 16-69 ”选择 覆盖 方式 


(19) 在 图 16-70 所 示 的 Summary 窗 口中 单 击 Finish 按 钮 ， 此 时 会 
出 现 恢复 进度 窗口 ， 如 图 16-71 所 示 。 整 盘 Restore 并 且 Restore 到 源 卷 的 
过 程 ， 与 直接 挂 载 Snapshot 影 像 不 同 ， 前 者 是 实体 数据 的 恢复 ， 即 从 
位 于 CDP 服 务 端的 IO 仓库 中 ， 参 考 对 应 的 Snapshot 与 时 间 戳 信息， 将 
这 份 Snapshot 中 的 所 有 数据 覆盖 到 源 卷 。 


图 16-70 ”完成 图 16-71 ”恢复 过 程 


疑问 : 源 卷 中 有 部 分 数据 可 能 并 不 需要 被 覆盖 ， 为 何不 能 

接 重 定向 指针 直接 指向 Snapshot 入 口 呢 ? 无 能 为 力 ， 因 为 ， 
我 们 现在 是 对 产 卷 进行 恢复 ， 而 Snapshot 和 CDP 都 是 针对 源 
卷 的 一 份 镜像 卷 来 生成 的 ， 这 份 镜像 卷 是 在 CDP 服 务 器 上 
的 ，CDP 服 务 端 并 不 维护 任何 兰 卷 的 地 址 指针 ， 所 以 此 时 只 
能 是 将 目标 恢复 时 间 点 之 前 所 有 被 CoW 的 数据 块 覆 盖 到 源 卷 
才 可 以 。 图 16-72 所 示 的 是 恢复 结束 时 的 状态 。 


图 16-72 ”恢复 完成 


10。CDP 优 化 设计 


1) 日 志 链 空间 压缩 


CDP 作 为 一 种 数据 连续 保护 设计 思想 ， 其 功能 无 疑 是 强大 的 ， 但 
是 其 效率 和 空间 占用 也 是 让 人 头疼 的 问题 。 尤 其 是 空间 占用 ， 保 存 每 
个 写 IO， 可 想 而 知 其 所 耗费 的 空间 总 量 有 多 大 。 如 果 能 够 来 用 一 种 用 
时 间 来 换 空 间 的 方法 来 达到 节能 降 耗 的 话 ， 也 不 失 为 一 种 好 办 法 。 在 
这 方面 ， 我 国 华中 科技 大 学 的 一 项 发 明 专 利 (公开 号 : 
CN101430657A) 便 非 常 巧 妙 地 实现 了 这 个 目的 ， 而 且 其 算法 并 不 复 
杂 。 下 面 对 这 个 专利 进行 演绎 ， 以 便 让 大 家 在 理解 这 个 专利 的 基础 上 
对 CDP 本 身 达 到 更 加 深刻 的 理解 。 


专利 : 这 项 专利 的 核心 思想 和 出 发 点 是 “ 读 写 IO 具有 局 部 
性 ”。 怎 么 理解 ?比如 某 个 应 用 程序 ， 拿 记事 本 来 当 作 例子 ， 
记事 本 打开 某 文 本 文件 ， 文 件 中 保存 的 是 a~z 这 26 个 字符 ， 总 
容量 也 没有 超过 一 个 扇 区 的 大 小 。 当 打开 文件 时 ， 文 件 系统 
会 从 磁盘 上 将 这 个 文件 实体 内 容 对 应 的 整个 局 区 读 入 缓存 ， 
并 且 复 制 到 记事 本 程序 的 缓存 中 。 之 后 ， 你 用 记事 本 将 其 中 
的 头 几 个 字符 ， 比 如 a、b、c、d 更 改 为 1、2、3、4 这 四 个 字 
符 ， 并 且 保 存 。 此 时 ， 文 件 系统 会 将 这 整个 扇 区 的 数据 再 写 
回 履 盖 到 磁盘 上 对 应 的 扇 区 ， 而 此 时 这 个 局 区 所 变化 的 内 容 
只 有 4 字 节 ， 其 他 均 未 变 。 这 就 是 * 读 写 局 部 性 原理 ”， 即 应 用 
程序 在 读 或 者 写 某 份 数据 的 时 候 ， 其 实 只 是 想 要 改变 其 中 的 
5%~20% 的 数据 。 


如 果 按 照 CDP 的 做 法 ， 将 会 保存 着 整个 写 IO 而 不 能 判断 只 保存 这 
个 扇 区 中 的 前 4 字 节 。 这 只 是 用 一 个 局 区 来 举例 ， 实 际 中 各 种 文件 系统 
几乎 都 是 以 簇 为 单位 进行 读 写 的 ， 一 个 簇 比 如 4KB、8KB 甚 至 16KB 或 
者 更 高 ， 如 果 仅 仅 改 变 了 几 个 字 节 就 要 将 整个 复 覆 盖 到 原 有 局 区 的 


话 ， 那 其 中 的 无 用 功 就 太 多 了 。 当 然 ， 文 件 系统 这 么 做 也 是 必需 的 ， 
我 们 不 可 能 去 改变 文件 系统 ， 况 且 一 般 文件 系统 每 次 覆盖 都 不 会 
CoW 出 被 覆盖 的 族 进行 保存 ， 所 以 文件 系统 的 这 种 行为 在 对 空间 的 浪 
费 的 影像 上 还 是 比较 轻 的 ， 并 不 具有 容积 性 质 。 但 是 对 于 CDP 来 说 就 
不 同 了 ， 每 次 都 保存 了 大 量 不 必要 的 内 容 ， 具 有 累积 性 ， 实 在 是 浪 
费 。 好 在 我 们 可 以 在 镜像 卷 上 来 实现 任何 想法 。 


得 想 一 种 办 法 ， 让 CDP 保 存 每 个 写 IO 的 时 候 只 保存 变化 的 数据 ， 
或 者 用 某 种 办 法 来 实现 类 似 的 思想 。 但 是 ， 用 传统 扫描 的 方法 去 比 对 
每 个 IO 相对 于 前 一 个 IO 的 变化 量 而 只 保存 变化 的 部 分 ， 这 样 做 是 不 太 
好 了 ， 因 为 效率 太 低 ， 会 影像 性 能 。 有 一 种 既 简单 又 成 熟 的 算法 能 够 
快速 地 比 对 两 份 数 据 中 的 异同 ， 这 就 是 XOR 算 法 ，1 XOR 1 二 0,， 1 
XOR 0 三 1，0 XOR 0 二 0。 即 相同 的 数据 互相 XOR 之 后 的 结果 为 0， 不 
同 的 数据 则 为 1。 如 果 将 两 份 局 区 中 的 内 容 进 行 XOR 运 算 之 后 ， 按 照 
“ 读 写 局 部 性 原理 ”， 理 想 情 况 下 (结尾 会 举 出 一 个 很 不 理想 的 情 
况 ) ， 结 果 中 会 有 80%~95% 的 连续 0， 而 剩余 的 部 分 则 会 是 不 规则 的 
0 和 1 排列 。 此 时 ， 再 使 用 压缩 工具 对 这 些 连 续 的 0 进行 压缩 ， 效 率 将 会 
大 大 提高 。 


疑问 : 有 人 会 质疑 ， 既 然 两 份 扇 区 中 的 内 容 大 部 分 相同 ， 那 
么 为 何不 直接 使 用 压缩 算法 对 其 进行 压缩 呢 ? 难道 压缩 连续 
的 0 比 压缩 乱 序 排 列 但 是 局 部 相同 的 1 和 0 更 为 高 效 么 ”XOR 
是 否 是 多 余 的 一 步 ? 非 也 。 压 缩 算 法 的 局 限 性 是 很 大 的 ， 举 
例 来 讲 吧 ， 随 便 找 一 份 视频 文件 ， 复 制 一 份 ， 然 后 用 某 压 缩 
工具 对 这 两 份 文件 打包 压缩 ， 压 缩 完 毕 后 你 会 发 现 ， 其 结 
等 于 单独 压缩 每 份 文件 的 结果 之 和 。 


而 最 理想 的 情况 应 该 是 压缩 之 后 的 结果 仅 为 一 份 文 件 的 空间 。 孜 
然 两 份 文 件 内 容 完全 相同 ， 为 何 得 到 的 压缩 率 却 远大 于 50% 呢 ? 究 其 
原因 就 是 因为 压缩 算法 的 局 限 性 ， 即 一 般 压 缩 算 法 会 设 定 一 个 滑动 窗 
口 ， 每 次 只 读 取 待 压缩 目标 文件 的 一 定 长 度 的 数据 ， 在 这 份 数据 中 进 
行 重 复数 据 的 搜索 和 压缩 ， 将 结果 保存 ， 然 后 将 窗口 往 前 移动 ， 再 读 
取 接 下 来 的 定 长 数据 ， 再 压缩 ， 然 后 结果 仍 加 到 先前 结果 之 后 ， 最 终 
达到 文件 未 尾 ， 压 缩 完 成 。 为 了 保持 一 定 的 效率 ， 窗 口 不 可 能 太 大 ， 
比如 先 扫描 整个 文件 以 找 出 重复 的 数据 ， 甚 至 扫描 所 有 给 出 的 文件 ， 
找 出 全 局 重复 的 部 分 然后 压缩 ， 如 果 按 照 上 两 者 的 思想 ， 则 其 压缩 比 
将 会 显 车 提高 ， 但 是 随 之 而 来 的 是 所 耗费 的 时 间 以 及 系统 资源 也 将 会 
显著 提高 ， 这 两 个 矛盾 平衡 之 后 的 结果 是 ， 人 们 宁愿 牺牲 一 些 空间 以 
换取 效率 的 提高 。 本 书 其 他 章节 中 会 介绍 一 种 在 全 局 数据 空间 内 消除 
重复 数据 的 方法 。 


在 论述 XOR 之 后 为 何 压缩 的 效率 和 压缩 比 会 更 高 的 原因 之 前 ， 我 
们 移 来 论述 一 下 专利 CDP 对 IO 的 处 理 过 程 。 


2) 专利 中 的 CDP 引 擎 处 理 写 IO 的 过 程 


(1) 假设 T1 时 刻 CDP 镜 像 卷 某 地 址 对 应 的 Block 内 容 为 
“abcabcabcabcabcabcabcabc”， 即 8 个 abc 字 串 串 联 。 这 份 数 据 用 Bt1l 表 
示 。T1 时 刻 系统 示意 图 如 图 16-73 所 示 。 


图 16-73 TI1 时 刻 


(2) T2 时 刘 某 写 IO 僻 将 数据 覆盖 为 
“xyzxyzabcabcabcabcabcabc”， 即 头 两 个 abc 被 更 改 为 xyz。 设 这 份 新 
Block 为 Bt2。CDP 截 获 这 个 写 IO ， 然 后 用 新 IO 与 CoW 出 来 的 T1 时 刻 的 


数据 内 容 Bt 作 XOR 运算 ， Bt2Btl = 二 Pt2 = 
“111111000000000000000000” (示意 结果 ， 并 非 二 进 制 结果 ,下 
同 ) 。 此 时 ，CDP5 引 擎 首先 将 T1 时 刻 的 数据 内 容 Bt1 写 入 一 个 叫做 * 校 
验 值 链 条 ”结构 的 首部 ， 然 后 再 将 XOR 的 结果 Pt2 追 加 到 “ 校 验 值 链条 ” 
中 Btl 之 后 ， 并 将 Bt2 写 到 镜像 卷 中 ， 即 覆盖 Bt1。 这 样 ， 在 时 光 回 济 过 
程 中 ， 利 用 公式 Pt2^Bt1 三 Bt2， 便 可 反 运 算出 Bt2 的 实际 内 容 。T2 时 刻 
系统 示意 图 如 图 16-74 所 示 。 


图 16-74 ”T2 时 刻 


(3) T3 时 刘 ， 另 一 个 写 IO 即 Bt3 到 来 ， 内 容 为 
“xyzxyzabcabcabcabcdefdef”， 此 时 CDP5 引 | 擎 将 镜像 卷 中 对 应 地 址 的 数 
据 Bt2 进行 CowWw 出来， 然后 进行 XOR 运算 ，Bt3^Bt2 = Pt3 = 
“000000000000000000111111”， 将 这 个 结果 追加 到 “ 校 验 值 链 条 ”中 最 
后 一 个 结果 也 就 是 Pt2 之 后 ， 同 时 将 Bt3 写 入 镜像 卷 。 这 样 ， 在 回溯 时 
利用 公式 Pt3 和 (Pt2^Bt1) 三 Bt3 就 可 以 反 运 算出 Bt3 的 实际 数据 内 容 。 
T3 时 刻 系统 示意 图 如 图 16-75 所 示 。 


图 16-75”T3 时 刻 
随后 的 写 IO 依 此 类 推 。T6 时 刻 的 系统 示意 图 如 图 16-76 所 示 。 


图 16-76 ”T6 时 刻 


然而 ， 虽 然 可 以 用 一 份 基 准 Block， 即 Bt1， 随 后 的 写 IO 轮 流 永 远 
相互 XOR 下 去 ， 但 是 这 样 做 容易 导致 XOR 链 条 过 长 ， 在 数据 恢复 反 运 
算 的 时 候 ， 需 要 XOR 的 次 数 也 就 相应 过 多 了 ， 所 以 XOR 链 条 过 长 就 会 
影响 回溯 时 候 的 性 能 。 因 此 在 下 一 步 中 ， 流 程 有 了 变化 。 


(4) 假设 ， 在 T7 时 刻 ，CDP 截 获 了 与 IO 数据 Bt7， 此 时 ，CDP5| 
擎 依然 是 先 CowW 出 Bt6 ， 然 后 进行 运算 Bt7ABt6=Pt7， 依 然 将 Pty7 仍 加 
到 Pt6 后 面 。 然 后 ， 关 键 的 一 步 ，CDP 引 擎 此 时 把 Bt7 追 加 到 Pt7 之 后 ， 
同时 将 Bt7 写 入 镜像 卷 覆盖 Bt6。 这 一 步 结束 之 后 ， 系 统 的 示意 图 如 图 
16-77 所 示 。 


图 16-77 T7 时 刻 


从 第 (1) 步 到 第 (3) 步 ， 是 一 个 周期 轮回 ， 第 (4) 步 则 是 新 一 
个 周期 的 开始 。 镜 像 卷 上 的 每 个 局 区 地 址 都 会 对 应 着 这 样 一 个 数据 链 
条 ， 链 条 中 的 每 一 个 周期 中 的 第 一 个 Block 总 是 为 对 应 时 间 点 的 写 IO 数 
据 实体 内 容 的 复制 ， 后 来 进入 的 写 IO 将 与 前 一 份 写 IO 进行 XOR 操 作 并 
将 结果 再 追加 到 链条 中 ， 循 环 执行 。 每 个 周期 的 时 间 可 调 ， 并 且 可 以 
根据 系统 的 负载 等 情况 做 到 动态 可 调 ， 比 如 负载 很 小 ， 则 可 以 适当 将 
周期 变 长 ， 负 载 很 大 ， 则 周期 适当 缩短 。 


3) 专利 中 的 CDP 引 擎 在 进行 时 光 回 溯 时 的 处 理 流程 


(1) 假设 ， 用 户 输入 回溯 时 间 点 T3， 并 且 要 求 将 T3 时 刻 的 源 卷 
影像 以 虚拟 卷 的 方式 挂 载 到 主机 端 。CDP5 引 和 警 收 到 这 个 事件 之 后 ， 便 
开始 准备 相关 资源 和 相关 进程 ， 并 且 立 即 向 主机 端 客户 端 映射 出 一 个 
虚拟 卷 ， 其 大 小 与 源 卷 相同 。 此 映射 过 程 中 不 涉及 对 产 卷 中 任何 地 址 
的 映射 操作 。 


(2) 主机 端 开始 对 这 个 虚拟 卷发 起 读 IO 操作 ， 假 设 主机 端 需 
读 出 Bt3 这 个 Block，CDP5 引 和 擎 接收 到 这 个 IO 请 求 之 后 ， 立 即 比 对 T1 和 
T7 时 刻 哪个 时 间距 离 T3 时 刻 反 ， 本 例 中 T1 时 刻 被 选中 ， 则 引擎 立即 从 
对 应 Bt3 这 个 Block 地 址 所 对 应 的 校 验 值 数 据 链 中 根据 时 间 戳 定位 并 读 


出 BtL、Pt2、Pt3 这 三 个 相 邻 的 Block， 按 照 正 向 恢复 公式 Bt3 二 Pt3^ 
(Pt2^Bt1) 来 计算 出 Bt3 的 实际 数据 ， 然 后 立即 发 送 给 主机 客户 端 。 
同 理 ， 引 擎 接收 到 针对 其 他 任何 地 址 〈 比 如 Ct3、Dt3 等 ) 的 Block 的 读 
请 求 后 ， 都 会 根据 相同 的 步骤 读 取 对 应 地 址 的 Block 所 对 应 的 数据 链 中 
的 相关 的 Block 和 Parity Block 进 行 XOR 反 运算 ， 并 且 将 结果 发 送 给 主 
机 。 


(3) 假设 ， 用 户 输 入 回溯 时 间 点 为 T5， 并 且 要 求 以 虚拟 影像 方 
式 直 接 挂 载 此 时 刻 的 虚拟 卷 。CDP 接 收 到 这 个 事件 后 ， 做 与 第 Q@ 步 相 
同 的 工作 。 之 后 ， 主 机 端 发 起 针对 Bt5 的 读 请 求 ，CDP3 引 | 擎 接收 到 这 个 
IO 之 后 ， 判 断 出 T5 时 刻 距离 T7 时 刻 比较 近 ， 所 以 CDP 引 擎 根据 时 间 戳 
定位 并 读 出 Bt7、Pt7、Pt6、Pt5 这 4 个 相 邻 的 Block， 按 照 反 向 恢复 公式 
Bt5 二 Pt6^ (Pt7^Bt7) 计算 出 Bt5 的 实际 数据 并 发 送 给 主机 。 


(4) 《本 步 在 专利 中 并 未 做 说 明 ， 由 作者 个 人 推演 ) 接 上 一 步 ， 
假设 主机 端 要 求 对 Bt5 所 对 应 的 LBA 地 址 进行 写 入 操作 。 这 时 候 ， 机 制 
就 稍微 有 点 复杂 了 。 主机 可 能 同时 在 对 源 卷 和 虚拟 卷 影像 进行 读 写 操 
作 ， 所 以 此 时 ，CDP 引 擎 接收 到 针对 虚拟 卷 的 写 IO 之 后 ， 一 定 要 将 其 
重 定向 到 针对 这 个 IO 地 址 的 一 条 新 数据 链 中 ， 并 做 好 地 址 索引 以 便 随 
时 备查 。 如 果 再 次 接收 到 主机 针对 虚拟 影像 卷 这 个 地 址 的 写 IO ， 则 可 
以 直接 将 新 IO 履 盖 或 者 追加 到 新 数据 链 中 。 


理解 : 为 何 要 说 “覆盖 或 者 追加 * 呢 ? 在 此 ， 有 一 个 更 灵活 的 
技术 实现 ， 就 是 可 以 针对 这 份 虚拟 影像 卷 注意， 是 虚拟 影 
像 ， 即 经 过 一 次 CDP 回 溯 之 后 的 虚拟 卷 ) 创建 二 级 Snapshot 
和 CDP。 如 何 做 到 的 呢 ? 很 简单 ， 上 文 说 了 ， 将 写 IO 重 定向 
到 一 个 新 数据 链 中 ， 那 么 我 们 依然 可 以 在 这 条 新 数据 链 中 实 
现 与 前 文 相 同 的 功能 ， 只 不 过 此 时 的 基准 卷 变 为 原来 镜像 卷 


某 时 刻 的 影像 而 已 。 针 对 新 基准 卷 的 读 IO 都 要 经 过 时 光 回 漳 
步骤 ， 写 IO 则 与 一 级 CDP 有 一 点 不 同 ， 即 无 须 CoW， 而 是 用 
了 RoW 方 式 。 


(5) 《本 步 在 专利 中 并 未 做 说 明 ， 由 作者 个 人 推演 ) 如 果 主 机 端 
选择 以 实体 内 容 Restore 或 者 叫做 Rollback 的 方式 来 将 源 卷 上 的 实体 数 
据 恢复 到 之 前 某 一 时 间 点 的 话 ， 则 这 个 过 程 的 底层 机 制 与 前 文 虚拟 影 
像 挂 载 模 式 下 的 实现 方式 没什么 太 大 区 别 ， 除 了 下 面 三 点 之 外 : 


"一 是 ，CDP3 引 | 擎 不 会 映射 给 主机 一 个 虚拟 卷 了 ， 

" 二 是 ， 然 后 将 计算 出 来 的 回溯 结果 直接 覆盖 到 源 卷 和 镜像 卷 的 
对 应 地 址 ; 

三 是 ， 删 掉 对 应 Block 地 址 校 验 值 数据 链 中 这 个 时 间 点 之 后 的 所 
有 Block， 仅 保留 此 时 间 点 之 前 的 链条 。 


经 过 这 些 步骤 之 后 ， 源 卷 和 镜像 卷 以 及 数据 链条 的 整体 状态 就 被 
Restore (或 者 叫 Rollback) 到 所 给 出 的 时 间 点 了 ， 主 机 此 时 可 以 继续 
对 源 卷 进行 IO0 ，CDP5 引 擎 从 这 个 时 间 点 上 继续 开始 工作 。 此 时 ， 原 来 
所 保存 的 晚 于 这 个 时 间 点 的 所 有 数据 均 被 抹 除 了 。 这 是 Restore 不 如 虚 
拟 影 像 挂 载 的 一 点 ， 但 是 实体 Restore 之 后 ， 相 对 于 虚拟 影像 卷 来 讲 ， 
却 可 以 保证 系统 性 能 ， 因 为 不 需要 复杂 的 回 洲 流 程 了 。 


4) 对 校 验 值 数 据 链 的 压缩 问题 探讨 


现在 我 们 要 来 探讨 一 下 这 个 专利 的 初衷 ， 即 ， 使 用 XOR 运 算 来 节 
省 大 量 校 验 值 数 据 链 所 占用 的 空间 的 做 法 是 否 真 的 有 效果 。 


参考 CDP 引 和 擎 IO 处 理 过 程 中 的 第 〇 步 所 给 出 的 示例 数据 和 第 2 步 
所 给 出 的 XOR 结 果 ， 假 设 ， 压 缩 算 法 的 窗口 很 小 ， 仪 为 一 个 Block 的 长 


度 ， 则 每 个 滑动 窗口 仅 对 一 个 Block 进 行 压缩 ， 数 据 Pt2 的 压缩 结果 可 
粗略 地 认为 是 类 似 “ (6) 1 (18) 0” 这 种 表现 形式 ， 即 6 个 1 和 18 个 0 组 
成 的 字 串 (这 里 我 们 忽略 压缩 算法 的 真实 结果 表示 方式 以 及 纯 二 进 制 
结果 ， 大 片 连续 的 1 的 情况 很 少 出 现 ) 。 同 理 ， 针 对 数据 块 Pt3 的 压缩 
结果 是 “(18) 0 (6) 1”。 


我 们 来 对 比 一 下 ， 如 果 CDP 引 擎 对 每 个 新 IO 块 不 进行 与 前 一 个 IO 
块 的 XOR 运 算 而 直接 将 其 以 实体 内 容 的 形式 追加 到 数据 链条 末尾 ， 这 
种 情况 下 ， 调 用 压缩 算法 对 每 个 实体 数据 块 进行 压缩 ， 针 对 数据 Bt2 的 
压缩 结果 为 “(2) xyz (6) abc"。 可 以 判断 ， 如 果 都 转化 为 二 进 制 的 
话 ， 这 个 结果 的 长 度 将 远大 于 “ (18) 0 (6) 1”。 


另外 ， 我 们 以 上 只 是 假设 了 压缩 算法 的 窗口 大 小 仅 有 一 个 Block 的 
长 度 ， 如 果 增 加 窗口 大 小 ， 比 如 两 个 Block 的 长 度 ， 那 么 刚才 的 例子 中 
就 可 以 同时 对 Pt2 和 Pt3 进 行 压 缩 ， 结 果 为 “(6) 1 (18) 0 (6) 1”, 而 
直接 压缩 实体 数据 块 的 结果 为 “(2) xyz (6) abc (2) xyz (4) abc 

(2) def”， 可 以 看 出 此 时 压缩 的 比率 相对 直接 压缩 实体 数据 块 所 提升 
的 更 大 。 


所 以 ， 结 论 很 明显 ，XOR 运 算 之 后 的 大 片 连 续 分 布 的 0 ， 显 车 地 
提高 了 压缩 的 效率 和 比率 。 


总 结 : 这 个 专利 使 用 了 非常 普遍 的 XOR 和 压缩 运算 从 而 达到 
节省 空间 的 目的 (根据 专利 描述 ， 可 以 节省 20~30 倍 的 空间 
占用 ,无疑 是 一 个 很 有 诱惑 力 的 数值 ， 这 使 得 其 实现 起 来 
的 成 本 大 大 降低 ， 而 且 ， 如 果 使 用 硬 XOR 运 算 和 压缩 解压 缩 
心 片 的 话 ， 便 可 以 显著 提升 恢复 效率 ， 不 失 为 一 种 很 好 的 解 
决 方案 。 但 是 也 有 一 个 小 小 的 遗憾 ， 即 如 果 新 写 IO 数据 块 相 


对 于 前 一 个 数据 块 之 间 的 相同 部 分 的 内 容 在 两 个 数据 块 中 是 
被 错开 排列 的 ， 哪 怕 错 开 1B 或 者 1b， 比 如 “abcdefg” 和 
“0abcdef”， 这 种 情况 下 ，XOR 后 的 结果 将 会 是 0 和 1 的 不 规则 
不 连续 排列 ， 讨 缩 比率 大 大 降低 ，XOR 运 算 了 恐怕 只 能 额外 增 
加 系统 负担 了 。 


5) 日 志 链 时 间 点 合成 


针对 CDP 数 据 占用 空间 过 大 并 且 管 理 开 销 过 大 的 问题 ， 还 有 另外 
一 种 妥协 的 方法 ， 即 CDP 时 间 点 合成 法 。CDP3 引 | 擎 为 每 个 Block 都 保存 
一 个 按照 时 间 先 后 排序 的 影像 链 ， 每 个 Block 每 发 生 一 次 写 IO， 这 个 IO 
就 会 被 追加 到 这 个 Block 链 的 尾部 。 如 果 用 户 觉得 CDP 的 粒度 太 细 了 ， 
没有 必要 ， 决 定 释放 一 部 分 空间 ， 只 保留 几 个 关键 时 间 点 的 影像 ， 那 
么 此 时 就 可 以 将 Block 链 条 进行 合成 操作 。 


这 里 所 谓 的 “合成 ”其 实 并 不 是 合成 ， 而 是 删除 所 有 Block 链 条 中 给 
出 的 所 有 需要 保留 的 时 间 点 之 间 的 数据 块 。 比 如 ， 如 果 用 户 只 要 求 保 
留 T5 和 T8 这 两 个 时 间 点 时 LUN 的 影像 ， 那 么 就 可 以 将 所 有 Block 日 志 
链 中 的 T6、T7 时 间 点 对 应 的 Block 留 存 删除 掉 ， 这 样 就 节省 了 大 量 空 
间 。 


6) 全 局 日 志 链 


如 果 在 CDP 系 统 设计 中 做 出 一 部 分 妥协 ， 损 失 一 部 分 灵活 性 ， 就 
可 以 大 大 降低 CDP 的 复杂 度 ， 获 得 更 高 的 处 理 效率 。 前 文中 所 设计 的 
CDP 系 统 ， 人 允许 实时 地 Mount 某 个 时 间 点 的 虚拟 影像 ， 这 样 虽然 非常 
灵活 方便 ， 但 是 这 么 做 就 需要 为 每 个 Block 维 护 一 个 日 志 链 ， 计 算 开 销 
和 存储 开销 都 很 大 。 如 果 对 于 某 个 LUN 维 护 一 个 全 局 Block 日 志 链 ， 即 


针对 这 个 LUN 的 所 有 写 IO 都 保存 在 同一 条 日 志 链 中 ， 不 再 区 分 Block， 
那么 维护 开销 将 大 大 降低 ， 但 是 同时 ， 也 不 再 可 能 实时 地 输出 某 个 时 
间 点 的 LUN 影 像 了 。 正 如 前 文中 的 “思考 ” 框 中 描述 的 一 样 ， 如 果 只 维 
护 一 个 全 局 日 志 链 ， 那 么 在 用 户 需 要 访问 某 个 时 间 点 的 LUN 影 像 的 时 
候 ， 系 统 就 只 能 将 日 志 链 从 对 应 的 时 间 点 开始 向 回 Replay 到 一 个 空 
LUN 中 ， 然 后 结合 源 卷 中 未 被 写 过 的 块 ， 共 同 组 成 一 个 影像 。 这 样 做 
效率 也 是 比较 低下 的 。 


一 种 取代 的 做 法 是 : 只 需要 对 每 个 LUN 整 体 维护 一 个 单一 的 Block 
日 志 链 即 可 ， 用 户 选 择 回溯 到 哪个 点 ， 就 将 整个 Block 日 志 链 从 头 开始 
到 这 个 点 之 间 的 日 志 Replay 到 一 个 空 LUN 中 ， 但 是 被 Replay 出 去 的 
Block 在 空 LUN 中 要 被 按照 与 LBA 地 址 一 一 对 应 的 方式 写 入 。 与 此 同 
时 ， 将 产 卷 中 未 被 写 过 的 Block 也 按照 LBA 地 址 一 一 读 出 并 且 写 入 空 
LUN。 这 两 个 过 程 都 完成 之 后 ， 这 个 LUN 中 的 内 容 就 是 对 应 时 间 点 的 
一 份 真实 影像 而 不 是 虚拟 影像 了 。 在 第 一 次 Replay 之 后 ， 如 果 用 户 再 
次 选择 回溯 或 者 前 滚 到 另 一 个 时 间 点 ， 那 么 可 以 从 Block 日 志 链 中 上 一 
次 Replay 结 束 的 地 方 开始 向 用 户 给 出 的 那个 时 间 点 在 日 志 中 所 处 的 位 
置 进 行 Replay ( 快 进 或 者 快 退 ) ， 将 块 覆盖 到 影像 LUN 中 ， 二 次 
Replay 所 耗费 的 时 间 融 仅仅 是 Replay 日 志 链 的 时 间 了 。 


另外 ， 全 局 日 志 链 模式 由 于 将 所 有 的 Block 变 更 都 混合 存放 在 同一 
个 链条 中 ， 所 以 每 条 日 志 记录 都 需要 记录 对 应 的 Block 被 覆盖 之 前 的 内 
容 以 及 覆盖 之 后 的 内 容 。 为 何 要 这 样 做 呢 ? 因为 在 Replay 日 志 时 ， 在 
回 退 操作 的 时 候 ， 必 须知 道 对 应 的 块 被 覆盖 之 前 的 内 容 (虽然 可 以 通 
过 查找 的 方式 来 查找 日 志 链 中 这 个 块 上 一 次 被 修改 之 后 的 内 容 ， 也 就 
是 本 次 修改 之 前 的 内 容 ， 但 是 这 样 做 是 非常 慢 的 ) 。 所 以 ， 全 局 日 志 


链 中 会 有 将 近 一 半 的 相同 内 容 (针对 同一 个 块 的 两 条 日 志 记 录 中 会 有 
一 份 内 容 相同 ) ， 占 用 额外 空间 比较 大 。 


将 全 局 日 志 链 与 分 块 元 数据 链 相 结合 使 用 可 以 获得 最 佳 的 效果 ， 
正如 上 文中 “ 雕 心 恋 月 幻影 新 "中 所 表述 的 。 


7) 日 志 写 缓冲 处 理 


由 于 CDP 模 块 需 要 针对 每 一 个 写 来 做 RoW/CoW 操 作 ，CoW 操 作 
会 使 得 写 操作 的 延迟 大 大 增加 ， 而 Row 操作 由 于 要 写 入 随机 分 布 的 块 
日 志 链 ， 属 于 随机 度 非 常 大 的 写 入 操作 ， 所 以 延迟 也 会 非常 大 。 在 前 
文 所 述 的 CDP 普 遍 使 用 的 模型 中 ， 如 果 CDP 服 务 端 阵列 处 理 写 的 速度 
由 于 RoW/CoW 的 影响 而 与 主机 写 入 主 阵列 的 速度 相差 太 大 的 话 ， 那 么 
势必 严重 影响 主机 端 性 能 。 基 于 此 ，CDP 服 务 器 可 以 先 将 所 有 进入 的 
写 IO 写 到 一 个 日 志 中 缓存 ， 从 而 达到 快速 响应 写 IO 请 求 的 目的 ， 系 统 
在 后 台 系 统 不 繁忙 的 时 候 重 放 这 份 日 志 然 后 进行 CDP 处 理 。 写 日 志 的 
过 程 是 完全 连续 IO， 所 以 此 时 可 以 大 大 降低 IO 延迟 。 


16.2.6 ” ”VSS 公共 快照 服务 


VSS 的 全 称 是 Volume Shadow copy Service， 中 译名 即 “ 卷 影 复制 服 
务 ”。 乍 一 看 挺 抽象 ， 而 且 也 容易 被 其 中 译名 弄 晕 ， 所 以 我 们 擅自 称 它 
为 “公共 快照 服务 ”。 上 文中 曾经 说 过 ， 为 了 保证 Snapshot 的 一 致 性 ， 
几乎 所 有 存储 厂商 都 提供 了 自己 开发 的 针对 各 种 应 用 程序 和 文件 系统 
的 代理 模块 。 而 应 用 程序 有 无 限 多 种 ， 存 储 广 商 也 有 多 个 ， 但 是 这 些 
应 用 以 及 存储 代理 都 运行 在 同一 个 操作 系统 中 ， 与 其 每 一 个 厂商 为 每 
一 种 应 用 程序 都 开发 自己 的 代理 ， 不 如 在 操作 系统 中 建立 一 个 公共 的 
Framework 服 务 ， 往 上 适 配 各 种 应 用 程序 ， 往 下 则 适 配 各 厂商 的 代 


理 ， 做 到 统一 控制 调配 ， 统 一 开发 接口 。 微 软 在 其 Windows Server 操 
作 系 统 中 就 提供 了 这 样 一 种 公共 服务 模块 ， 这 就 是 VSS 模 块 被 开发 的 


初衷 。 


VSS 的 架构 如 图 16-78 所 示 ， 左 边 是 具体 的 VSS 染 构 ， 右 边 是 抽象 


后 的 架 


构 。 


图 16-78 VSS 架构 图 


整个 VSS 逻 辑 架 构 包 含 4 个 部 分 : VSS 核 心服 务 、 Writer、 


Provider、 Requestoro 


" Writer。 这 里 的 意思 就 是 代表 运行 于 操作 系统 中 的 各 种 应 用 程 


序 ， 当 然 这 些 应 用 程序 必须 支持 VSS 服 务 ， 运 行 时 便 向 VSS 进 
行 注册 以 表明 自己 的 身份 。 每 一 个 应 用 程序 就 是 一 个 Writer。 
至 于 为 何 叫 做 Writer， 是 因为 这 些 应 用 程序 都 需要 向 对 应 的 卷 
或 者 磁盘 中 写 入 数据 ， 所 以 叫做 Writer， 即 数据 写 入 者 。 在 
Windows 系统 中 典型 的 Writer 比如 Exchange Server 、 SQL 
Server、Oracle、DB2、Share Point 等 。VSS 核 心服 务 提 供 SDK 
开发 接口 ， 任 何 应 用 程序 都 可 以 借助 它 来 支持 VSS。 

Provider。 这 里 的 意思 代表 各 个 底层 存储 系统 中 的 快照 支持 者 / 
提供 者 ， 说 白 了 就 是 各 个 存储 厂商 的 存储 系统 以 及 其 在 主机 端 
的 代理 程序 ， 存 储 系统 必须 支持 Snapshot 功 能 ， 不 支持 Snapshot 
则 不 属于 Provider。 

Requestor。 这 里 的 意思 是 代表 各 个 存储 厂商 的 快照 管理 程序 ， 
当然 也 可 以 是 快照 代理 程序 。 这 个 程序 负责 何 时 触发 快照 ， 管 


理 员 通过 在 这 个 程序 中 设 定 一 些 Schedule 来 控制 Snapshot 的 生成 
时 间 点 和 频率 等 。 


使 用 VSS 来 作为 公共 快照 服务 之 后 ， 生 成 一 个 快照 的 具体 流程 如 
下 。 


(1) TI 时刻， 某 应 用 程序 ， 比 如 Exchange Server， 正 在 运行 ， 并 
且 持 续 不 断 地 向 底层 卷 LUN1 写 入 数据 。 


(2) T2 时 刻 ， 系 统管 理 员 需 要 针对 LUN1 触 发 一 次 快照 以 保存 当 
前 的 数据 影像 ， 管 理 员 打开 对 应 存储 厂商 的 Requestor 程 序 界面 ， 在 其 
中 手动 触发 Snapshot。 


(3) IT3 时 刻 ，Requestor 程 序 接收 到 了 管理 员 的 操作 ， 然 后 立即 
向 VSS 核 心服 务 请 求 将 目前 所 有 已 经 在 VSS 服 务 中 注册 的 Writer， 也 就 
是 应 用 程序 的 列表 返回 给 自己 。 


(4) Requestor 判 断 Exchange Server 是 否 在 列表 中 ， 如 果 在 列表 
中 ， 则 提取 其 注册 信息 ， 并 且 用 Exchange Server 的 注册 信息 以 及 所 要 
进行 Snapshot 的 卷 列 表 向 VSS 发 起 请 求 ， 通 知 VSS 快 照 请 求 已 经 发 起 ， 
请 协助 处 理 后 续 事宜 。 


(5) T4 时 刻 ，VSS 收 到 Requestor 的 请 求 之 后 ， 根 据 Requestor 传 
送 的 卷 列 表 信 息 向 所 有 Provider (Snapshot 代 理 程 序 ) 发 起 查询 以 得 知 
哪个 Provider 可 以 提供 针对 LUN1 的 快照 操作 ， 对 应 的 Provider 收 到 查询 
请 求 后 会 进行 应 答 。 


(6) T5 时 刻 ，VSS 此 时 已 经 得 知 了 所 有 必要 的 信息 ， 即 哪个 应 
用 ， 哪 个 卷 ， 哪 个 Provider。VSS 立 即 向 Writer ， 即 Exchange Server 发 


起 请 求 ， 让 Exchange Server 暂 时 生成 一 致 点 ， 没 完成 的 运算 赶快 完 
成 ， 来 不 及 完成 的 就 暂 挂 ， 将 缓存 中 的 数据 该 回 退 的 回 退 ， 并 且 暂 停 
对 数据 卷 的 写 IO 操 作 。Exchange Server 完 成 这 些 步骤 之 后 ， 会 通知 
VSS 它 已 经 准备 好 了 。 


(7) VSS 接 收 到 了 Writer 的 通知 之 后 ， 立 即 向 对 应 的 Provider 发 起 
执行 快照 的 请 求 。Provider (代理 程序 ) 收 到 VSS 的 指令 后 立即 与 存储 
设备 通信 ， 通 知 存储 设备 立即 对 相应 的 卷 生 成 一 份 快照 。 如 果 在 VSS 
请 求 发 起 之 后 10 秒 钟 之 内 没有 收 到 Provider 快 照 成 功 的 通知 ， 则 此 次 操 
作 失 败 ， 系 统 恢 复原 状 。 


(8) 一 旦 快照 在 存储 设备 上 成 功 地 生成 ，Provider (代理 程序 ) 
就 会 接 到 存储 设备 的 通知 ， 然 后 Provider 立 即 通 知 VSS 快 照 已 生成 。 
VSS 接 到 通知 后 立即 向 Writer 发 送 通知 告诉 Writer 可 以 继续 进行 针对 相 
应 数据 卷 的 写 IO 操 作 。 然 后 ，VSS 通 知 Requestor 本 次 快照 成 功 生 成 。 


(9) 系统 恢复 常态 。 


VSS 为 不 同 的 应 用 和 不 同 的 快照 代理 提供 了 一 个 公共 Framework， 
极 大 简化 了 系统 的 复杂 性 。 如 图 16-79 所 示 为 VSS 介 入 前 后 系统 API 复 


杂 度 的 变化 。 
图 16-79 复杂 度 的 变化 
16.2.7” 快照、 克隆 、CDP 与 平行 宇宙 


克隆 的 出 现 恰恰 为 平行 宇宙 、 晴 蝶 效 应 和 弦 、 膜 等 理论 提供 了 计 
算 机 建 模 运算 研究 的 数据 基础 。 


如 果 把 我 们 现在 对 计算 机 所 做 的 事情 对 应 到 造物 主 对 现实 世界 所 
做 的 事情 ， 那 么 就 可 以 找到 对 应 ， 如 图 16-80 所 示 。 那 么 是 不 是 也 就 意 
味 着 现实 世界 的 历史 也 是 可 以 回 滚 的 ， 也 是 可 以 重演 的 ， 只 是 我 们 现 
在 的 破解 进程 还 没有 到 那 一 步 。 搞 不 好 会 让 现实 世界 月 并 掉 而 回 到 原 
点 ? 


图 16-80 “克隆 与 平行 宇宙 


思考 : 同一 个 微粒 为 何 会 同一 时 刻 出 现在 不 同位 置 ? 我 们 通 
过 某 些 实验 隐约 推测 到 这 种 结论 ， 那 么 这 个 微粒 是 不 是 被 多 
个 快照 (平行 宇宙 ) 所 共享 ? 是 不 是 在 同一 个 时 间 维 度 下 附 
带 有 多 个 空间 维度 呢 ? 弦 理 论 就 是 这 样 一 种 理论 ， 它 似乎 正 
试图 去 寻找 造物 主 到 底 为 某 个 世界 创建 了 多 少 个 并 行 发 展 的 
克隆 。 而 这 些 所 有 克隆 的 源头 ， 也 就 对 应 了 宇宙 大 爆炸 理论 
的 那个 所 谓 的 中 心 点 。 

强 子 对 撞 机 是 否 会 是 破解 上 芝 代 码 的 最 终 手 段 ? 是 否 可 以 控 
知 到 上 禹 构造 世界 的 基石 是 1 和 0 还 是 “有 ”和 “无 "”， 或 者 就 是 
某 种 可 以 看 到 的 东西 ， 或 者 根本 什么 都 没有 ? 或 者 当 对 撞 的 
一 瞬间 ， 上 各 构造 的 世界 被 我 们 弄 衣 并 了 ? 霍金 为 何 先后 抛 
出 “不 要 与 外 星人 接触 ”以 及 “时 光 回 济 是 可 以 实现 的 ”两 个 理 
论 ? 这 些 现在 谁 也 不 知道 。 


16.2.8 ”高 帧 率 IO 级 数据 录像 


如 果 说 快照 是 数据 照相 机 ， 那 么 CDP 就 是 数据 录像 机 。 目 前 多 数 
CDP 产 品 所 实现 的 都 是 本 书 前 文中 所 描述 的 那 种 低 帧 率 录 像 ， 也 就 是 
每 隔 几 秒 钟 对 数据 日 志 进行 采样 ， 然 后 对 每 个 采样 点 根据 回溯 线 进 行 


制 表 操作 (生成 一 张 对 采样 点 的 时 刻 数 据 地 址 映射 描述 表 ) ， 然 后 删 
掉 位 于 采样 点 之 间 的 数据 以 腾 出 空间 。 


低 帧 率 的 数据 录像 可 以 从 一 定 程度 上 满足 需求 ， 但 是 毕竟 用 户 的 
要 求 是 越 来 越 多 、 越 来 越 膨 胀 的 ，24 帧 的 电影 其 实 足 够 了 ， 但 是 现在 
依然 出 现 了 48 帧 的 高 流畅 度 电影 。 标 清 电影 也 能 凑合 看 ， 但 是 就 有 人 
希望 看 到 主角 脸 上 的 毛孔 。 对 于 数据 也 是 这 样 ， 比 如 用 户 就 需要 恢复 
某 个 时 间 点 的 数据 ， 结 果 恰 好 就 这 个 时 间 点 没有 采样 。 


数据 库 系统 的 CDP 方 式 


“ 细 粒 度数 据 回 滚 和 前 滚 ” 这 个 思想 到 底 是 谁 发 明 或 者 提出 来 的 我 
们 已 经 无 从 考证 了 ， 但 是 最 成 熟 的 高 帧 率 数据 录像 机 ， 还 得 是 数据 库 
系统 莫 属 。 数 据 库 系统 对 每 一 笔 操 作 都 记录 得 非常 详细 ， 包 括 这 笔 操 
作 所 做 的 更 改 类 型 (插入 、 删 除 、 更 新 等 ) 以 及 该 笔 操 作 所 对 应 的 
SCN 序 号 等 。 记 录 了 所 有 变更 操作 ， 就 可 以 任意 回 滚 和 前 滚 ， 当 然 ， 
需要 将 一 段 时 间 内 所 有 发 生 的 变化 都 记录 下 来 ， 才 可 以 在 这 段 时 间 内 
的 历史 数据 中 任意 回 滚 / 前 滚 。 


数据 库 所 不 能 实现 的 

数据 库 虽 然 可 以 任意 回 滚 ， 但 是 它 不 能 并 行 生成 多 个 历史 时 刻 
的 、 可 访问 的 数据 库 影像 。 如 同一 份 十 分 钟 之 前 的 影像 ， 一 份 一 小 时 
之 前 的 影像 ， 想 同时 访问 这 两 个 影像 ， 此 时 数据 库 系 统 是 无 能 为 力 
的 。 


存储 系统 对 CDP 的 特殊 要 求 


作为 一 个 存储 系统 ， 必 须 实现 上 述 功 能 才 算 专 业 。 但 是 如 何在 保 
证 细 粒 度 回溯 点 的 情况 下 ， 依 然 还 能 提供 上 述 功能 ， 就 是 个 比较 大 的 
挑战 了 。 低 帧 率 模式 下 ， 每 个 采样 点 会 用 一 份 表 来 记录 映射 关系 ， 当 
挂 起 这 个 采样 点 成 为 一 个 虚拟 的 卷 影 像 之 后 ， 针 对 该 影像 的 IO 访问 ， 
可 以 通过 碍 询 该 表 迅 速 得 到 执行 。 


但 是 高 帧 率 模 式 下 ， 采 样 点 模型 已 经 不 适用 了 ， 由 于 回溯 粒度 非 
单 高 ， 甚 至 达到 了 每 个 IO 级 别 ， 那 么 此 时 不 可 能 为 每 个 IO 点 都 记录 一 
张 表 。 所 以 此 时 必须 使 用 数据 库 日 志 形 式 的 回 滚 方式 ， 但 又 要 同时 实 
现 并 行 影像 访问 ， 这 似乎 不 可 能 。 


I0 级 回放 的 唯一 产品 一 一 飞 康 CDP 


我 们 在 前 面 虚拟 化 章节 中 提 到 了 习 康 ， 在 CDP 领 域 ， 不 知道 飞 康 
就 别 说 你 懂 CDP。 飞 康 是 业界 第 一 家 、 也 是 唯一 一 家 能 够 提供 真正 可 
行 的 IO 级 回放 粒度 CDP 技 术 的 厂商。 飞 康 进 入 中 国 时 ， 引 来 国内 多 家 
厂商 纷纷 研究 和 效仿 ， 不 仅仅 是 在 技术 层面 ， 更 多 是 在 产品 、 用 户 体 
验 层 面 ， 因 为 几乎 没有 其 他 厂商 能 将 CDP 从 技术 到 产品 转化 地 如 此 彻 
底 。 业 界 也 曾经 质疑 过 习 康 是 否 真 的 能 够 做 到 IO 粒度 的 回 滚 ， 本 书 前 
文中 也 曾 对 IO 级 别 的 回放 进行 过 分 析 以 及 对 一 致 性 方面 的 担忧 。 但 是 
飞 康 很 好 地 处 理 、 包 装 和 屏 贡 了 这 些 问题 ， 让 IO 级 CDP 变 得 真正 可 
用 ， 这 就 是 其 差异 化 技术 所 在 了 。 


说 明 : 由 于 飞 康 并 没有 公开 这 些 技术 的 底层 细节 ， 所 以 外 界 
对 飞 康 的 研究 都 属于 猜测 分 析 ， 那 么 我 也 不 妨 在 这 里 分 析 一 
把 ， 正 如 本 书 前 文中 的 模型 建立 和 分 析 一 样 。 


试想 一 下 ， 在 这 种 IO 级 别 细 粒度 回溯 的 场景 下 ， 就 完全 没有 必要 
为 每 个 IO 记录 一 个 单独 的 表 了 ， 也 就 是 说 ， 日 志 本 身 ， 已 经 是 个 内 艇 
的 表 了 。 我 们 先 来 做 个 简易 模型 ， 有 100 个 LBA 组 成 一 个 卷 ， 然 后 针对 
这 个 卷 的 10、20..…..100 这 10 个 LBA 做 了 多 次 乱 序 、 重 赤 的 写 IO 操 
作 ， 现 在 要 求生 成 第 二 个 IO (LBA70 也 就 是 T1 时 刻 ) 和 第 9 个 IO 
(LBA10 也 就 是 T2 时 刻 ) 历史 时 刻 的 两 份 影像 ， 而 且 要 求 可 并 行 访 
问 。 如 图 16-81 所 示 。 


图 16-81 IO 级 CDP 日 志 空 间 


我 们 还 是 按照 之 前 的 模型 方法 ， 假 设 这 两 个 历史 时 刻 虚 拟 卷 已 经 
生成 ， 主 机 端 已 经 挂 载 这 两 个 卷 ， 然 后 主机 针对 T1 时 刻 的 虚拟 卷 的 
LBA50 进 行 了 读 操 作 ， 此 时 CDP 系 统 应 该 去 哪里 找 LBA50? 读者 应 该 
很 清楚 了 ， 那 就 是 要 从 源 卷 的 基准 镜像 中 读 出 LBA50 然 后 发 送 给 主 
机 。 为 什么 ? 因为 T1 这 个 历史 时 刻 点 之 前 ， 对 LBA50 的 更 新 还 没有 发 
生 (虽然 在 当前 日 志 中 Tl 时 刻 后 面 确实 有 一 笔 LBA50 的 写 IO 被 记 
录 ) ， 也 就 是 在 日 志 中 T1 时 刻 之 前 未 出 现 过 LBA50。 同 理 ， 主 机 针对 
比如 LBA1024 (不 在 日 志 中 ) 的 访问 ， 同 样 也 要 去 源 卷 基准 镜像 中 寻 
找 。 但 是 针对 LBA10 的 访问 ，CDP 引 擎 就 必须 从 日 志 中 读 出 LBA10 返 
回 给 主机 ， 因 为 在 T1 时 刻 之 前 ， 日 志 中 恰好 有 一 笔 针 对 LBA10 的 写 IO 
被 记录 。 再 来 看 针对 T2 时 刻 的 虚拟 卷 的 访问 ， 其 道理 是 一 样 的 ， 同 样 
是 访问 LBA50， 但 是 此 时 CDP5 引 擎 就 必须 明确 地 知道 ，LBA50 是 存储 
在 日 志 中 的 并 且 是 在 T2 时 刻 之 前 发 生 ， 所 以 必须 从 日 志 中 来 找到 T2 时 
刻 之 前 最 近 的 一 笔 (可 能 会 有 多 笔 ) LBA50 的 记录 从 而 返回 给 主机 。 


这 个 模型 非常 简单 ， 任 何 一 个 人 通过 看 图 都 能 很 快 判 断 出 任何 一 
个 IO 访问 ， 到 底 应 该 从 哪里 找 数 据 返回 给 主机 。 仔 细 体 会 一 下 ， 寻 找 
其 中 规律 ， 这 个 算法 模型 其 实说 白 了 就 是 : 针对 任何 历史 时 刻 点 的 虚 


拟 卷 影像 的 任何 LBA 的 访问 ，CDP 引 擎 首先 要 判断 出 该 IO 地 址 对 应 的 
数据 是 否 存在 于 日 志 中 ， 如 果 有 ， 表 去 日 志 中 该 历史 时 刻 点 之 前 的 记 
录 中 去 搜索 ， 如 果 搜 不 到 ， 就 从 基准 镜像 中 读 出 并 返回 ; 如 果 初 始 判 
断 该 访问 地 址 根本 就 不 在 日 志 中 ， 则 直接 从 源 卷 基准 镜像 中 对 应 的 
LBA 中 读 出 该 数据 即 可 ， 不 需要 搜索 ， 因 为 该 LBA 与 访问 的 LBA 是 一 
一 对 应 的 。 


我 们 看 到 ， 上 述 算 法 模型 ， 对 针对 有 某 地 址 的 访问 ， 做 了 两 级 搜 
索 ， 为 何不 用 一 级 搜索 呢 ， 比 如 任何 一 个 访问 ， 先 整体 搜 一 遍 日 志 ， 
搜 不 到 再 去 基准 镜像 中 读 取 ? 如 果 这 样 的 话 ， 性 能 会 非常 差 。 上 图 中 
的 日 志 只 记录 了 十 几 笔 操 作 ， 但 是 现实 中 ， 会 有 几 十 万 、 上 百 万 甚至 
千 万 笔 操 作 ， 搜 一 遍 谈何容易 。 那 么 如 何 快速 地 判断 某 地 址 是 否 在 日 
志 中 或 者 不 在 日 志 中 ? 这 个 就 很 简单 了 ， 利 用 一 个 Bitmap ， 源 卷 每 个 
块 或 者 LBA， 对 应 Bitmap 中 的 一 个 bit， 如 果 该 bit 被 置 1， 证 明 该 
块 /LBA 目 前 在 日 志 中 存在 ,但 是 并 不 能 判断 存在 于 该 历史 时 刻 点 之 前 
还 是 之 后 ， 如 果 该 bit 被 置 0，， 则 证 明 该 块 /LBA 在 日 志 中 不 存在 ， 也 就 
是 说 从 录像 开始 之 后 ， 这 个 块 /LBA 根 本 没有 被 更 新 过 ， 此 时 皆 大 欢 
喜 ， 直 接 去 基准 镜像 中 访问 该 块 ， 性 能 最 高 。 


第 一 级 搜索 可 以 利用 位 图 来 缓解 性 能 问题 。 但 是 如 果 必 须 去 日 志 
中 查找 ， 此 时 性 能 一 定 会 有 损失 的 。 但 是 我 们 还 是 可 以 进行 优化 。 首 
先 ， 为 了 加 速 查找 ， 必 须 为 整个 日 志 生 成 一 份 元 数据 表 ， 记 录 每 个 IO 
的 序号 和 这 个 IO 的 起 始 目标 地 址 和 长 度 ， 比 如 以 LBA 扇 区 为 粒度 ， 使 
用 32bit 地 址 的 话 可 以 描述 2TB 的 源 卷 容 量 ， 所 以 ， 实 际 产品 可 以 选择 
一 个 支持 原 卷 容 量 的 上 限 ， 比 如 2TB。 然 后 再 使 用 32bit 来 表示 IO 的 序 
号 ， 也 就 是 整个 日 志 空 间 可 保存 约 42 亿 次 IO ， 每 秒 5K IOPS 的 话 可 以 


连续 跑 10 天 ， 一 般 保存 10 天 的 细 粒 度 回 放 日 志 基 本 够 用 了 。1IO 的 长 度 
使 用 SCSI 协 议 中 的 上 限 (也 就 是 16bit) 足够 了 。 


这 样 的 话 一 共 需 要 80bit 来 描述 日 志 空 间 中 的 一 笔 IO， 加 上 其 他 考 
虑 〈 比 如 保留 一 些 将 来 用 的 字段 等 ) ， 按 照 96bit 也 就 是 12 字 节 来 算 ， 
每 笔 IO 记 录 将 耗费 12 字 节 摘 述 ， 每 笔 IO 平均 大 小 按照 4KB 来 计算 的 
话 ， 元 数据 比例 大 概 在 3%o 左 右 ， 完 全 在 可 接受 的 范围 内 ， 如 果 日 志 空 
间 大 小 为 ITB， 那 么 会 耗费 3GB 内 存 空 间 来 完全 缓存 元 数据 ， 这 也 是 
可 行 和 可 接受 的 。 另 外 ， 这 些 元 数据 在 没有 生成 虚拟 影像 的 时 候 ， 是 
不 需要 常 驻 内 存 的 ， 仅 当 在 生成 了 虚拟 影像 之 后 ， 为 了 加 速 主机 IO 访 
问 所 以 才 有 必要 常 驻 内 存 。 


元 数据 表 只 按照 IO 序号 排序 是 不 够 的 ， 因 为 IO 序号 不 能 被 用 作用 
户 回 滚 时 候 的 依据 ， 因 为 没有 任何 人 会 对 IO 序号 有 概念 ， 所 以 还 必须 
在 日 志 元 数据 表 中 加 入 时 间 戳 ， 这 里 可 以 变通 一 下 ， 可 以 对 每 笔 IO 都 
加 上 一 个 时 间 戳 ， 也 融 是 用 时 间 戳 来 取代 IO 序号 ， 如 果 不 需要 IO 级 别 
细 粒 度 恢 复 的 话 ， 时 间 戳 粒度 可 以 粗 一 些 ， 比 如 日 志 中 每 10 个 IO 就 记 
录 一 个 时 间 惟 ， 这 些 都 是 可 以 灵活 设计 的 。 


元 数据 表 是 按照 时 间 戳 /序号 来 排序 的 ， 当 用 户 生 成 了 某 个 时 间 玲 
的 虚拟 卷 影 像 之 后 ， 根 据 前 文 分 析 ， 每 一 笔 针 对 虚拟 影像 的 IO 会 经 历 
两 级 搜索 ， 如 果 落 入 了 日 志 空 间 中 ， 那 么 CDP5 引 和 擎 区 要 将 该 时 间 戳 之 
前 的 所 有 日 志 搜 索 一 遍 以 查找 日 志 中 所 有 与 该 IO 请 求 的 地 址 范围 有 区 
集 的 那些 IO 记录 ， 然 后 将 数据 拼接 起 来 ， 返 回 给 主机 。 由 于 日 志 中 的 
IO 记录 是 按照 时 间 / 序 号 排序 的 ， 所 以 为 了 提升 搜索 速度 ， 必 须 另 外 生 
成 一 份 按照 所 记录 IO 的 LBA 起 始 地 址 排序 的 索引 ， 也 就 是 说 ， 用 户 每 
生成 一 个 东 时 间 戳 处 的 虚拟 卷 影像 ，CDP5 引 擎 就 需要 将 该 时 间 戳 之 前 
的 日 志 部 分 的 元 数据 做 一 个 索引 ， 这 样 就 可 以 加 速 查找 。 比 如 接收 到 


主机 发 来 的 读 IO 请 求 ， 系 统 在 查 完 位 图 之 后 发 现 必须 从 日 志 中 寻找 该 
地 址 数据 ， 那 么 系统 会 根据 该 IO 请 求 起 始 地址 到 对 应 该 时 间 点 生成 的 
索引 中 快速 定位 到 所 有 覆盖 了 该 1O 起 始 地 址 的 记录 项 (该 索引 按照 IO 
起 始 地 址 排序 ， 所 以 查 起 来 很 快 ) ， 然 后 找 出 时 间 最 新 的 那个 记录 
项 ， 按 照 该 记录 项 中 给 出 的 其 所 处 于 日 志 空 间 中 的 位 置 ， 读 出 对 应 数 
据 ， 返 回 给 主机 。 


有 了 上 述 的 模型 和 优化 算法 ， 基 于 IO 粒度 回 滚 的 高 帧 率 数 据 回 
放 ， 就 变 得 可 行 了 。 如 图 16-82 所 示 ， 还 可 以 继续 优化 设计 ， 比 如 将 元 
数据 空间 单独 拿 出 来 ， 放 到 SSD 中 去 加 速 访问 。 用 户 可 以 任意 生成 多 
份 、 多 个 历史 时 刻 的 虚拟 卷 影像 ， 每 个 影像 所 占用 的 开销 只 是 速 查 索 
引 而 已 ， 上 层 用 户 体验 就 会 非常 给 力 。 还 可 以 将 CDP 日 志 先 缓存 在 
RAM 中 ， 然 后 定期 Flush 到 磁盘 上 ， 相 当 于 分 成 在 线 日 志和 归档 日 志 
大 部 分 ， 另 外 ， 归 档 日 志 中 较 早 的 数据 如 果 不 再 需要 回放 则 可 以 被 
Merge 到 源 卷 基准 镜像 中 去 ， 相 当 于 一 个 合成 备份 ， 这 样 就 不 必 维 护 
越 来 越 多 的 日 志 空 间 和 元 效 据 了 。 


图 16-82 IO 级 CDP 的 四 个 存储 空间 


另外 ， 在 设计 上 还 可 以 做 更 深层 次 的 优化 。 长 时 间 录 像 不 是 做 不 
到 ， 而 是 代价 太 高， 比如 需要 大 量 的 元 数据 被 记录 ， 这 样 重 放 时 的 性 
能 会 较 差 。 有 没有 办 法 来 降低 元 数据 记录 量 从 而 进一步 提升 重 放 性 能 
呢 ? 飞 康 在 底层 其 实 是 用 了 快照 十 录像 合体 来 解决 这 个 问题 的 。 有 技 
术 感 觉 的 读者 一 定 会 猜测 到 ， 其 实 就 是 以 照片 为 基础 ， 然 后 记录 在 每 
份 照片 基准 之 上 的 数据 变化 ， 这 样 所 保存 的 元 数据 就 非常 小 。 这 个 原 
理 ， 与 实际 的 视频 压缩 编码 非常 类 似 ， 实 际 视频 压缩 编码 技术 中 也 是 
将 视频 分 成 P 帧 和 I 帧 ，P 帧 是 基准 ， 第 一 个 I 帧 只 记录 相对 于 P 帧 的 增 
量 ， 第 二 个 I 帧 则 记录 相对 于 前 一 个 I 帧 的 增 量 ， 利 用 P 十 11 十 12 十 13 


十 .……. 了 的 方式 ， 对 整个 视频 进行 微分 ， 那 些 变化 量 不 大 的 场景 〈 比 
如 有 某 个 镜头 ) ， 几 秒 之 内 视角 和 内 容 基本 相同 ， 这 样 ， 这 个 镜头 就 可 
以 被 编码 成 P 十 nI 的 形式 ， 如 果 镜 头 切 换 ， 内 容 几 乎 全 变 ， 那 么 就 使 用 
新 的 P 十 nI 来 记录 ， 多 个 P 十 nI 积 分 就 可 以 还 原 出 整个 视频 。 习 康 CDP 
底层 恰恰 就 是 这 种 原理 。 


飞 康 会 在 CDP 日 志 中 打 入 很 多 TimeMark， 每 个 TmeMark 其 实 就 是 
一 个 P 基 准 帧 ， 也 就 是 一 份 快 照 (一 份 照片 ) 。 系 统 维护 快照 所 耗费 
的 元 数据 相 比 于 CDP 是 要 少 得 多 的 ， 因 为 快照 不 会 记录 IO 的 顺序 和 时 
间 ， 只 会 记录 位 置 映 射 关 系 ， 所 以 代价 比 CDP 小 得 多 。 基 于 每 个 快 
照 ， 系 统 会 在 快照 的 基准 上 ， 记 录 增 量 日 志 久 其 元 数据 ， 这 样 ， 对 T1 
时 刻 的 查找 就 是 基于 T1 时 刻 之 前 距离 T1 时 刻 最 近 的 Snapshot TimeMark 
进行 的 ， 基 于 它 ， 与 后 续 记 录 的 CDP 元 数据 共同 组 合 ， 抽 取出 T1 时 刻 
的 卷 虚拟 影像 (TimeView) 给 主机 使 用 。 如 果 T2 时 刻 与 TI 时刻 之 间 没 
有 Snapshot TimeMark 触 发 ， 那 么 T2 时 刻 与 T1 时 刻 的 虚拟 影像 提取 就 得 
使 用 同一 个 Snapshot Marker， 如 果 它 们 之 间 有 Snapshot Marker，T2 时 
刻 便 会 以 离 它 最 近 的 Snapshot Marker 为 基准 ， 与 录像 区 新 增 记 录 的 元 
数据 共同 抽取 出 T2 时 刻 的 TimeView。 


上 述 的 技术 人 逻辑 看 似 复 杂 ， 但 是 被 封装 成 产品 之 后 ， 只 需要 几 步 
简单 配置 即 可 完成 。 但 是 如 果 你 不 了 解 技 术 原 理 和 架构 ， 这 几 步 配置 
中 的 选项 就 会 感觉 非常 迷 范 。 我 们 下 面 就 来 看 一 下 飞 康 CDP 的 配置 步 
骤 ， 掌 握 了 飞 康 的 步骤 ， 也 就 等 于 掌握 和 理解 了 其 他 CDP 厂 商 产 品 的 
原理 和 配置 步骤 了 。 


(1) 如 图 16-83 所 示 ， 要 对 某 个 源 卷 进行 录像 ， 就 必须 像 按 下 录 
像 键 一 样 ， 在 界面 中 勾 选 Enable CDP， 完 成 这 个 向 导 之 后 ， 系 统 后 人 台 
天 会 目 动 开始 录像 了 。 


图 16-83 ”Enable CDP 日 志 记 录 及 选择 存储 空间 


(2) 然后 设置 日 志 空间 的 管理 参数 ， 包 括 连 续 录像 周期 、 是 否 
动 扩容 、 自 动 扩 容 阅 值 、 扩 容 比例 、 日 志 容 量 上 限 。 在 “高 级 ”按钮 中 
还 可 以 设置 日 志 从 被 Merge 到 源 卷 基准 镜像 空间 时 的 IO 力度 ， 过 高 的 
力度 会 影响 性 能 ， 因 为 会 占用 较 多 的 磁盘 性 能 资源 。 如 图 16-84 所 示 。 
数据 被 从 日 志 空间 Merge 到 基准 镜像 中 之 后 ， 日 志 中 已 被 Merge 的 数据 
并 不 会 立即 被 删除 ， 两 种 情况 发 生 时 才 会 被 删除 : CDP 日 志 空间 不 够 
用 了 ， 被 强行 删除 ; CDP 日 志 超 过 了 保留 时 间 。 


图 16-84 “设置 日 志 空 间 管理 参数 


(3) 再 往 下 是 设置 快照 参数 。 飞 康 对 快照 的 处 理 与 CDP 不 同 ， 快 
照 耗 费 资产 比 CDP 要 少 。 图 16-85 中 所 示 的 TimeMark 相 当 于 快照 的 时 间 
戳 ， 在 这 个 页 面 中 可 以 选择 何 时 、 开 始 每 隔 多 长 时 间 做 一 次 快照 以 及 
最 大 保留 快照 份 数 、 在 快照 生成 时 是 否 要 保障 该 快照 的 一 致 性 。 


图 16-85 “设置 快照 策略 


飞 康 在 快照 技术 方面 的 实现 是 非常 全 面 的 ， 在 主机 端 提 供 了 支持 
各 种 主流 应 用 系统 的 快照 Agent 组 件 ， 并 且 可 以 实现 从 CDP 设 备 侧 主 动 
向 主机 上 的 Agent 发 出 快照 通知 ， 这 一 点 是 其 他 产品 或 者 方案 中 没有 见 
过 的 ， 类 似 方案 基本 都 是 通过 一 个 单独 的 快照 管理 软件 来 制定 和 执行 
策略 ， 这 显然 带 来 了 不 便 。 上 毕竟 我 们 都 希望 在 一 个 页 面 中 搞定 一 切 最 
好 。 


(4) 这 一 步 结 束 之 后 系统 便 会 在 后 台 持 续 录 像 ， 并 且 在 所 指定 的 
TimeMark 时 间 点 生成 对 应 的 快照 。 此 外 飞 康 很 人 性 化 地 提供 了 手动 创 


建 快照 、 对 快照 以 及 CDP 日 志 当 前 时 间 点 增加 说 明 性 文字 ， 以 及 设 定 
快照 优先 级 的 功能 ， 当 快照 数量 达到 上 限 之 后 ， 系 统 会 优先 删除 低 优 
先 级 的 快照 ， 如 图 16-86 所 示 。 另 外 ， 飞 康 CDP 还 提供 了 克隆 功能 ， 从 
任何 一 份 快 照 生 成 一 份 实体 卷 数据 ， 可 以 算 作 一 个 备份 。 


图 16-86 ”对 快照 点 做 标记 


那么 之 前 系统 记录 的 录像 或 者 照片 该 怎么 回放 呢 ? 回放 功能 在 飞 
康 产 品 中 的 名 称 对 应 为 TimeView， 也 就 是 可 以 任意 查看 该 数据 卷 在 任 
意 历 史 时 间 点 的 历史 数据 。 可 以 从 快照 中 生成 卷 虚 拟 影 像 ， 也 可 以 从 
CDP 日 志 中 的 任何 时 间 点 生成 虚拟 影像 ， 当 然 时 间 总 要 有 个 最 小 粒度 
可 供用 户 来 选择 ， 飞 康 提供 了 微 秒 级 别 的 回放 粒度 。 本 书 前 文中 也 说 
过 ， 专 业 性 不 强 的 用 户 是 无 法 理解 “10 序 号 ”的 ， 所 以 给 出 时 间 粒 度 才 


是 最 有 意义 的 。 


如 图 16-87 所 示 ， 可 以 使 用 滑动 条 来 任意 寻找 时 间 点 ， 可 以 手动 输 
入 精确 到 台 秒 级 的 历史 时 间 点 ， 也 可 以 直接 选择 之 前 所 标注 的 助 记 标 
记 点 ， 还 可 以 单 击 放大 按钮 来 精确 查看 每 个 时 间 点 的 详细 信息 。CDP 
回放 的 最 佳 用 户 体验 全 部 集中 在 这 个 页 面 入 口中 了 。 图 像 的 纵 坐 标 表 
示 该 时 刻 虚拟 影像 所 占用 的 额外 空间 的 容量 ， 高 度 较 高 则 表示 该 时 刻 
的 写 IO 压 力 比较 大 。 单 击 放大 按钮 之 后 ， 会 出 现 如 图 16-88 所 示 的 窗 
口 。 


图 16-87 ”从 CDP 日 志 创 建 虚拟 卷 影像 图 16-88 ”可 视 化 的 细 粒 度 回放 点 


这 个 窗口 会 显示 以 5 分 钟 为 单位 的 回放 点 ， 左 下 角 切 换 按钮 可 以 切 
到 上 一 个 或 下 一 个 5 分 钟 。 可 以 看 到 ， 纵 坐标 可 以 精确 到 每 个 时 间 点 


系统 接收 了 多 少 个 写 IO。 可 以 单 击 这 个 页 面 ， 会 有 竖 直 方向 的 参考 
线 ， 页 面 下 方 会 给 出 当前 参考 线 所 处 的 时 间 点 以 及 该 时 刻 的 写 IO 压 
力 ， 也 就 是 该 时 间 点 占用 了 多 少 额外 的 空间 。 用 户 可 以 选择 任意 时 间 
点 进行 回放 。 


提示 : 这 里 要 理解 一 点 ，IO 压 力 为 0 的 那些 时 间 点 并 不 意味 
着 不 能 被 选择 用 来 生成 虚拟 卷 影像 ， 相 反 ， 这 些 点 是 用 来 生 
成 一 致 性 虚拟 影像 的 最 合适 时 机 。 

说 实话 ， 飞 康 这 种 对 用 户 体验 ”图 1689 玲 于 10 级 别 的 回放 

的 雕琢 真 的 是 达到 了 很 高 的 水 

准 ， 我 之 前 曾经 在 某 厂商 设计 了 一 套 所 谓 “ 可 视 化 智能 存储 ” 
的 存储 软件 解决 方案 ， 飞 康 的 这 种 设计 可 谓 是 英雄 所 见 略 
同 ， 有 很 强 的 共鸣 产生 。 另 外 ， 如 图 16-88 所 示 ， 当 单 击 
Search 按 钮 之 后 ， 不 但 可 以 搜索 该 范围 内 的 那些 通过 与 快照 
Agent 配 合 产生 的 一 致 性 时 间 点 ， 还 可 以 选择 过 滤 搜索 那些 低 
于 所 给 出 值 写 IO 数量 的 时 间 点 ， 因 为 这 些小 压力 时 间 点 往往 
具有 更 好 的 一 致 性 ， 可 恢复 的 几率 更 高 ， 如 图 16-89 所 示 。 


此 外 ， 除 了 使 用 TimeView 来 回放 历史 时 刻 之 外 ， 还 可 以 直接 像 数 
据 库 系统 一 样 ， 回 滚 和 前 滚 源 数 据 卷 ， 可 以 任意 回 滚 或 者 前 滚 ， 回 滚 
之 后 如 果 不 满 意 还 可 以 前 滚 ， 直 到 满意 为 止 。 


虽然 说 CDP 相 当 于 数据 录像 机 ， 但 是 真 的 把 它 做 成 和 电影 播放 器 
一 样 的 用 户 体验 ， 飞 康 是 第 一 个 也 是 唯一 一 个 。 


说 明 : 飞 康 技术 团队 对 技术 的 追求 、 表 达 和 展现 已 经 不 能 够 
用 专业 来 描述 了 ， 应 该 用 “偏执 ”来 描述 ， 偏 执 的 产品 往往 是 
最 让 人 崇敬 的 产品 ， 也 是 质量 最 高 的 产品 ， 偏 执意 味 着 执着 


的 追求 ， 一 个 团队 能 够 允许 偏执 的 存在 ， 这 个 团队 才 会 有 兢 
强 的 生命 力 。 


以 上 详细 介绍 了 飞 康 的 CDP 技 术 。 下 面 简单 介绍 一 下 飞 康 的 CDP 
产品 。 软 件 定 义 存储 的 核心 就 是 强大 的 软件 层 ， 至 于 硬件 ， 目 前 已 经 
完全 倒 向 开放 式 x86 Server 模 式 了 ， 那 些 定制 化 、 差 异化 的 控制 器 ， 似 
乎 已 经 没什么 吸引 力 了 。 如 果 将 飞 康 的 软件 平台 IPStor Gen2 Platform 
安装 在 一 台 高 性 能 服务 器 上 ， 再 加 上 磁盘 扩展 柜 ， 那 就 是 一 套 完 整 的 
存储 系统 ， 飞 康 CDP 管 理 器 就 是 这 样 一 套 偏重 于 数据 保护 CDP 以 及 备 
份 的 存储 系统 。 


如 图 16-90 所 示 为 飞 康 网 关 型 图 16-90 “ 飞 康 CDP 网 关 型 管理 器 
CDP 管 理 器 及 一 体 化 CDP 管 理 器 。 
网 天 型 产品 只 提供 一 个 控制 器 ， 其 后 端 可 以 挂 接 来 目 其 他 存储 系统 的 
逻辑 卷 ; 一 体 化 产品 则 可 以 提供 磁盘 扩展 单元 来 作为 本 地 存储 空间 ， 
另外 也 可 以 挂 接 其 他 系统 的 逻辑 卷 。 《 康 CDP 管 理 器 是 一 款 软 硬件 打 
包 的 产品 ， 用 户 可 以 直接 购买 软件 License 然 后 自行 安装 在 自己 的 服务 
器 上 ， 但 是 对 于 一 些 非 专业 用 户 ， 则 更 加 倾向 于 购买 整套 软 硬 件 系 
统 ， 一 来 免 去 安装 烦恼 ， 二 来 还 可 以 保证 更 好 的 兼容 性 。 


如 图 16-91 和 16-92 所 示 为 飞 康 IPStor Gen2 Platform 以 及 CDP 产 品 的 
特色 技术 和 高 级 功能 。 这 些 技术 和 功能 我 们 已 经 在 本 书 前 面 的 虚拟 化 
章节 中 进行 了 详细 介绍 ， 在 此 不 再 歼 述 。 


图 16-91 “ 飞 康 CDP 网 关 型 管理 器 的 特色 技术 一 览 


图 16-92 “ 飞 康 CDP 网 关 型 管理 器 的 高 级 功能 一 览 


16.3 ”数据 备份 系统 的 基本 要 件 


备份 对 象 : 是 指 需要 对 其 进行 备份 的 备份 源 ， 比 如 一 人 台 服 务 器 
上 某 块 磁盘 上 的 所 有 数据 ， 或 者 某 数据 库 下 所 有 数据 文件 ， 这 
些 都 算 备份 对 象 。 

备份 目标 : 是 指 将 备份 对 象 的 数据 备份 到 何 处 。 备 份 目标 可 以 
是 备份 对 象 本 身 的 磁盘 、 磁 带 等 介质 ， 也 可 以 是 任何 其 他 地 点 
的 磁盘 、 磁 带 机 、 磁 带 库 等 介质 。 如 果 备 份 目标 位 于 备份 对 象 
本 身 ， 比 如 ， 从 一 台 Windows 服 务 器 的 D 盘 复制 某 些 文件 到 自身 
的 E 盘 ， 则 不 需要 占用 任何 网 络 资源 ， 因 为 数据 从 备份 对 象 自 
身 生 成 ， 到 自身 结束 。 如 果 备份 目标 位 于 其 他 地 点 ， 比 如 同一 
个 机 房 内 的 其 他 服务 器 ， 或 者 外 部 独立 磁盘 阵列 ， 则 数据 从 备 
份 对 象 生 成 ， 传 输 到 备份 目标 的 过 程 中 ， 就 需要 占用 网 络 资 
源 ， 因 为 连接 备份 对 象 和 备份 目标 的 只 有 网 络 。 稍 后 将 会 详细 
介绍 用 哪 种 网 络 。 

备份 通路 : 也 就 是 我 们 上 文 提 到 的 ， 如 果 备 份 对 象 和 备份 目标 
都 位 于 同一 个 角色 上 ， 那 么 备份 通路 就 是 这 个 角色 自身 的 计算 
机 总 线 ， 也 就 是 连接 这 个 角色 的 CPU、 内 存 和 磁盘 的 总 线 ， 
为 数据 只 在 这 个 总 线 上 流动 。 如 果 备 份 对 象 和 备份 目标 处 于 远 
离 状态 ， 则 二 者 必须 通过 某 种 网 络 连 接 起 来 ， 而 这 个 网 络 就 是 
这 个 备份 环境 的 备份 通路 。 关 于 备份 通路 会 在 后 面 的 例子 中 详 
细 描 述 。 

备份 执行 引擎 : 有 了 备份 源 、 备 份 目标 和 连接 二 者 的 备份 通路 
之 后 ， 需 要 一 个 引擎 来 推动 数据 从 备份 源流 到 备份 目标 。 这 个 
引擎 一 般 由 备份 软件 来 担任 。 

备份 策略 : 是 指 备份 引擎 的 工作 规则 。 引 擎 不 能 无 时 无 刻 地 运 
转 ， 它 需要 根据 设 定好 的 规则 来 运转 。 


下 面 将 着 重 介绍 一 下 备份 目标 、 备 份 通路 和 备份 引擎 这 三 个 要 
件 。 


16.3.1 备份 目标 
1. 用 本 地 磁盘 作为 备份 目标 


用 本 地 磁盘 作为 备份 目标 ， 就 是 把 本 地 磁盘 上 待 备份 的 数据 ， 备 
份 到 本 地 磁盘 其 他 的 分 区 或 者 目录 。 用 这 种 方式 可 以 不 影响 任何 其 他 
服务 器 以 及 共用 网 络 。 数 据 流动 的 范围 完全 局 限 在 备份 对 象 自身 。 


但 是 这 样 做 的 缺点 就 是 对 备份 对 象 自身 的 性 能 影响 太 大 ， 数 据 从 
磁盘 读 出 ， 需 要 耗费 磁盘 资源 。 读 出 后 写 入 内 存 ， 需 要 耗费 内 存 资 
源 ， 然 后 再 从 内 存 写 入 磁盘 的 其 他 分 区 ， 同 样 需要 耗费 磁盘 资源。 备 
份 执行 期 间 ， 还 会 对 其 他 IO 密集 型 的 程序 造成 极 大 影响 。 通 党 这 种 方 
式 只 用 于 不 太 关 键 的 应 用 和 非 IO 密集 型 应 用 ， 以 及 对 实时 性 要 求 不 高 
的 应 用 。E-mail 服 务 器 的 备份 就 是 典型 的 例子 ， 因 为 E-mail 转 发 实时 性 
要 求 不 高 ， 转 发 速度 慢 一 些 ， 对 用 户 造 成 的 影响 也 不 会 很 大 。 


2。 用 SAN 磁 盘 作 为 备份 目标 


用 SAN 上 的 磁盘 做 备份 ， 就 是 把 备份 对 象 上 需要 备份 的 数据 ， 从 
本 地 磁盘 读 入 内 存 ， 然 后 从 内 存 中 写 入 连接 到 SAN 的 适配器 ， 即 HBA 
卡 缓冲 区 ，HBA 卡 再 通过 线 绕 ， 将 数据 通过 SAN 网 络 传送 到 磁盘 阵列 
上 。 


这 种 方式 的 优点 就 是 从 本 地 磁盘 读 出 数据 ， 写 入 的 时 候 只 耗费 
SAN 共 用 网 络 带 宽 资 源 ， 而 且 能 获得 SAN 的 高 速度 ， 对 备份 对 象 性 能 


影响 相对 较 小 ， 缺 点 是 对 公共 网 络 资源 和 盘 阵 出 口 带宽 有 一 定 影响 ， 
因为 耗费 了 一 定 的 带宽 用 来 传输 数据 ， 同 时 数据 在 流向 盘 阵 接口 的 时 
候 ， 也 要 占用 接口 带宽 。 


如 果 备 份 对 象 数 据 本 身 就 存放 在 SAAN 上 的 磁盘 ， 而 备份 目标 同样 
是 SAN 磁 盘 ， 那 么 数据 流动 的 通路 比较 长 。 在 后 面 介绍 备份 通路 的 时 
候 有 再 做 详细 阐释 。 


3。 用 NAS 目 录 作 为 备份 目标 


用 NAS 目 录 作 为 备份 目标 ， 就 是 将 本 地 磁盘 上 的 数据 备份 到 一 个 
远程 计算 机 的 共享 目录 中 。 比 如 Windows 环 境 下 常用 的 文件 夹 共享 ， 
就 是 这 样 一 个 典型 的 例子 。 一 台 计 算 机 共享 一 个 目录 ， 另 一 台 计 算 机 
向 这 个 目录 中 写 入 数据 。 而 数据 一 般 是 通过 以 太 网 络 来 进行 传递 的 。 
这 种 方式 占用 了 前 端 网 络 的 带宽 ,但 是 相对 廉价 ， 因 为 不 需要 部 署 
SAN。 


4. 用 SAN 上 的 磁带 库 作为 备份 目标 


用 FC 接口 作为 外 部 传输 接口 的 设备 ， 不 仅仅 有 主机 上 的 HBA 适 配 
器 、 人 磁盘 阵列 ， 磁 带 机 和 磁带 库 ， 也 可 以 用 FC 接口 作为 外 部 传输 接 
口 。 用 线 红 连 接 磁 带 库 和 和 SAN 交换 机 之 后 ， 处 于 SAN 上 的 所 有 主机 系 
统 便 会 识别 出 这 人 台 磁 带 库 设备 ， 自 然 也 就 可 以 用 磁带 来 当 作 备份 目标 
了 。 


磁带 库 ， 由 机 械 手 、 驱 动 器 、 磁 带 模 组成。 图 16-93 和 图 16-94 分 
别 为 某 型 号 磁带 库 的 外 视图 和 某 型 号 磁带 库 的 内 视图 。 


图 16-93 ” 某 型 号 磁带 库 的 外 视图 图 16-94” 某 型 号 磁带 库 的 内 视图 


磁带 驱动 器 是 磁带 库 的 核心 组 件 。 可 以 将 驱动 器 想象 成 一 个 电 
机 ， 和 带动 磁带 旋转 ， 然 后 磁头 贴 住 磁带 、 读 写 数 据 ， 把 电机 、 磁 头 以 
及 控制 电路 集合 到 一 起 ， 形 成 一 个 独立 的 模块 ， 就 是 驱动 器 。 


机 械 手 ， 在 机 械 生 产 线 上 机 械 手 束 是 一 个 计算 机 夹子 而 已 ， 把 物 
品 从 一 个 地 方 移动 到 另 一 个 地 方 ， 当 然 这 还 需要 程序 来 控制 。 而 且 像 
图 16-94 中 所 示 的 一 样 ， 机 械 手 不 一 定 就 是 那 种 铁 辟 抓 手 ， 而 只 要 它 能 
寻找 磁 市 槽 上 的 磁 审 并 将 其 推 入 磁 市 驱动 器 ， 融 可 以 称 其 为 机 械 手 。 


磁 市 库 的 工作 流程 如 下 。 


(1) 由 机 械 手 禹 从 磁带 槽 中 来 取 一 盘 磁 带 ， 推 入 磁带 驱动 器 ， 驱 
动 器 完成 倒 带 、 读 写 等 动作 。 


(2) 读 出 完成 后 ， 退 带 ， 机 械 手臂 夹 取 磁 带 ， 放 回 磁带 柳 ， 然 后 
夹 取 另 一 盘 磁带 放 入 驱动 器 ， 重 复 刚 才 的 动作 。 


整个 流程 都 需要 由 程序 来 控制 机 械 手 辟 和 驱动 器 ， 那 么 程序 运行 
在 哪里 呢 ? 当然 是 连接 磁带 库 的 主机 上 ， 程 序 生 成 符合 协议 的 电信 
号 ， 经 过 HBA 卡 传送 到 磁 审 库 电 路 板 上 ， 经 过 心 片 处 理 ， 转 换 成 操控 
机 械 手 臂 和 驱动 器 的 另 一 串 电 信号 。 所 以 连接 磁 融 库 的 主机 上 ， 除 了 
需要 安装 HBA 适 配器 的 驱动 程序 之 外 ， 还 需要 安装 磁带 库 机 械 手 和 驱 
动 器 的 驱动 程序 ， 这 样 才能 够 按照 驱动 程序 定义 的 规则 ， 来 生成 符合 
规定 的 、 磁 带 库 可 以 识别 的 电信 号 。 


磁 市 机 比 磁 市 库 功 能 少 ， 但 是 基本 原理 都 是 一 样 的 ， 只 不 过 机 械 
臂 没 了 ， 取 磁 市 和 放 磁 审 需 要 用 人 手 而 已 。 而 且 一 台 磁 市 机 同一 时 


刻 只 能 操作 一 盘 磁带 。 而 在 磁带 库 中 可 能 有 多 个 驱动 器 ， 或 者 多 个 机 
械 手 ， 当 然 机 械 手 不 需要 那么 多 ， 因 为 一 个 机 械 手 就 能 完成 ， 除 非 驱 
动 器 多 得 让 一 个 机 械 手 都 忙 不 过 来 ， 这 是 不 太 可 能 发 生 的 。 多 个 驱动 
器 可 以 同时 读 写 多 盘 磁带 (每 个 驱动 器 一 盘 ) ， 使 得 效率 大 大 提升 。 


提示 : 近年 来 ， 出 现 了 一 种 虚拟 磁带 库 产品 ， 即 用 磁盘 来 模 
拟 磁 带 。 当 然 ， 磁 盘 就 是 磁盘 ， 不 可 能 变 为 磁带 ， 那 磁盘 是 
怎么 被 虚拟 成 磁 囊 的 呢 ? 当然 是 通过 存储 控制 器 来 虚拟 化 。 


话说 回来 ， 是 磁带 还 是 磁盘 ， 这 都 取决 于 数据 服务 器 看 到 的 影 
像 ， 而 它 看 到 的 也 不 一 定 就 是 实际 上 存在 的 。 虚 拟 磁带 库 也 正 是 利用 
了 这 个 原理 。 使 用 磁带 库 的 是 主机 服务 器 ， 如 果 让 主机 服务 器 看 到 的 
影像 就 是 一 个 磁带 库 ， 而 实际 上 却 是 一 台 磁 盘 阵 列 ， 那 么 主机 照样 会 
像 使 用 磁带 库 一 样 使 用 这 人 台 虚 拟 的 磁带 库 。 要 做 到 这 一 点 ， 就 必须 在 
磁盘 阵列 的 控制 器 上 做 虚拟 化 操作 ， 也 就 是 要 实现 协议 转换 器 类 似 的 
作用 ， 一 边 以 磁带 库 的 逻辑 工作 ， 另 一 边 以 磁盘 阵列 的 逻辑 工作 。 


虚拟 磁 珊 库 的 好 处 如 下 。 


=。 速度 大 大 提升 。 因 为 向 磁盘 写 入 数据 要 比 磁带 快 。 

" 避免 了 机 械 手 这 种 复杂 的 机 械 装置 ， 取 而 代 之 的 是 控制 器 上 的 
电路 板 。 

= 管理 方便 ， 随 意 增删 虚拟 磁带 。 


提示 : LIO 磁 带 的 “ 鞋 擦 效应。 目前 最 新 的 LIO 是 LTO5 代 技 
术 ， 它 能 够 在 不 压缩 的 情况 下 每 秒 写 入 180MB 的 数据 。 但 是 
磁带 驱动 器 有 个 缺点 ， 就 是 一 旦 开始 写 入 ， 电 机 会 以 全 速 运 
转 ， 以 额定 速度 写 入 数据 ， 一 旦 备份 软件 提供 给 驱动 器 的 数 


据 速率 达 不 到 驱动 器 额定 速度 的 时 候 ， 这 种 情况 称 为 “ 欠 
载 *"， 那 么 有 些 驱 动 器 则 可 以 降低 转速 ， 有 些 则 保持 转速 而 降 
低 数 据 存 储 密度 来 适应 欠 载 。 但 是 驱动 器 有 一 个 最 低 转 速 和 
最 低 密 度 ， 当 备份 软件 连 这 个 速度 也 满足 不 了 的 时 候 ， 磁 带 
驱动 器 只 能 够 先 暂 停 下 来 ， 停 止 转动 ， 然 而 又 不 能 急 镜 车 ， 
急 刹 车 会 拉 坏 甚至 拉 断 带子 ， 所 以 只 能 慢 慢 停 下 来 ， 这 就 导 
致 磁头 所 处 位 置 比 数据 截止 位 置 超前 一 段 距 离 。 当 数据 进入 
的 速度 能 够 满足 最 小 速度 或 者 密度 之 后 ， 人 磁带 驱 动 器 再 次 尝 
试 瑟 入 数据 ， 但 是 此 时 磁 市 需要 被 倒 囊 至 上 次 的 数据 截止 
位 ， 然 后 继续 将 积攒 在 缓存 中 的 数据 写 入 ， 当 速度 再 次 不 匹 
配 时 ， 执 行 相同 的 过 程 ， 周 而 复 始 。 这 就 是 鞋 擦 效 应 。 鞋 擦 
效应 会 严重 影响 磁带 的 寿命 ， 每 次 磁带 的 同一 位 置 被 磁头 划 
过 ， 这 个 位 置 的 寿命 都 会 有 所 降低 。 解 决 鞋 擦 效应 的 办 法 就 
是 引入 D2D2T 备 份 模型 ， 比 如 VTL 等 ， 用 磁盘 来 作为 磁带 的 
大 缓冲 ， 或 者 提高 前 端 数 据 生成 的 速率 。 


5. 信息 生命 周期 管理 


假如 ， 某 企业 有 磁盘 阵列 容量 共 1TB ， 磁 带 库容 量 10TB。 每 天 均 
会 新 生成 5GB 左 右 的 视频 文件 ， 这 些 视频 文件 都 存放 在 磁盘 阵列 的 一 
个 500GB 的 卷 中 。 这 样 不 到 3 个 月 ， 这 500GB 的 卷 便 会 被 全 部 用 完 。 而 
这 个 企业 频繁 调 出 查看 的 视频 ， 一 般 都 是 最 近 一 个 月 以 内 的 ， 如 果 将 
一 个 月 之 前 的 、 几 乎 很 少 或 者 永远 也 不 会 被 再 次 访问 到 的 视频 也 放 在 
磁盘 阵列 上 ， 这 无 疑 是 一 个 巨大 的 浪费 ， 因 此 完全 可 以 把 这 些 文件 备 
份 到 磁带 库 ， 而 腾 出 磁盘 阵列 上 的 存储 空间 ， 供 其 他 应 用 程序 存储 数 
据 。 


磁盘 阵列 是 高 速 数 据 存储 设备 ， 而 磁带 库 是 低速 数据 存储 设备 ， 
所 以 为 了 各 得 其 所 、 物 尽 其 用 ， 有 人 便 开 发 了 一 套 信息 生命 周期 管理 
软件 ， 这 种 软件 根据 用 户 设 定 的 策略 ， 将 使 用 不 频繁 的 数据 ， 移 动 到 
低速 、 低 成 本 的 存储 设备 上 。 比 如 只 给 某 个 视频 应 用 分 配 20GB 的 磁盘 
阵列 的 空间 ， 但 是 向 它 报告 500GB 的 存储 空间 ， 其 中 有 480GB 其 实 是 
在 磁带 库 上 的 。 


这 样 ， 应 用 程序 源源 不 断 地 生成 视频 数据 ， 而 管理 软件 根据 策 
略 ， 比 如 某 视 频 文件 超过 了 设 定 的 存留 期 ， 便 将 它 移 动 到 磁带 库 上 ， 
腾 出 磁盘 阵列 上 的 空间 。 但 是 对 于 应 用 程序 来 说 ， 总 的 可 用 空间 还 是 
在 不 断 地 减少 。 虽 然 磁盘 阵列 上 可 能 总 是 有 空间 ， 但 这 些 空 间 是 给 最 
近 生 成 的 文件 使 用 的 ， 因 为 这 些 文件 会 被 频繁 访问 。 如 果 一 旦 需要 访 
问 已 经 被 移动 到 磁带 库 上 的 文件 ， 则 管理 软件 会 从 磁带 库 提取 文件 ， 
并 复制 到 磁盘 阵列 上 ， 然 后 供应 用 程序 访问 。 


6. 分 级 存储 


基于 信息 生命 周期 管理 的 这 个 思想 ， 目 前 很 多 厂家 都 在 做 相应 的 
解决 方案 ， 分 级 存储 就 是 这 样 一 种 方案 。 


= 第 一 级 : 一 线 磁盘 阵列 ， 是 指 存 储 应 用 频繁 访问 数据 的 磁盘 阵 
列 。 其 性 能 相对 二 线 和 三 线 设备 来 说 应 该 是 最 高 的 。 

第 二 级 : 二 线 虚 拟 磁 带 库 。 这 个 级 别 上 的 存储 设备 ， 专 门 存放 
那些 近期 不 会 被 频繁 访问 的 数据 。 其 性 能 和 成 本 应 该 比 一 线 设 
备 低 ， 但 是 性 能 不 能 太 低 ， 以 至 于 提取 数据 的 时 候 造 成 应 用 长 
时 间 等 待 ， 虚 拟 磁带 库 ， 正 好 满足 了 这 个 要 求 。 虚 拟 磁带 库 利 
用 成 本 比较 低廉 的 大 容量 SATA 磁 盘 ， 性 能 适中 的 存储 控制 器 ， 


这 样 保证 了 性 能 不 至 于 像 磁 带 库 一 样 低 ， 成 本 又 不 会 像 一 线 设 
备 一 样 高 。 

=。 第 三 级 : 磁带 库 或 者 光盘 库 等 。 这 个 级 别 上 的 设备 ， 专 门 存储 
那些 几 年 甚至 十 几 年 都 不 被 访问 到 的 ， 但 是 必须 保留 的 数据 。 
磁 党 库 正 好 满足 了 这 个 要 求 ， 这 是 曲 无 疑问 的 。 


16.3.2 ”备份 通路 
1。 本 地 备份 


本 地 备份 的 数据 流向 是 : 


本 地 磁盘 -~ 总线- 磁盘 控制 器 -总线 -内 存 -~ 总 线 -~ 人 磁盘 控制 器 
二 总 线 本 地 磁盘 。 


即 数 据 从 本 地 磁盘 出 发 ， 通 过 本 地 的 总 线 和 内 存 ， 经 过 CPU 运算 
少量 控制 逻辑 代码 之 后 ， 最 终 流 回 本 地 磁盘 


2. 通过 前 端 网 络 备份 


前 端 网 络 备份 的 数据 流向 是 : 


本 地 人 磁盘- 总线- 磁盘 控制 器 -~ 总线- 内 存 -~ 总 线 ~ 以 太 网 卡 ~ 
网 线 -以 太 网 络 -网线 ,目标 计算 机 的 网 卡 “ 总 线 “内 存 “总 线 - 目 
标 计算 机 的 磁盘 。 


0 数据 从 本 地 磁盘 发 出 ， 流 经 本 地 总 线 和 内 存 ， 然 后 流 到 本 地 网 
A 


这 里 说 的 前 端 网 络 ， 指 的 是 服务 器 接受 客户 端 连接 的 网 络 ， 也 就 
是 所 谓 “ 服 务 网 络 ”， 因 为 这 个 网 络 是 服务 器 和 客户 端 连 接 的 必 经 之 
路 。 


后 端 网 络 ， 是 对 客户 封闭 的 ， 客 户 的 连接 不 用 经 过 这 个 网 络 ， 后 
端 网 络 专用 于 服务 器 及 其 必需 的 后 端 部 件 之 间 的 连接 ， 比 如 ， 和 存储 
设备 ， 或 者 应 用 服务 器 和 数据 库 服务 器 之 间 的 连接 ， 这 些 都 不 需要 让 
客户 终端 知道 。 


后 端 网 络 可 以 是 SAN， 也 可 以 是 以 太 网 ， 或 者 其 他 任何 网 络 形 
式 。 以 太 网 并 不 一 定 就 特 指 前 端 网 络 ， 也 可 以 用 于 后 端 。 随 着 以 太 网 
速度 的 不 断 提 高 ， 现 在 已 经 达到 了 10Gb/s 的 速率 ， 所 以 以 太 网 LAN 作 
为 后 端 网络 ， 同 样 也 是 有 竞争 力 的 。 但 是 说 到 SAN,， 一 般 就 是 特 指 后 
端 网 络 。 


3. 通过 后 端 网 络 备份 


通过 后 端 网 络 备份 的 数据 流向 是 : 本 地 磁盘 一 总线- 磁盘 控制 器 
-~ 总线- 内存 总线- 后 端 网 络 适 配器 -~ 绪 缆 - 后 端 网 络 交 换 设施 - 
线 缆 - 备 份 目标 的 后 端 网 络 适 配器 - 总线- 内 存 -~ 备 份 目标 的 磁盘 或 
者 磁 审 。 


提示 : 这 里 说 的 “后 端 网 络 适配器 *， 泛 指 任何 形式 的 后 端 网 
络 适 配器 ， 比 如 FC 适配器 、 以 太 网 卡 等 。 


4. LAN Free 备 份 


LAN Free 这 个 词 已 经 在 存储 领域 流行 使 用 多 年 。 它 的 意思 是 备份 
的 时 候 ， 数 据 不 流 经 LAN， 也 就 是 不 流 经 前 端 网 络 。 由 于 历史 原因 ， 
导致 了 人 们 的 思维 定 势 ， 认 为 LAN 只 用 于 前 端 网 络 ， 所 以 说 到 了 LAN 
就 想到 了 前 端 网 络 ， 然 而 ， 我 们 上 文 已 经 做 了 解释 ， 后 端 网 络 同样 可 
以 使 用 以 太 网 LAN。LAN 这 个 词 本 意 为 Local area network， 即 局 域 网 
络 ， 它 没有 对 网 络 的 类 型 加 以 限制 ， 可 以 说 存储 区 域 网 络 也 是 一 个 
LAN。 


思考 : 笔者 认为 这 个 词 不 再 适合 当今 存储 领域 ， 取 而 代 之 的 
应 该 是 Frontend Free 这 个 新 的 名 词 ， 即 备份 的 时 候 ， 数 据 不 
需要 流 经 前 端 网 络 ， 而 只 流 经 后 端 网 络 。 


Frontend Free 备 份 的 好 处 是 : 不 耗费 前 端 网 络 的 带宽 ， 对 客户 终 
端 接收 服务 器 数据 不 会 造成 影响 。 相 对 于 后 端 网 络 来 说 ， 前 端 网 络 一 
般 为 慢 速 网 络 ， 资 源 非常 珍贵 ， 加 上 前 端 网 络 是 客户 端 和 服务 器 端 通 
信 的 必 经 之 路 ， 所 以 要 尽量 避免 占用 前 端 网 络 的 资产， 备份 数据 长 时 
间 频 繁 地 流 过 前 端 网 络 ， 无 疑 会 对 生产 造成 影响 。 解 决 的 办 法 就 是 通 
过 后 端 网 络 进行 备份 ， 或 者 本 地 备份 。 


无 论 是 本 地 备份 ， 还 是 通过 网 络 备份 《前 端 网 络 或 者 后 端 网 
络 ) ， 都 需要 待 备份 的 服务 器 付出 代价 来 执行 备份 ， 即 服务 器 需要 读 
取 备 份 源 数 据 到 自身 的 内 存 ， 然 后 再 从 内 存 将 数据 写 入 备份 目标 ， 对 
主机 CPU、 内 存 都 有 资源 耗费 。 是 否 能 让 服务 器 付出 极 小 的 代价 ， 甚 
至 无 代价 而 完成 备份 任务 呢 ? 当然 可 以 。 


5。Server free 备 份 


这 个 名 词 是 指 ， 备 份 的 时 候 ， 数 据 甚至 不 用 流 经 服务 器 的 总 线 和 
内 存 ， 消 耗 极 少 ， 甚 至 不 消耗 主机 资源 。 下 面 来 分 析 一 下 。 


要 想 使 备份 数据 不 流 经 服务 器 本 身 ， 那 么 首先 备份 对 象 ， 即 待 备 
份 数据 所 在 的 地 方 肯 定 不 能 是 服务 器 的 本 地 磁盘 ， 因 为 数据 从 磁盘 读 
出 ， 第 一 个 要 流 经 的 地 方 就 是 总 线 ， 然 后 到 服务 器 内 存 ， 这 样 就 不 叫 


Server free 了 。 


所 以 ， 备 份 兰 不 能 在 服务 器 上 ， 同 理 ， 备 份 目标 也 不 能 在 服务 器 
上 , 不 然 写 入 的 时 候 照 样 流 经 服务 器 的 总 线 和 内 存 。 那 么 到 底 怎 样 才 


能 实现 Server free 呢 ? 


很 简单 ， 备 份 对 象 和 备份 目标 都 不 在 服务 器 上 ， 不 在 本 地 就 只 能 
在 SAN 上 了 。 做 到 这 一 点 还 不 够 ， 因 为 主机 要 从 SAN 上 的 一 个 磁盘 取 
出 数据 ， 写 入 SAN 上 的 另 一 个 磁盘 ， 同 样 需要 先 将 数据 读 入 到 主机 的 
内 存 ， 然 后 再 写 入 SAN。 那 么 到 底 怎样 才能 做 到 Server free 呢 ? 


答案 是 ， 用 SCSI 的 扩展 复制 命令 ， 将 这 些 命 令 发 送 给 支持 Server 
free 的 存储 设备 ， 然 后 这 些 设备 就 会 提取 自身 的 数据 直接 写 入 备份 目 
标 设 备 而 不 是 发 送 给 主机 。 或 者 用 另 一 台 计 算 机 作为 专门 移动 数据 之 
用 ， 即 待 备份 的 主机 向 这 台数 据 移动 器 发 信和 号， 告诉 它 移 动 某 磁盘 上 
的 数据 到 另 一 个 磁盘 ， 然 后 这 台数 据 移动 器 从 SAN 上 的 源 磁 盘 读 取 数 
据 到 它 自己 的 内 存 而 不是 待 备份 主机 的 内 存 ， 然 后 写 入 到 SAN 上 的 目 
标 磁盘 。 


提示 : 所 谓 的 Server free， 并 不 是 真正 的 不 需要 服务 器 来 移 
动 数据 ， 而 是 让 服务 器 发 出 扩展 复制 命令 ， 或 者 使 用 另 一 台 
专门 用 作 数 据 移动 的 新 服务 器 ， 来 代替 原来 服务 器 移动 备份 


数据 ， 释 放 运 算 压 力 很 大 的 生产 服务 器 。 当 然 ，SAN 上 的 源 
磁盘 和 目标 磁盘 或 者 磁带 ， 数 据 移 动 服务 器 都 需要 有 访问 
权 。 


为 了 统一 数据 备份 系统 中 所 有 节点 之 间 的 消息 流 格式 ，Netapp 公 
司 和 Legato 公 司 合作 开发 了 一 种 叫做 NDMP 的 协议 (网络 数据 管理 协 
议 ) 。 这 个 协议 用 于 规范 备份 服务 器 、 备 份 对 象 、 备 份 目标 等 备份 系 
统 各 种 节点 的 数据 交互 控制 。 服 务 器 只 要 向 支持 NDMP 协 议 的 存储 设 
备 发 这 NDMP 指 令 ， 即 可 让 存储 设备 将 其 自己 的 数据 直接 备份 到 其 他 
设备 上 ， 而 根本 不 需要 流 经 服务 器 主机 。 


16.3.3 ”备份 引擎 


备份 引擎 ， 就 是 一 套 策略 、 一 套 规则 ， 它 决定 整个 数据 备份 系统 
应 该 怎么 运作 ， 按 照 什 么 策略 来 备份 ， 备 份 哪些 内 容 ， 什 么 时 候 开始 
备份 ， 备 份 时 间 有 没有 限制 ， 磁 市 库 中 的 磁 市 什么 时 候 过 期 并 可 以 重 
新 抹 掉 使 用 等 。 就 像 引 擎 一 样 ， 开 动 之 后 ， 整 个 备份 就 按照 程序 有 条 
不 亲 地 进行 。 


1. 备份 服务 器 


那么 备份 引擎 以 一 种 什么 形式 来 体现 呢 ? 宫 无 疑问 ， 当 然 是 运行 
在 主机 上 的 程序 来 执行 ， 所 以 需要 有 这 么 一 台 计 算 机 来 做 这 个 引擎 的 
执行 者 ， 这 人 台 计算 机 就 叫做 “备份 服务 器 *， 意 思 就 是 这 人 台 计 算 机 专门 
管理 整个 数据 备份 系统 的 正常 运作 ， 制 定 各 种 备份 策略 。 


思考 : 备份 服务 器 的 备份 策略 和 规则 ， 怎 样 传送 给 整个 数据 
备份 系统 中 的 各 个 待 备份 的 服务 器 呢 ? 和 汽车 一 样 ， 车 轮 和 


引擎 之 间 有 传动 轴 连 接 ， 备 份 服务 器 和 待 备份 的 服务 器 之 间 
也 有 网 络 来 连接 ， 那 么 通过 以 太 网 还 是 通过 SAN 网 络 来 连接 
呢 ? 


答案 是 以 太 网 络 ， 因 为 以 太 网 络 使 用 广泛 ， 以 太 网 之 上 的 TCP/IP 
编程 已 经 非常 成 熟 ， 非 常 适合 节点 间 通 信 。 相 对 于 以 太 网 ，SAN 更 加 
适合 传送 大 量 数据 。 而 利用 前 端 网 络 连 接 还 是 利用 后 端 网络 连 接 呢 ? 


一 般 我 们 常用 前 端 网 络 来 连接 待 备份 服务 器 和 备份 服务 器 。 因 为 
备份 策略 就 好 比 两 个 人 之 间 说 了 几 句 话 ， 所 以 把 这 几 句 话 传送 给 待 备 
份 服务 器 ， 不 会 耗费 很 大 的 网 络 资产， 充其量 每 秒 几 十 个 包 而 已 ， 这 
对 前 端 网 络 影响 非常 小 。 有 了 网 络 连 接 ， 我 们 就 有 了 物理 层 的 保障 。 


但 备份 服务 器 是 如 何 与 每 个 待 备 份 的 服务 器 建立 通话 的 呢 ? 它们 
之 间 怎 么 通话 ? 通话 的 规则 怎么 定 呢 ?这 就 需要 待 备份 服务 器 上 运行 
一 个 程序 ， 专 门 解释 备份 服务 器 发 来 的 命令 ， 然 后 根据 命令 ， 做 出 动 
作 。 


这 个 运行 在 各 个 待 备份 服务 器 上 的 程序 ， 就 叫做 备份 代理 
(Backup Agent) ， 它 们 监听 某 个 Socket 端 口 ， 接 收 备份 服务 器 发 来 的 
命令 。 比 如 ， 某 时 刻 备 份 服务 器 通过 以 太 网 前 端 网 络 ， 给 某 个 待 备 份 
服务 器 发 送 一 条 命令 ， 这 条 命令 被 运行 在 该 待 备 份 服务 器 上 的 备份 代 
理 程序 接收 ， 内 容 是 : 立即 将 位 于 该 服务 器 上 C 盘 下 的 XX 目 录 复 制 到 
E 盘 下 XXX 目录 。 备 份 代 理 接收 到 这 个 命令 之 后 ， 就 会 将 该 待 备 份 服 
务 器 上 C 盘 下 XX 目 录 复 制 到 E 盘 下 的 XXX 目录 。 如 果 D 盘 是 本 地 盘 ，E 
盘 是 一 个 SAN 上 的 虚拟 磁盘 ， 那 么 实际 数据 流动 的 路 径 就 是 : 


本 地 磁盘 总线- 内存 ~ 总 线 ~SAN 网 络 适配器 -> 线 缆 ~ SAN 交 
换 设施 (如 果 有 ) 一 磁盘 阵列 。 


数据 源源 不 断 地 从 本 地 磁盘 流向 SAN 网 络 上 的 磁盘 阵列 ， 成 功 备 
份 之 后 ， 备 份 代理 收 到 来 自 待 备份 服务 器 操作 系统 的 成 功 提 示 ， 然 后 
备份 代理 通过 以 太 网 向 备份 服务 器 返回 一 条 成 功 完成 的 提示 。 这 样 备 
份 服务 器 便 会 知道 这 个 备份 已 经 成 功 完成 ， 并 记录 下 开始 时 间 、 结 束 
时 间 、 是 否 成 功 等 信息 。 


同样 的 道理 ， 如 果 例 子 中 的 E 盘 也 是 本 地 盘 ， 那 么 路 径 就 短 多 
了 。 如 果 备 份 服务 器 告诉 备份 代理 ， 将 数据 复制 到 位 于 SAN 上 的 磁带 
库 设备 而 不 是 磁盘 阵列 ， 那 么 同样 ， 备 份 代理 将 数据 从 本 地 磁盘 读 
出 ， 然 后 通过 SAN 网 络 适配器 发 往 磁 带 库 。 当 然 这 需要 在 待 备份 的 服 
务 器 上 安装 可 以 操控 磁带 库 设备 的 驱动 程序 。 同 理 ，E 盘 如 果 是 个 
NAS 目 录 ， 则 数据 便 会 被 发 往 远 端的 NAS 服 务 器 了 。 


2. 介质 服务 器 


设想 : 假如 在 一 个 数据 备份 系统 中 ， 有 一 台 普 通 的 SCSI 磁 带 机 连 
接 在 某 人 台 主 机 上 ， 且 有 多 人 台 主机 的 数据 需要 备份 到 这 人 台 SCSI 磁 融 机 的 
磁 审 中 ， 而 SCSI 磁 审 机 只 能 同时 接 到 一 台 主 机 上 ， 总 不 能 搬 着 磁 市 
机 ， 给 每 个 机 器 轮流 插 上 用 吧 ? 


当然 可 以 ， 但 是 这 样 很 麻烦 。 有 没有 一 种 办 法 来 解决 这 个 问题 
呢 ? 当然 有 有 了。 可 以 将 这 台 磁 市 机 连接 到 固定 的 一 台 计 算 机 ， 只 能 由 
这 人 台 计 算 机 来 操作 磁带 机 。 其 他 有 数据 需要 备份 的 计算 机 ， 和 这 台 掌 
管 SCSI 磁 带 机 使 用 权 的 计算 机 ， 通 过 以 太 网 连接 起 来 (当然 也 可 以 通 
过 其 他 网 络 方式 连接 ， 但 前 面 说 过 ， 以 太 网 是 最 廉价 、 最 广泛 使 用 的 


网 络 ) ， 谁 有 数据 ， 谁 就 将 数据 通过 以 太 网 发 给 这 台 掌 管 磁带 机 的 计 
算 机 ， 收 到 数据 后 ， 这 人 台 计 算 机 将 数据 写 入 只 有 它 才 有 权 控 制 的 磁带 
机 。 写 完 后 ， 下 一 人 台 有 数据 需要 备份 的 计算 机 ， 重 复 刚 才 的 动作 。 


这 样 ， 我 们 用 了 一 台 计 算 机 来 掌管 SCSI 磁 带 机 ， 然 后 在 这 台 计 算 
机 的 前 端 ， 我 们 用 以 太 网 扩展 了 连接 。 虽 然 微 观 上 磁带 机 只 有 一 个 接 
口 ， 只 能 连接 一 台 计算 机 ， 但 是 经 过 以 太 网 的 扩展 之 后 ， 这 人 台 磁 带 机 
成 为 了 公用 设备 ， 掌 管 磁带 机 的 计算 机 成 为 了 代替 这 些 服务 器 行使 备 
份 动作 的 角色 ， 因 为 整个 数据 备份 系统 中 ， 只 有 这 人 台 计 算 机 掌管 了 备 
份 目 标 ， 也 就 是 磁带 机 、 磁 带 ， 所 以 我 们 称 这 台 服 务 器 为 “介质 服务 
器 ”。 也 融 是 说 ， 这 侣 服务 器 是 数据 备份 系统 中 备份 介质 的 时 管 者 ， 其 
他 人 都 不 能 直接 访问 备份 介质 。 


思考 : 这 人 台 计 算 机 只 是 掌握 了 备份 介质 ， 谁 都 可 以 向 它 发 起 
请 求 ， 然 后 传输 需要 备份 的 数据 给 它 。 但 是 如 果 同 时 有 多 人 台 
服务 器 向 它 发 出 请 求 ， 怎 么 办 ? 


显然 还 需要 一 个 调度 员 ， 来 管理 调度 好 多 个 待 备 份 服务 器 之 间 的 
顺序 ， 做 到 有 条 不 率 ， 按 照 预订 的 策略 来 备份 ， 避 免 冲 突 。 那 么 谁 来 
担当 调度 员 呢 ?前面 讲 到 的 “备份 服务 器 ”本 身 就 是 这 样 一 个 调度 ， 所 
以 非 他 莫 属 了 。 


将 这 个 调度 员 也 接 入 以 太 网 ， 调 度 员 使 出 它 的 必 胜 大 法 一 一 在 每 
个 待 备 份 的 服务 器 上 ， 都 安装 它 的 * 耳 打 ” 和 “嘴巴 ”， 即 备份 代理 程 
序 ， 通 过 这 个 耳 朱 和 嘴巴 ， 调 度 员 让 每 台 服 务 器 都 尔 尔 地 听话 ， 按 照 
顺序 有 条 理 地 使 用 介质 服务 器 提供 的 备份 介质 进行 备份 。 在 一 个 数据 
备份 系统 中 ， 介 质 服务 器 可 以 有 多 台 同 时 分 担 工作 。 


16-95 是 一 个 Veritas Netbackup 备 份 软件 的 备份 流程 。 
图 16-95 ”备份 流程 


(1) 某 时 刻 ， 备 份 服务 器 发 起 备份 ， 它 通知 “介质 服务 器 A” 备 份 
“ 待 备份 服务 器 C” 上 的 相应 内 容 。 


(2)“ 介 质 服务 器 A” 向 服务 器 发 出 指令 ， 告 诉 它 可 以 进行 备份 
了 ， 请 发 送 需 要 备份 的 数据 。 


(3) 待 备份 服务 器 C 把 需要 备份 的 数据 通过 以 太 网 发 送 给 “介质 
服务 器 A”。 


(4)“ 介 质 服务 器 A” 将 收 到 的 数据 源源 不 断 地 写 入 磁带 机 。 


(5) 重复 第 (1) 步 ， 只 不 过 介质 服务 器 为 B， 待 备份 服务 器 为 
Ao。 


上 面 这 个 拓扑 图 ， 是 一 个 Frontend unfree 备 份 方式 。 因 为 备份 数据 
流 占 用 了 前 端 网 络 带宽 。 


至 此 ， 我 们 的 数据 备份 系统 中 ， 已 经 有 了 三 个 角色 了 : 备份 服务 
器 (调度 员 ) 、 介 质 服务 器 (仓库 房间 管理 员 ) 、 待 备份 服务 器 ( 存 
储 货物 的 人 ) 。 


再 转 回 去 看 看 还 没有 出 现 “ 介 质 服务 器 ”前 的 那个 例子 。 会 发 现 那 
时 候 ， 仓 库房 间 尚 充足 ， 仓 库 每 个 门 都 开 着 ， 每 个 人 都 可 以 从 各 自 的 
门 进去 存放 物品 ， 每 个 需要 存放 货物 的 人 都 有 权 直 接 访问 它们 的 仓库 
房间 ， 它 们 只 靠 一 个 调度 员 来 协调 。 这 时 候 可 以 认为 ， 每 个 消费 者 都 
在 管理 着 仓库 房间 ， 它 们 每 个 人 都 是 仓库 房间 管理 员 ， 只 不 过 它们 各 


自 管 理 自己 的 房间 而 已 。 所 以 ， 这 种 情况 下 ， 每 台 待 备份 的 服务 器 ， 
都 是 介质 服务 器 ， 而 且 每 台 介 质 服务 器 因为 都 需要 操控 备份 设备 ， 所 
以 还 需要 安装 诸如 磁带 库 等 设备 的 驱动 程序 。 而 备份 服务 器 只 有 一 
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相对 于 由 存放 货物 的 人 自行 管理 仓库 房间 的 情况 ， 由 专人 来 管理 
仓库 房间 ， 所 耗费 的 前 端 网 络 资源 更 大 。 因 为 存储 货物 的 人 ， 首 先 需 
要 通过 网 络 将 货物 发 送 给 仓库 管理 员 ， 然 后 管理 员 再 将 货物 放 入 仓 
库 。 而 如 果 让 存储 货物 的 人 自己 存放 ， 则 会 省 去 第 一 步 。 


图 16-96 所 示 的 就 是 用 上 述 思想 进行 数据 备份 的 一 个 拓扑 图 。 
图 16-96 Frontend Free 


(1) 备份 服务 器 通过 以 太 网 ， 同 时 向 三 台 介 质 服务 器 〈 也 是 待 备 
份 服务 器 ) 发 出 备份 开始 指令 。 


(2) 待 备 份 服务 器 直接 将 数据 通过 后 端 SAN 网 络 设施 写 入 备份 目 
标 。A 和 B 的 备份 目标 是 磁盘 阵列 ， 它 们 可 以 同时 写 入 备份 目标 。C 的 
备份 目标 是 磁 审 库 ， 如 果 磁 审 库 只 有 一 个 驱动 器 ， 则 同一 时 刻 只 能 用 
于 一 个 备份 操作 ， 这 个 例子 中 ， 磁 带 库 被 C 独 占 。 当 然 C 完 成 备份 之 
后 ， 人 磁 齐 库 可 以 被 其 他 服务 器 使 用 。A、B、C 都 安 闻 有 磁 审 库 机 械 手 
和 驱动 器 的 驱动 程序 。 


上 面 的 拓扑 图 (图 16-96) ， 就 是 一 个 典型 的 Frontend Free 备 份 方 
式 ， 因 为 备份 数据 流 不 占用 前 端 网 络 带宽 ， 而 只 有 备份 时 所 发 送 的 指 
令 数 据 经 过 了 前 端 网 络 。 


随 着 各 种 应 用 系统 的 不 断 出 现 ， 比 如 ， 各 种 数据 库 管 理 系统 、E- 
mail 转 发 处 理 系 统 、ERP 系 统 、 办 公 自 动 化 系统 等 ， 备 份 技术 也 随 之 
飞快 发 展 ， 传 统 的 备份 操作 ， 仅 仅 是 备份 操作 系统 文件 ， 即 不 管 这 个 
文件 是 何 种 类 型 ， 被 什么 应 用 程序 生成 和 使 用 ， 备 份 的 时 候 统统 当 作 
一 个 抽象 的 备份 源 来 看 待 ， 只 需要 把 这 个 文件 整体 传送 到 备份 目标 就 
可 以 了 。 


如 今 ， 用 户 的 需求 越 来 越 高 ， 越 来 越 细 化 。 比 如 ， 某 用 户 要 求 只 
备份 某 数 据 库 中 的 某 个 表 空 间 ， 或 者 只 备份 某 个 E-mail。 由 于 一 个 表 
空间 包含 一 个 或 者 多 个 数据 文件 ， 这 样 命令 发 给 备份 代理 的 时 候 ， 只 
能 是 这 样 :“ 备 份 某 数 据 库 下 的 某 表 空 间 ”， 而 不 是 :“ 备 份 X 盘 X 目 录 
下 XXX 文 件 ”"。 因 为 调度 员 不 可 能 知道 某 个 表 空间 到 底 包 含 哪 些 具体 
的 文件 。 要 完成 这 个 备份 动作 ， 必 须 由 运行 在 待 备份 服务 器 上 的 某 种 
代理 程序 来 参与 。 那 么 这 个 代理 是 否 可 以 是 上 文 提 到 的 备份 代理 呢 ? 


完全 可 以 ， 但 是 有 个 需要 增加 的 功能 ， 即 这 个 代理 程序 必须 可 以 
与 待 备份 的 应 用 程序 进行 通信 ， 从 而 获得 相关 信息 。 可 以 有 两 种 方式 
来 完成 备份 : 直接 获取 到 这 个 表 空 间 对 应 的 数据 文件 有 哪些 ， 然 后 自 
行 备份 这 些 文件 ; 或 者 直接 调用 数据 库 管理 系统 的 命令 ， 向 数据 库 管 
理 系统 发 出 命令 ， 备 份 这 个 表 空 间 。 


如 果 是 第 一 种 方式 ， 将 调度 员 发 出 的 命令 对 应 成 实际 文件 的 工 
作 。 比 如 ， 需 要 备份 的 是 一 个 DB2 数 据 库 上 的 某 个 表 空 间 ， 那 么 这 个 
代理 程序 需要 与 DB2 实 例 程 序 进 行 通信 ，DB2 实 例 服务 程序 告诉 备份 
代理 ，XXX 表 空间 对 应 的 容器 (数据 文件 为 某 某 路 径 下 某 某 文件 。 
备份 代理 获得 这 些 信息 后 ， 直 接 将 对 应 的 文件 备份 到 备份 目标 。 


如 果 是 第 二 种 方式 ， 备 份 代理 收 到 调度 员 指 令 之 后 ， 便 会 向 DB2 
实例 服务 程序 发 出 指令 : “db2 backup db testdb tablespace userspacel 
online to \tape0”， 这 样 ， 就 利用 DB2 自 身 的 备份 工具 备份 了 数据 。 目 

前 广泛 使 用 的 做 法 都 是 第 二 种 方式 ， 因 为 解 铃 还 需 系 铃 人 ， 用 应 用 程 
序 本 身 的 备份 工具 进行 备份 是 最 保险 的 方法 。 


综 上 所 述 ， 对 于 每 一 种 待 备 份 的 应 用 程序 ， 都 需要 一 个 可 以 和 该 
应 用 程序 进行 通信 的 代理 程序 ， 这 就 需要 开发 针对 各 种 应 用 程序 的 代 
理 。 目 前 ， 像 Symantec Backup Exec 备 份 软件 ， 提 供 了 诸如 Oracle 数 据 
库 代 理 、DB2 数 据 库 代理 、Exchange 代 理 、Lotus Notes 代 理 、SQL 
Server 代 理 、SAP 代 理 等 诸多 应 用 程序 的 备份 代理 。 


图 16-97 中 的 ServerFree Option 就 是 用 来 实现 ServerFree 功 能 的 一 
模块 。Agent for 开 头 的 选 件 ， 就 是 人 
理 程 序 。NDMP 选 件 ， 用 来 实现 ServerFree 所 需要 的 协议 栈 。 


图 16-97 各 种 备份 代理 及 插件 


SAN Shared Storage Option， 是 用 来 管理 那 种 “每 台 待 备份 服务 器 

都 是 介质 服务 器 ”情况 下 ， 各 个 服务 器 对 备份 目标 设备 的 共享 使 用 权 的 

一 个 模块 。 因 为 每 台 服 务 器 都 装 有 目标 设备 〈 磁 带 库 等 ) 的 驱动 程 

序 ， 都 可 以 控制 磁带 库 ， 为 了 避免 意外 冲突 ，SAN Shared Storage 

Option 作 为 一 个 附加 的 选 件 来 协调 各 个 服务 器 之 间 有 顺序 地 使 用 目标 
设备 而 不 发 生 冲突 


16.3.4 “三 种 备份 方式 


1。 完 全 备份 


假如 某 时 刻 某 文件 中 只 包含 了 一 个 字符 A。 此 时 我 们 对 这 个 文件 
做 了 备份 操作 ， 将 其 复制 到 其 他 介质 上 ， 这 份 备份 的 文件 中 只 包含 字 
符 A。 


稍 后 ， 这 个 文件 被 修改 ， 在 字符 A 之 后 增加 了 一 个 字符 B。 此 时 我 
们 又 对 这 个 文件 做 了 备份 ， 将 其 复制 到 其 他 介质 上 ， 这 份 备份 的 文件 
中 包含 字符 A、B。 


以 后 ， 不 管 这 个 文件 怎么 变化 ， 变 成 多 大 ， 包 含 多 少 个 字符 ， 只 
要 备份 ， 就 将 这 个 文件 整个 备份 下 来 ， 这 就 是 完全 备份 。 


2。 差 量 备份 


假如 某 时 刻 某 文件 中 包含 100 个 数字 1、2、3、.……. 、100， 在 对 其 
做 完全 备份 后 ， 文 件 中 增加 了 一 个 数字 101， 又 过 了 一 段 时 间 ， 文 件 中 
又 增加 了 一 个 数字 102， 而 我 们 已 经 有 了 一 个 完全 备份 ， 这 个 备份 已 经 
包含 了 文件 中 1 一 100 这 100 个 数字 ， 如 果 我 们 此 时 再 次 对 这 个 文件 做 完 
全 备份 ， 是 不 是 太 浪 费时 间 和 存储 空间 了 呢 ? 得 想 出 一 种 办 法 ， 即 只 
备份 自从 上 次 完全 备份 以 来 发 生变 化 的 数据 。 


完全 可 以 ， 我 们 以 一 种 自己 可 以 识别 的 格式 ， 将 101 和 102 这 两 个 
数字 保存 到 一 个 单独 的 文件 中 。 这 就 叫做 差 量 备份 ， 意 思 就 是 只 备份 
与 上 次 完全 备份 内 容 之 间 相 差 的 内 容 。 如 果 要 恢复 这 份 最 新 的 文件 ， 
只 要 将 上 次 完全 备份 和 最 后 一 次 的 差 量 备份 合并 起 来 ， 便 可 组 成 最 终 
的 最 新 完全 备份 ， 从 而 恢复 数据 。 


差 量 备份 要 求 必须 对 数据 做 一 次 完全 备份 ， 从 而 作为 差 量 的 基准 
点 。 否 则 随意 找 一 个 基准 点 ， 所 生成 的 数据 是 不 完整 的 。 


3。 增 量 备份 


经 过 了 完全 备份 和 差 量 备份 ， 我 们 已 经 有 了 两 个 备份 文件 : 包含 
数字 1~100 的 完全 备份 和 包含 数字 101 和 102 的 差 量 备 份 。 如 果 这 份 文 
件 每 天 都 会 增加 一 个 数字 ， 而 我 们 每 天 都 要 做 差 量 备份 甚至 完全 备份 
么 ? 这 里 还 有 一 种 选择 ， 就 是 增 量 备份 。 


增 量 备份 是 指 : 只 备份 自从 上 次 备份 以 来 的 这 份 文 件 中 变化 过 的 
数据 。 这 里 的 * 上 次 备份 ”， 不 管 上 一 次 备份 是 全 备 、 差 备 ， 还 是 增 备 
自身 ， 本 次 增 量 备份 只 备份 和 上 一 次 备份 结束 的 时 刻 ， 这 份 文件 变化 
过 的 数据 。 比 如 ， 我 们 现在 拥有 包含 数字 1 一 100 的 完全 备份 和 包含 数 
字 101 和 102 的 差 量 备份 。 此 时 ， 我 们 打算 以 后 每 天 执行 增 量 备份 ， 那 
么 ， 第 二 天 ， 这 份 文 件 增加 了 一 个 数字 103， 所 以 我 们 只 备份 103 这 个 
数字 ， 依 此 类 推 ， 第 三 天 我 们 只 备份 104 这 个 数字 ， 这 样 备份 速度 极 大 
地 加 快 了 ， 备 份 所 消耗 的 空间 也 小 了 。 


提示 : 在 实际 使 用 中 可 以 灵活 地 制定 各 种 策略 ， 比 如 每 周一 
对 数据 进行 完全 备份 ， 周 二 到 周 五 每 天 对 数据 进行 增 量 备份 
等 。 


如 果 对 数据 进行 增 量 或 者 差 量 备份 ， 普 通 的 文件 ， 备 份 软件 一 般 
是 可 以 检测 到 文件 相对 上 次 备份 时 候 所 发 生 的 变化 的 。 但 数据 库 的 备 
份 ， 备 份 软件 想 检 测 某 个 数据 文件 的 变化 ， 一 般 来 说 是 不 可 能 的 ， 
为 这 些 文 件 内 部 格式 是 非 党 复杂 的 ， 只 有 数据 库 管 理 软件 自身 才能 
析 并 检测 出 来 ， 所 以 每 个 数据 库 管 理 软 件 (如 Oracle、DB2 等 ) 都 有 
自己 的 备份 工具 ， 可 以 全 备 、 差 备 和 增 备 ， 而 第 三 方 备份 软件 在 对 数 
据 库 做 备份 的 时 候 ， 只 能 调用 数据 库 软件 自身 提供 的 各 种 命令 ,或 者 
程序 接口 。 


16.3.5 “数据 备份 系统 案例 一 


前 面 介绍 了 数据 保护 的 基本 原理 和 大 体 思 路 ， 下 面 来 看 下 现实 中 
的 数据 备份 领域 ， 了 解 一 下 现今 广泛 实行 的 数据 备份 都 是 怎么 做 的 。 


下 面 用 一 个 企业 的 IT 系统 作为 一 个 初始 化 的 例子 ， 如 图 16-98 所 
示 ， 某 企业 IT 系统 现 有 FTP 服 务 器 一 台 ，E-mail 服 务 器 一 台 ， 基 于 SAP 
的 ERP 服 务 器 一 台 ，DB2 数 据 库 服务 器 一 台 (用 于 SAP 服 务 器 的 后 台 
数据 库 ) ， 备 份 服务 器 一 台 ， 大 型 FC 磁盘 阵列 一 台 ， 小 型 磁带 库 一 台 

(一 个 机 械 手 ， 两 个 驱动 器 ) 。 


图 16-98 ” 某 公司 系统 示意 图 


以 上 五 台 服 务 器 各 用 以 太 网 卡 连接 到 同一 个 以 太 网 交换 机 上 ， 同 
时 各 个 办 公 室 的 客户 端 PC 也 通过 局 域 网 连接 到 这 人 台 交 换 机 上 。 另 外 ， 
除 备份 服务 器 之 外 的 四 台 服 务 器 上 分 别 装 有 一 块 FC HBA 适 配 卡 ， 且 
通过 光纤 连接 到 一 台 SAN 交 换 机 上 。 磁 盘 阵 列 也 用 一 条 光纤 连接 到 
SAN 交 换 机 上 。 该 企业 使 用 Symantec Backup Exec 11D 备 份 软件 进行 备 
份 操作 。 


在 备份 服务 器 上 需要 安装 Symantec Backup Exec 的 软件 Master 
Server 模 块 。 


在 每 台 待 备份 的 服务 器 上 需要 安装 Symantec Backup Exec 的 Media 
Server 模 块 、 磁 带 库 驱 动 程序 、 对 应 的 应 用 程序 备份 代理 模块 。 


在 备份 服务 器 上 ， 用 Symantec Backup Exec 提 供 的 配置 界面 ， 来 制 
定 针 对 每 台 服 务 器 的 备份 策略 ， 策 略 生 效 之 后 ， 各 个 服务 器 便 会 按照 
策略 中 规定 的 时 间 、 备 份 源 、 备 份 目标 来 将 各 自 的 数据 备份 到 相应 的 


备份 目标 。 这 是 一 个 典型 的 企业 数据 备份 系统 案例 ， 数 据 流 经 的 路 径 
不 包括 前 端 网 络 ， 所 以 属于 Frontend Free 备 份 。 


16.3.6 ”数据 备份 系统 案例 二 


Symantec Netbackup 是 Symantec 公司 的 另 一 个 备份 产品 ， 与 
Backup Exec 不 同 的 是 ，Netbackup 适 合 于 大 型 备份 系统 ， 支 持 各 种 操 
作 系 统 平台 ， 各 个 模块 可 以 分 别 安装 在 不 同 操作 系统 上 ， 由 于 之 间 通 
过 TCP/IP 协 议 通信 ， 所 以 可 以 屏 数 各 种 操作 系统 的 不 同 。 而 Backup 
Exec 只 支持 Windows 和 Netware 操 作 系 统 (最 新 的 11D 版 本 支持 
Linux) 。NetBackup 更 加 适合 异 构 操作 系统 平台 的 备份 ， 因 此 适合 拥 
有 众多 不 同 厂家 服务 器 、 不 同 操作 系统 的 大 型 企业 的 备份 系统 。 


提示 : 关于 NetBackup 可 参考 第 16.3.7 节 的 NetBackup 配 置 指 
南 


图 16-99 所 示 的 是 某 企业 备份 系统 的 拓扑 图 。 
图 16-99 ” 某 公司 IT 系统 示 意图 


该 企业 有 四 台 DB2 数 据 库 服 务 器 ， 主 机 名 分 别 为 : bbpsrv、 
bbpsr2、srmdb、microcct， 皆 使 用 Windows 2000 Advanced Server 操 作 
系统 。 


其 上 分 别 安 半 NetBackup 软 件 的 介质 服务 器 模块 和 磁 审 库 驱 动 程 
序 。 


其 中 bbpsrv 服 务 器 连接 有 一 台 SCSI 磁 带 机 ，microcct 服 务 器 连接 有 
两 人 台 SCSI 磁 带 机 。 这 四 人 台数 据 库 服务 器 也 是 待 备份 的 服务 器 。 


一 台 备 份 服 务 器 ， 主 机 名 为 houseprd ， 使 用 Windows 2000 
Advanced Server 操 作 系 统 ， 其 上 安装 有 NetBackup 软 件 的 Master Server 
模块 (默认 包含 了 Media Server 模 块 ) ， 同 时 也 安装 了 磁带 库 驱 动 程 
序 ， 并 且 通 过 SCSI 线 缆 连 接 有 一 台 磁 带 机 。 


一 台 HP Ultrium 磁 带 库 ， 包 含 一 个 机 械 手 和 两 个 驱动 器 。 
一 台 IBM 3580 磁 带 库 ， 包 含 一 个 机 械 手 和 两 个 驱动 器 。 


在 这 个 备份 系统 中 ， 由 Master Server 进 行 调度 ， 每 台 DB2 数 据 库 服 
务 器 都 将 待 备份 的 数据 通过 SAN 交 换 机 传输 给 磁带 库 。 由 于 共有 五 台 
服务 器 使 用 两 台 磁 带 库 ， 所 以 需要 由 这 五 台 服 务 器 共享 这 两 台 磁 带 
库 ， 为 了 避免 冲突 ， 调 度 工作 统统 由 Master Server 来 进行 。 


16.3.7 ” NetBackup 配置 指南 


16-100 是 在 houseped 这 人 台 Master Server 上 运行 的 NetBackup 配 置 
工具 的 主 界面 。 右 侧 窗 口 是 各 种 自动 配置 向 导 。 初 次 安装 完 NetBackup 
软件 之 后 ， 首 先 要 让 NetBackup 这 个 调度 员 识 别 到 网 络 上 的 每 台 介 质 服 
务 器 ， 及 与 其 挂 接 的 各 种 用 于 备份 的 存储 设备 。 


图 16-100 ”NetBackup 主 界面 


1。 配 置 存储 设备 


初次 运行 NetBackup 配 置 工 具 的 时 候 ， 可 以 通过 右 侧 窗口 的 向 导 
“Getting Started” 来 让 Master Server 扫 描 网 络 上 的 介质 服务 器 和 其 上 的 
磁带 库 设 备 ， 并 对 扫描 到 的 设备 以 及 磁带 做 一 些 配 置 和 记录 ， 形 成 一 
个 初始 化 环境 。 


(1) 单 击 Getting Started 命 令 ， 出 现 如 图 16-101 所 示 的 对 话 框 。 
图 16-101 Getting Started 
(2) 单 击 “下 一 步 ?按钮 ， 出 现 如 图 16-102 所 示 的 对 话 框 。 
图 16-102 Device Configuration 


(3) 对 话 框 中 提示 ， 初 始 化 过 程 需要 4 个 步骤 ， 首 先 扫 描 所 有 网 
络 介质 服务 器 可 供 备 份 用 的 设备 。 单 击 “ 下 一 步 ” 按 钮 ， 出 现 图 16-103 
所 示 的 对 话 框 。 


图 16-103 ”扫描 介质 设备 


(4) 单 击 “ 下 一 步 ” 按 钮 ， 如 图 16-104 所 示 ， 扫 描 到 一 个 介质 服务 
研 。 


图 16-104 ”扫描 到 一 个 介质 服务 器 


(5) 在 图 16-104 的 对 话 框 中 ， 可 以 选择 网 络 上 的 所 有 介质 服务 
器 ， 这 样 ， 就 可 以 扫描 这 些 服务 器 上 用 于 备份 的 存储 设备 了 ， 如 图 16- 
105 所 示 。 


图 16-105 ”扫描 到 介质 服务 器 上 的 设备 


(6) 扫描 结束 后 ， 单 击 “ 下 一 步 ”按钮 ， 出 现 如 图 16-106 所 示 的 对 
话 框 。 


图 16-106 ”设备 列表 


(7) 在 对 话 框 中 会 列 出 所 有 检测 到 的 设备 的 状态 ， 但 是 图 16-106 
中 没有 找到 任何 设备 ， 这 可 能 是 由 于 主机 未 联 入 网 络 或 者 介质 服务 器 
没有 安装 Media Server 模 块 。 单 击 “ 下 一 步 ” 按 钮 ， 出 现 如 图 16-107 所 示 
对 话 框 。 该 对 话 框 可 用 来 建立 一 个 硬盘 目录 ， 这 个 目录 可 供 备 份 文 件 
存放 ， 但 不 是 必须 的 。 一 般 将 备份 后 的 数据 存 入 磁带 中 ， 用 磁盘 目录 
存放 备份 数据 的 一 个 好 处 就 是 可 以 作为 一 个 缓冲 ， 可 以 设置 NetBackup 
在 一 定时 间 后 ， 将 这 个 硬盘 上 的 数据 转移 到 其 他 备份 目标 中 。 


图 16-107 建立 本 地 磁盘 备份 目录 
(8) 单 击 “下 一 步 ” 按 钮 ， 出 现 如 图 16-108 所 示 的 对 话 框 。 
图 16-108 “设置 完成 


(9) 单 击 “完成 按钮 ， 将 进入 Volume 配 置 界 面 ， 如 图 16-109 所 
示 。 


图 16-109 ”配置 Volume 


(10) 所 谓 Volume， 指 的 就 是 磁带 〈 在 后 面 会 详细 介绍 ) 。 这 一 
步 中 ，NetBackup 会 识别 所 有 磁带 库 中 的 磁带 ， 并 将 它们 编 入 默认 的 
Volume Group 中 供 使 用 。 单 击 * 下 一 步 ? 按 钮 继续 ， 出 现 如 图 16-110 所 
示 的 对 话 框 。 


图 16-110 ”设置 Catalog 备 份 


(11) 设置 Catalog 的 备份 。 所 谓 Catalog， 就 是 NetBackup 自 身 运 
行 所 需要 的 数据 ， 其 实 NetBackup 自 身 管理 维护 着 一 个 小 型 数据 库 ， 数 
据 库 中 保存 了 NetBackup 的 所 有 配置 ， 以 及 所 有 磁 珊 、 设 备 、 备 份 筑 
略 、 过 期 时 间 等 信息 ， 如 果 Catalog 损 坏 ， 则 整个 NetBackup 将 会 


痪 ， 所 以 备份 Catalog 自 身 也 是 非常 重要 的 。 这 就 像 医 生 给 别人 治 病 的 
同时 ， 自 己 也 要 预防 疾病 一 样 。NetBackup 虽 然 是 一 个 备份 其 他 数据 的 
软件 ， 但 是 它 也 要 备份 好 自身 的 数据 ， 这 一 点 很 好 理解 。 单 击 “ 下 一 
步 ” 按 钮 ， 如 图 16-111 所 示 。 


图 16-111 ”Catalog 备份 向 导 
(12) 单 击 “ 下 一 步 ” 按 钮 ， 如 图 16-112 所 示 。 
图 16-112 ”选择 Catalog 备 份 方式 


(13) 选择 “Online，hot catalog backup” 单 选 按钮 ， 单 击 * 下 一 步 ” 
按钮 ， 如 图 16-113 所 示 。 


图 16-113 ”创建 备份 策略 


(14) 创建 一 个 用 于 备份 Catalog 信 息 的 新 策略 ， 单 击 “ 下 一 步 ” 按 
钮 ， 如 图 16-114 所 示 。 


图 16-114 输入 策略 名 称 


(15) 输入 “btest*， 单 击 “ 下 一 步 * 按 钮 ， 进 入 备份 方式 选择 窗 
口 ， 如 图 16-115 所 示 。 


图 16-115 ”全 备 和 增 备 方式 选择 


(16) 选择 完全 备份 或 者 增 量 、 差 量 备份 。 单 击 * 下 一 步 ? 按 钮 继 
续 ， 如 图 16-116 所 示 。 


图 16-116 ”设置 Catalog 备 份 日 程 表 


(17) 设置 每 周 进行 一 次 完全 备份 ， 每 个 备份 保留 期 限 为 两 周 ， 
两 周 过 后 ， 之 前 的 备份 就 认为 失效 ， 存 放 备 份 的 磁带 可 供 其 他 备份 使 
用 ， 如 图 16-117 所 示 。 


图 16-117 ”选择 具体 Catalog 备 份 日 程 表 


(18) 选择 具体 备份 时 间 ， 图 16-117 跨 越 了 所 有 时 间 ， 所 以 备份 
可 以 在 任何 时 间 内 发 生 。 继 续 。 


(19) 设置 备份 后 的 Catalog 信 息 存放 位 置 。 以 及 登录 操作 系统 所 
需 的 用 户 认 证 信息 。 单 击 * 下 一 步 ?按钮 继续 ， 如 图 16-118 所 示 。 


图 16-118 ”选择 Catalog 备 份 路 径 及 认证 信息 
(20) 设置 是 否 进行 邮件 通知 ， 如 图 16-119 所 示 。 选 择 No 单 选 按 
钮 ， 单 击 “ 下 一 步 ” 按 钮 继续 ， 如 图 16-120 所 示 。 


图 16-119 ”是 否 邮 件 通 知 图 16-120 ”完成 设置 


(21) 完成 Catalog 备 份 策略 向 导 。 单 击 “ 下 一 步 * 按 钮 ， 如 图 16- 
121 所 示 。 


图 16-121 策略 列表 


选择 新 创建 的 策略 ， 单 击 “ 下 一 步 ” 按 钮 ， 即 可 完成 环境 的 初始 化 
操作 。 


初始 化 后 ，Master Server 会 在 Media Server 列 表 中 自动 加 入 这 些 扫 
描 到 的 介质 服务 器 ， 并 且 在 Storage Unit 中 列 出 扫描 到 的 机 械 手 设备 。 


16-122 所 示 的 是 介质 服务 器 列表 ， 图 16-123 所 示 的 是 备份 客户 端 列 
表 。 


图 16-122 ”介质 服务 器 列表 


图 16-123 ”备份 客户 端 列表 
图 16-124 所 示 的 是 存储 单元 列表 。 


图 16-124 ”存储 单元 列表 


2. Storage Unit 


Storage Unit (存储 单元 ， 是 一 个 逻辑 上 的 概念 。 它 表示 存储 设 
备 中 管理 一 组 介质 的 单元 ， 对 于 磁带 库 设 备 来 说 ， 一 个 机 械 手 就 可 以 
掌管 属于 它 的 所 有 磁带 ， 那 么 一 个 机 械 手 就 是 一 个 存储 单元 。 所 以 图 
16-124 中 ， 每 个 磁带 库 的 机 械 手 ， 都 被 认为 是 一 个 存储 单元 。 可 以 看 
到 右 侧 窗口 中 显示 了 10 个 机 械 手 设备 ， 但 是 物理 上 只 存在 两 个 ， 这 是 
为 何 呢 ? 

因为 五 台 服 务 器 共享 两 个 机 械 手 ， 每 台 服 务 器 都 会 识别 到 两 台 磁 
带 库 的 机 械 手 ， 所 以 一 共 是 10 个 机 械 手 设备 。 实 际 使 用 的 时 候 ， 只 多 
许 其 中 两 台 服 务 器 同时 操纵 两 台 磁 带 库 设备 。 但 是 一 段 时 间 内 ， 五 台 
服务 器 均 有 机 会 操纵 磁带 库 ， 这 也 就 是 共享 磁带 库 的 意义 了 。 


每 台 磁 带 库 中 的 可 用 介质 (磁带 ) 也 会 被 自动 添加 到 Media 项 ， 
如 图 16-125 所 示 。 


图 16-125 “介质 (磁带 ) 列表 


图 16-125 中 的 Robots， 表 示 物 理 上 存在 的 磁带 库 的 机 械 手 ， 所 以 
只 有 两 个 。 右 侧 窗 口 所 示 的 是 识别 到 的 所 有 人 磁带， 每 盘 磁 带 都 被 编 了 
号 ， 以 便 加 以 区 分 。 实 际 上 ， 每 盘 磁 带 都 会 贴 有 一 个 条 码 ， 机 械 手 扫 
首 这 个 条 码 以 区 分 每 盘 磁 带 。 


3。 卷 池 (Media Pool) 


由 于 每 盘 磁 带 的 存储 容量 有 限 ， 如 果 有 备份 需要 用 到 多 于 一 盘 磁 
带 ， 则 如 何 分 配 并 在 分 配 后 记录 这 些 磁带 的 使 用 状况 ， 是 个 比较 麻烦 
的 问题 。 为 了 使 管理 更 加 方便 ，NetBackup 引 入 了 卷 池 (Media Pool) 
的 概念 。 这 就 像 磁盘 阵列 设备 将 每 个 物理 磁盘 合并 ， 并 再 分 割 成 更 大 
的 Volume 或 者 虚拟 磁盘 一 样 ， 磁 带 同样 可 以 这 样 被 虚拟 化 ， 如 图 16- 
126 和 图 16-127 所 示 。 


图 16-126 ” 卷 池 (1) 


图 16-127 卷 池 (2) 


我 们 看 到 ，Volume Pools 项 之 下 的 11 个 卷 池 ， 其 中 名 为 NetBackup 
的 卷 池 包含 了 11 盘 人 磁带。 而 名 为 bbpserv_filesytem 的 卷 池 ， 只 包含 了 一 
盘 磁 带 。 有 了 卷 池 之 后 ， 就 可 以 把 卷 池 中 的 所 有 磁带 ， 当 成 一 个 大 的 
虚拟 磁带 来 看 待 。 我 们 可 以 为 每 个 待 备份 的 数据 项 目 分 配 一 个 卷 闻 ， 
每 次 备份 的 数据 只 存放 在 这 个 卷 池 中 ， 其 他 卷 池 中 的 磁带 不 会 给 这 个 
备份 所 使 用 ， 这 样 就 做 到 了 充分 的 资源 隔离 。 卷 闻 可 以 手动 创建 并 且 
在 不 冲突 的 前 提 下 任意 添加 磁带 ， 如 图 16-128 和 图 16-129 所 示 。 


图 16-128 ”新 建 卷 池 图 16-129 ”输入 名 称 和 描述 


4. 卷 组 (Media Group) 


这 也 是 一 个 逻辑 上 的 概念 ， 下 图 中 显示 了 两 个 卷 组 ， 每 个 磁带 库 
中 的 磁 珊 ， 都 放 到 了 一 个 单独 的 组 中 。 卷 组 在 实际 使 用 上 没有 很 大 的 
意义 。 卷 组 不 能 手动 创建 ， 默 认 每 个 机 械 手 就 会 生成 一 个 卷 组 ， 如 图 
16-130 所 示 。 


图 16-130” 卷 组 
5。Robots (机 械 手 ) 
如 图 16-131 所 示 ， 左 侧 显 示 的 是 机 械 手 。 
图 16-131 左 侧 显示 的 机 械 手 


这 个 项 下 面 显示 了 整个 备份 系统 中 所 存在 的 物理 机 械 手 的 数量 ， 
右 侧 窗 口中 显示 了 对 应 机 械 手 所 掌管 的 磁带 。 


6。Standalone ( 非 共 享 的 机 械 手 ) 


如 图 16-132 所 示 是 Standalone 机 图 16-132 ”Standalone 机 械 手 
械 手 。 


如 果 某 人 台 介 质 服务 器 独立 掌管 一 台 磁 带 库 的 机 械 手 ， 而 没有 共享 
给 其 他 主机 使 用 ， 则 NetBackup 识 别 到 这 种 设备 之 后 ， 就 会 显示 在 右 侧 
窗口 中 。 本 例 中 没有 这 种 设备 。 


7。Devices (设备 ) 


这 一 项 列 出 了 整个 系统 中 所 有 可 用 于 备份 的 物理 存储 设备 ， 如 图 
16-133 所 示 。 


图 16-133 ”所 有 可 用 于 备份 的 介质 设备 


右 侧 窗 口中 的 拓扑 图 显示 了 两 人 台 人 磁带 库 和 四 人 台独 立 磁 带 机 ， 并 有 
连 线 。 带 有 齿 轮 标志 的 为 介质 服务 器 ， 右 上 方 的 图 标 为 磁带 库 ， 其 中 
还 显示 了 机 械 手 、 磁 带 模 和 两 个 驱动 器 ， 驱 动 器 下 面 的 手 托 表明 这 个 
驱动 器 为 共享 驱动 器 ， 也 就 是 说 其 他 主机 也 可 以 操作 这 个 驱动 器 。 


右 侧 窗口 的 下 半 部 分 显示 了 所 有 逻辑 而 不 是 物理 设备 。 由 于 共享 
驱动 器 的 原因 ， 本 例 中 的 逻辑 驱动 器 变 为 了 12 个 〈 三 台 服 务 器 ， 每 台 
识别 到 四 个 驱动 器 ) ， 再 加 上 独立 的 磁带 机 ， 共 有 16 个 驱动 器 ， 如 图 
16-134 所 示 。 


图 16-134 ”设备 列表 
同 理 ， 人 逻辑 机 械 手 也 有 6 个 而 不 是 3 个 ， 如 图 16-135 所 示 。 
图 16-135 “逻辑 机 械 手 


如 果 选 中 Devices 项 下 面 的 某 台 主机 设备 ， 便 可 在 右 侧 窗口 的 下 半 
部 分 显示 这 人 台 主 机 掌管 的 驱动 器 或 者 机 械 手 ， 如 图 16-136 所 示 。 


图 16-136 每 台 主 机 包含 的 设备 


并 且 在 右 侧 窗口 的 上 半 部 分 ， 就 会 突出 这 台 设 备 所 连接 的 连 线 ， 
如 图 16-137 所 示 。 


图 16-137 ”拓扑 连 线 


中 黑色 连 线 表 示 microcct 主 机 目前 所 连接 的 设备 有 : 两 台独 立 磁 
带 机 驱动 器 、 两 台 人 磁带 库 中 的 共享 驱动 器 。 


8。Standalone Drivers (独立 驱动 器 ) 


如 果 某 台 介 质 服务 器 上 有 自己 的 独立 磁带 机 (一 个 驱动 器 ， 没 有 
机 械 手 ) ， 则 NetBackup 识 别 到 之 后 ， 就 会 在 这 个 项 目下 显示 出 来 。 本 
例 中 共有 4 台独 立 磁带 机 ， 如 图 16-138 所 示 。 


图 16-138 ”独立 磁带 机 列表 及 拓扑 
提示 : 拓扑 图 中 所 有 独立 磁带 机 的 连接 线 都 用 黑色 加 重 了 。 


以 上 介绍 了 NetBackup 配 置 工具 的 一 些 基 本 组 成 。 下 面 通过 一 个 实 
例 来 说 明 如 何 备 份 bbpsrv 这 人 台 服 务 器 上 的 DB2 数 据 库 。 


16.3.8 ”配置 DB2 数 据 库 备 份 
1。 建立 备份 策略 


(1) 首先 建立 一 个 备份 策略 ， 命 名 为 "bbpsrv_db2_bak”， 如 图 16- 
139 所 示 。 


图 16-139 ”创建 备份 策略 


(2) 单 击 New Policy 命 令 ， 输 入 名 称 之 后 ， 显 示 如 图 16-140 所 示 
的 对 话 框 。 


图 16-140 ”新 策略 窗口 


(3) 在 Policy Type 中 我 们 选择 “DB2”， 使 NetBackup 调 用 与 DB2 备 
份 相关 的 模块 。 在 Policy Volume Pool 下 ， 选 中 专门 为 这 个 备份 所 创建 
的 卷 闻 “bbpsrv”。 


2. 在 策略 中 添加 时 间 表 


切换 到 Schedules 选 项 卡 ， 设 置 什 么 时 间 进 行 数 据 备 份 ， 以 及 每 次 
备份 最 多 允许 人 花费 多 长 的 时 间 等 。 


进入 Schedules 选 项 卡 ， 窗 口中 已 经 包含 了 一 个 名 为 Default- 
Application-Backup 的 Schedule， 这 个 Schedule 是 备份 DB2 数 据 库 所 必需 
的 ， 因 为 备份 时 需要 调用 的 脚本 中 的 Schedule 名 称 就 是 Default- 
Application-Backup。 双击 这 个 Schedule ， 弹 出 如 图 16-141 所 示 的 对 话 
框 。 


图 16-141 ”编辑 策略 属性 


其 中 Type of backup 为 Application Backup， 表 明 这 个 Schedule 是 用 
于 由 应 用 程序 自主 发 起 的 备份 。 如 果 没 有 这 个 Schedule， 则 应 用 程序 
就 不 能 调用 Netbackup 提 供 的 接口 而 把 数据 发 送 给 NetBackup ， 因 为 策 
略 中 没有 人 允许 应 用 程序 这 么 做 。 


我 们 所 要 实现 的 ， 不 仅仅 是 手动 从 应 用 程序 发 起 备份 ， 而 是 让 
NetBackup 自 动 根据 设 定 的 时 间 来 备份 ， 所 以 需要 增加 一 个 Schedule。 
单 击 下 方 的 New 按 钮 。 


将 这 个 Schedule 命名 为 *Auto_Fullj”，Type of backup 选 择 Automatic 
Full Backup， 如 图 16-142 所 示 。 


图 16-142 ”给 日 程 起 名 


Frequency 选 择 每 天 备份 一 次 。Retention (保留 ) 选择 将 备份 保留 
两 周 ， 两 周 后 ， 对 应 的 磁带 就 可 以 被 抹 掉 或 者 用 于 其 他 备份 。 然 后 切 
换 到 Start Windows 选 项 卡 ， 如 图 16-143 所 示 。 


图 16-143 ”选择 具体 备份 窗口 时 间 


这 里 设置 ， 每 天 0 点 开始 备份 ， 凌 晨 5 点 结束 备份 。 如 果 由 于 某 种 
原因 ， 备 份 持续 了 超过 5 小 时 ， 则 NetBackup 会 执行 完 当 前 备份 。 如 果 
还 有 其 他 备份 需要 在 这 5 个 小 时 中 执行 ， 则 禁止 其 执行 ， 直 到 第 二 天 的 
0 点 ， 再 接着 执行 上 次 未 执行 的 备份 ， 依 此 类 推 。 


3。 选 定 需要 备份 的 客户 机 


接着 切换 到 Clients 选 项 卡 ， 如 图 16-144 所 示 。 
图 16-144 ”设置 要 备份 的 客户 端 


单 击 New 按 钮 ， 浏 览 或 者 输入 要 备份 的 服务 器 ， 即 bbpsrv 这 人 台 计 
算 机 。 期 间 会 提示 选择 这 人 台 计 算 机 的 操作 系统 类 型 ， 这 里 选择 
Windows 2000。 然 后 切换 到 Backup Selections 选 项 卡 。 在 前 三 个 选项 卡 
中 ， 已 经 定义 了 备份 类 型 、 备 份 发 生 的 时 间 和 持续 时 间 、 所 需 备 份 的 
服务 器 ， 而 唯 独 缺 少 了 最 重要 的 内 容 ， 即 备份 这 人 台 服 务 器 上 的 哪些 东 
西 。 在 Backup Selections 选 项 卡 来 完成 这 个 策略 的 最 后 一 步 : 定义 备份 
哪些 内 容 。 


4. 选择 需要 备份 的 内 容 或 者 需要 执行 的 脚本 


在 Clients 选 项 卡 中 单 击 New 按 钮 ， 出 现 如 图 16-145 所 示 的 界面 。 
图 16-145 ”选择 备份 内 容 或 者 需要 执行 的 备份 脚本 
然后 单 击 按钮 ， 来 浏览 客户 机 上 的 文件 ， 如 图 16-146 所 示 。 
图 16-146 ”选择 要 备份 的 文件 或 者 要 执行 的 脚本 
选中 需要 备份 的 目录 或 者 文件 之 后 ， 单 击 OK 按钮 。 


本 例 需 要 备份 的 是 数据 库 数据 ， 备 份 数 据 库 如 果 只 备份 数据 文 
件 ， 恢 复 的 时 候 是 不 够 的 ， 况 且 ， 如 果 是 online 备 份 ， 则 必须 用 数据 库 
自己 提供 的 工具 来 备份 ， 才 会 得 到 可 用 的 镜像 ， 仅 仅 把 数据 文件 复制 
一 份 ， 这 种 备份 是 不 能 用 作 恢 复 的 。 所 以 这 个 例子 中 ， 需 要 在 待 备份 
的 计算 机 上 运行 DB2 数 据 库 相关 的 备份 命令 来 备份 数据 库 。 这 些 命令 
都 存在 于 一 个 预先 由 NetBackup 编 辑 好 的 批 处 理 脚 本 文件 中 。 


找到 这 个 文件 ， 其 路 径 位 于 待 备份 计算 机 NetBackup 安 装 目录 下 : 


C : \Program 
Files\VERITAS\NetBackup\DbExt\DB2\db2_backup_db_online.cmd 


选中 这 个 文件 ， 单 击 OK 按 钮 ， 结 果 如 图 16-147 所 示 。 
图 16-147 ”选择 要 执行 的 脚本 


可 以 看 到 ，NetBackup 已 经 识别 出 这 个 脚本 ， 左 侧 的 图 标 已 经 变 
为 。 


脚本 的 内 容 如 下 : 


@REM $Revision: 1.2 $ 
Q@REM bcpyrght 
@REM 


大 


kx 


@REM * $VRTScprght: Copyright 1993 - 2003 VERITAS Software 
Corporation, All Rights Reserved $ * 
@REM 


wr 


小 


Q@REM ecpyrght 


@REM 
@REM This Script is provided as an example . See the 
instructions below 
QREM for making customizations to work within your 
environment. 
@REM 
@REM Please copy this script to a safe location before 
customizing it. 
Q@REM Modifications to the original files will be lost 
during product updates. 
@REM 
@REM This script performs an online backup of the 
database. An online backup 


@REM requires that the database is configured for forward 


recovery (See the 
Q@REM DB2 USEREXIT and LOGRETAIN settings) . DB2 Users can 
remain connected 
@REM while performing an online backup. 
QREM 
Q@REM To back up a database or a database partition, the 
user must have SYSADM, 


Q@REM SYSCTRL, or SYSMAINT authority. 


Q@echo off 
@setlocal 
Q@REM !!!!! START CUSTOMIZATIONS !!!1!! 
@REM 
@REM The following changes need to be made to make this 
script work with your 


Q@REM environment: 


@REM This is the NetBackup library that backs up and 
restores DB2 databases 

@REM Set db2 nblib below to the correct NetBackup 
library path for your host 


@REM 
@REM Example: Q@set 
db2_nblib=C:\progra~i\veritas\netbackup\bin\nbdb2.d1l 
@set db2_nblib= 
Q@echo db2_nblib = %db2 nblib% 


@REM This is the DB2 home directory where DB2 is 
installed 
@REM Set db2 home to DB2 home directory 
@REM 
Q@REM Example: @set db2 home=D:\sqllib 
@set db2_home= 


Q@echo db2 home = %db2 home% 


@REM Set db2 name to the name of the database to backup: 
@REM 

Q@REM Example: @set db2 name=SAMPLE 

@set db2_name= 


Q@echo db2 name = %db2 name% 


@REM 下 下 下 下 让 下 下 让 让 下 让 下 让 下 下 下 三 下 让 让 让 二 下 下 三 让 下 下 让 下 下 让 让 下 让 下 二 攻 让 让 下 二 二 二 二 二 

@REM Concurrency can improve backup performance of large 
databases. 

@REM Multiple sessions are used to perform the backup, 


with each session 


@REM backing up a subset of the database. The sessions 
operate 
@REM concurrently, reducing the overall time to backup 


the database. 
@REM This approach assumes there are adequate resources 


available, like 


@REM multiple tape devices and/or multiplexing enabled. 
@REM 
@REM For more information on configuring NetBackup 
multiplexing, 
@REM refer to the "Veritas NetBackup System 


Administrator's Guide". 
Q@REM 
@REM If using multiple sessions change db2_ sessions to 
use multiple sessions 
Q@REM 
Q@REM Example: @set db2 sessions="OPEN 2 SESSIONS WITH 4 
BUFFERS BUFFER 1024" 


Qset db2_ sessions= 


@REM !!1!!! END CUSTOMIZATIONS !1!1!!! 


Q@REM These environmental variables are created by Netbackup 


(bphdb) 


Q@echo DB2_POLICY = %DB2_ POLICY% 

Q@echo DB2_SCHED = %DB2 SCHED% 

Q@echo DB2_CLIENT = %DB2_ CLIENT% 

Q@echo DB2_SERVER = %DB2_ SERVER% 

Q@echo DB2_USER INITIATED = %DB2 USER_ INITIATED% 
Q@echo DB2_FULL = %DB2_FULL% 

Q@echo DB2_CINC = %DB2_CINC% 

Q@echo DB2_INCR = %DB2_INCR% 

Q@echo DB2_SCHEDULED = %DB2_SCHEDULED% 

Q@echo STATUS_FILE = %STATUS_FILE% 


@REM Type of Backup: 


@REM NetBackup policies for DB2 recognize different 


@REM backup types, i.e . full, cumulative, and 
differential. 
@REM For more information on NetBackup backup types, 


please refer to the 
@REM NetBackup for DB2 System Administrator's Guide. 
@REM 
@REM Use NetBackup variables to set DB2 full or 
incremental options 
@REM 


Q@set db2 action= 


if "%DB2_FULL%" == "1" @set db2 action=ONLINE 
if "%DB2_CINC%" == "1" @set db2 action=ONLINE INCREMENTAL 
if "%DB2_INCR%" == "1" @set db2 action=ONLINE INCREMENTAL 
DELTA 


Q@echo db2 action = %db2 action% 


Q@REM Actual command that will be used to execute a backup 

@REM Note: the parameters /c /w /i and db2 should be used 
with db2cmd ,exe 

@REM Without them, NetBackup job monitor may not function 


properly. 


@set CMD_FILE=%temp%xcmd file 
Q@echo CMD_FILE = %CMD FILE% 
@set CMD_ LINE=%db2 home%\bin\db2cmd.exe /c /w /i db2 -f 
%CMD_FILE% 
Q@echo CMD_LINE = %CMD LINE% 
Qecho BACKUP DATABASE %db2 name% %db2 action% LOAD 
%db2_nblib% %db2_sessions% 
@echo BACKUP DATABASE %db2 name% %db2_ action% LOAD 


%db2 nblib% %db2 sessions% 之 %CMD FILE% 


@echo Executing CMD=%CMD_LINE% 

%CMD_LINE% 

Q@REM Successful Backup 

if errorlevel 1 goto errormsg 

echo BACKUP SUCCESSFUL 

if "%STATUS_ FILE%" == "" goto end 

if exist "%STATUS_ FILE%" echo © > "%STATUS FILE%" 

goto end 

:CUStom err_msg 

echo This script must be customized for proper operation in 
your environment. 

@REM Backup command unsuccessful 


:errormsg 


echo Execution of BACKUP command FAILED - exiting 
if "%STATUS_ FILE%" == "" goto end 

if exist "%STATUS_ FILE%" echo 1 > "%STATUS FILE%" 
:end 


Q@endlocal 


经 过 这 样 的 配置 之 后 ， 在 每 天 的 0 点 ，Master Server 便 会 发 送 指令 
给 bbpsrv 上 的 NetBackup 客 户 端 ， 让 它 执行 这 个 脚本 。 此 脚本 中 的 命令 
会 告诉 DB2 数 据 库 备份 数据 库 并 且 调 用 一 个 DLL 链 接 库 文件 ， 将 数据 
通过 SAN 网 络 发送 到 相应 卷 池 所 在 的 磁带 库 上 ， 从 而 被 写 入 磁带 。 


5。 监 控 备 份 执行 状况 
可 以 通过 下 面 的 方法 监控 备份 执行 的 状况 ， 如 图 16-148 所 示 。 
图 16-148 ”监控 备份 状态 


i BR 
一 个 蓝 色 小 人 成 功 举 起 的 图 标 ， 如 果 备 份 正在 运行 ， 则 显示 一 
人 
小 人 排队 的 图 标 ， 如 果 任 务 失败 ， 则 显示 圆 形 红 色差 号 。 


对 于 其 他 服务 器 ， 可 以 用 同样 的 步骤 来 备份 ， 这 里 就 不 再 详 述 
了 。 


16.4 ”与 业务 应 用 相 结 合 的 快照 备份 和 容 灾 


16.3 一 节 末 尾 所 介绍 的 备份 DB2 数 据 库 的 方法 ， 其 实 只 是 调用 了 
DB2 自 身 所 提供 的 API 而 已 ，DB2 将 数据 通过 API 传 输 给 备份 软件 代 


理 ， 然 后 备份 软件 将 收 到 的 数据 写 入 对 应 的 存储 介质 中 。 包 括 各 大 备 
份 软件 对 Oracle 的 备份 ， 其 实 也 都 是 这 样 ， 将 Oracle 置 于 热 备 模式 下 ， 
然后 将 其 对 应 的 数据 文件 以 及 配套 日 志 复制 出 来 保存 ， 或 者 利用 
RMAN 提 供 的 API 来 实现 数据 备份 。 这 些 备 份 方式 都 需要 影响 到 业务 
主机 ， 都 需要 由 业务 主机 将 对 应 的 数据 提取 出 来 传送 给 备份 代理 ， 然 
后 备份 代理 程序 将 其 写 入 存储 介质 。 这 种 备份 所 耗费 的 时 间 会 很 长 ， 
因为 涉及 到 实际 的 数据 移动 ， 所 以 备份 过 程 中 对 主机 资产 会 有 持续 的 
耗费 。 


而 如 果 能 够 直接 在 这 些 应 用 程序 存储 数据 的 磁盘 阵列 设备 中 对 相 
应 的 数据 做 备份 的 话 ， 那 么 就 完全 可 以 实现 Server-Free 了 。 人 在 磁盘 阵 
列 设备 中 如 何 对 数据 做 备份 呢 ? 磁盘 阵列 所 能 做 的 就 是 直接 将 整个 
LUN 中 的 数据 传输 到 另外 的 位 置 。 由 于 LUN 中 的 数据 是 不 断 变化 的 ， 
所 以 阵列 必须 先 对 这 个 LUN 做 一 份 快照 ， 然 后 将 这 份 快 照 数据 通过 某 
种 方式 传输 到 备份 目标 存储 空间 中 。 在 做 快照 时 ， 必 须 保证 应 用 程序 
层面 的 一 致 性 ， 这 也 就 意味 着 应 用 程序 需要 将 其 缓存 中 的 脏 数 据 或 者 
日 志 刷 盘 之 后 ， 阵 列 再 对 相应 的 LUN 做 快照 ， 此 时 做 出 来 的 快照 才 是 
应 用 层 一 致 的 。 所 以 ， 主 机 端 需要 有 一 个 主机 代理 程序 来 负责 通知 对 
应 的 应 用 程序 ， 调 用 应 用 程序 提供 的 API 让 其 处 于 归档 模式 或 者 静默 
模式 ， 之 后 代理 通知 阵列 做 快照 ; 或 者 可 以 利用 VSS 框 架 来 实现 对 多 
种 应 用 的 一 致 性 支持 。 快 照 做 完 之 后 ， 这 份 快 照 就 相当 于 一 份 一 致 的 
备份 数据 集 了 ， 此 时 可 以 将 其 通过 dump 的 格式 直接 写 入 磁带 中 ， 或 者 
通过 网 络 将 其 传输 到 另 一 台 阵 列 的 LUN 中 保存 。 对 于 后 续 的 备份 ， 可 
以 实现 增 量 备份 ， 比 如 再 次 做 快照 ， 将 这 份 最 新 快照 与 上 一 次 备份 时 
产生 的 快照 做 比 对 ， 比 对 快照 中 的 bitmap， 将 两 份 bitmap 做 OR 运算 ， 
得 出 的 结果 bitmap 中 为 1 的 则 标示 变化 的 块 ， 后 续 只 要 将 这 些 变 化 的 块 
同步 到 远程 阵列 或 者 利用 dump 格 式 再 次 写 入 磁带 即 可 。 


上 述 过 程 只 体现 了 “与 业务 应 用 相 结合 ”这 个 思想 的 一 部 分 ， 也 就 
是 保证 数据 一 致 性 。 这 个 思想 的 另 一 部 分 则 是 体现 在 对 业务 底层 所 使 
用 的 存储 空间 的 全 面 管理 ， 以 及 对 业务 的 细 粒 度 备 份 和 恢复 方面 。 


如 图 16-149 所 示 为 一 个 上 文中 提 到 的 主机 端 代 理 (Driver Agent， 
作者 自 创 的 名 词 ， 并 非特 指 某 款 产品 名 称 ) 的 架构 图 ， 这 个 代理 其 实 
就 是 快照 代理 的 一 个 升级 版 。 可 以 从 图 中 看 到 它 所 支持 的 功能 ， 作 为 
一 个 高 级 卷 管理 角色 ， 不 但 可 以 直接 从 阵列 端 要 存储 空间 ， 而 不 是 在 
阵列 端 配置 然后 映射 给 主机 ， 还 可 以 创建 快照 、 挂 载 这 些 快照 等 。 如 
图 16-150 所 示 为 App Agent 〈 作 者 自 创 的 名 词 ， 并 非特 指 某 款 产品 名 
称 ) 的 架构 图 ， 其 可 以 与 各 种 应 用 程序 以 及 VSS 框 架 交 互 ， 可 以 感知 
应 用 程序 的 内 部 信息 ， 比 如 实例 名 、 数 据 文 件 和 所 在 的 存储 空间 等 ， 
并 且 可 以 将 对 应 的 应 用 数据 迁移 到 其 他 存储 位 置 。 这 个 代理 通过 调用 
Driver Agent 的 功能 来 实现 对 应 用 系统 数据 的 恢复 ， 可 以 做 到 细 粒 度 的 
备份 和 恢复 ， 比 如 只 备份 某 个 数据 库 实例 ， 只 备份 某 个 Exchange 
Mailbox， 只 恢复 某 个 Mailbox 等 。 


图 16-149 Driver Agent 软 件 架构 图 


图 16-150 Driver Agent 与 APP Agent 交 互 架 构图 


目前 这 种 备份 架构 对 应 的 产品 有 比如 EMC 的 Replication Manager 
以 及 NetApp 的 SnapManager， 以 及 华为 赛 门 铁 克 的 HostAgent 产 品 。 


另外 ， 在 对 虚拟 机 的 备份 过 程 中 ， 一 些 备份 软件 可 以 利用 Vmware 
所 提供 的 一 些 存储 API 实 现 一 些 高 级 功能 ， 比 如 某 备 份 软件 厂商 所 实 
现 的 Active Block Mapping 功 能 。 我 们 知道 ， 有 些 备份 软件 是 直接 将 
Vmware 窒 主机 上 VMEFS 下 面 的 VMDK 虚 拟 机 虚拟 磁盘 文件 备份 下 来 
的 ， 而 这 些 磁盘 如 果 是 被 NTFS 文 件 系统 所 格式 化 并 且 管 理 使 用 的 ， 那 


么 NTFS 中 实际 占用 虚拟 磁盘 空间 的 文件 可 能 并 没有 占用 全 部 虚拟 磁盘 
的 空间 ， 那 么 此 时 备份 软件 是 无 法 感知 到 这 一 点 的 ， 它 只 能 将 整个 
VMDK 文 件 备份 下 来 ， 浪 费 了 大 量 存 储 空间 和 网 络 带 宽 。 


而 这 个 Active Block Mapping 功 能 通过 调用 Vmware 所 提供 的 API， 
检测 VMDK 中 实际 被 NTFS 文 件 系统 占用 的 块 ， 然 后 将 NTFS 中 的 剩余 
空间 填 0， 此 处 “ 填 0” 并 不 是 真 的 去 向 其 中 写 入 0x00， 而 是 使 用 元 数据 
记录 这 些 0x00 的 位 置 以 及 长 度 。 我 们 知道 ， 所 有 文件 系统 都 会 使 用 
bitmap 来 记录 当前 文件 系统 所 在 的 底层 磁盘 / 卷 空间 块 的 占用 和 空 闪 状 
态 ， 备 份 软件 只 要 将 这 份 位 图 从 对 应 的 虚拟 机 文件 中 提取 出 来 便 可 知 
道 到 底 这 个 文件 中 哪些 区 段 是 空 内 的 ， 然 后 备份 软件 在 备份 这 个 
VMDK 文 件 时 只 需要 将 文件 中 被 NTFS 所 占用 的 部 分 从 底层 磁盘 中 读 取 
出 来 连续 存放 即 可 。 当 恢复 的 时 候 ， 系 统 会 根据 这 份 位 图 来 实时 地 向 
对 应 的 VMDK 恢 复 流 中 填 入 0 (在 内 存 中 填 入 ) ， 之 后 将 数据 发 送 给 
恢复 目标 介质 。 这 样 就 大 大 降低 了 磁盘 IO 压 力 以 及 网 络 传输 的 带宽 压 
4] 


第 17 章 ” 蚌 公 移 山 一 大 话 数 据 容 
灾 
@ 本 地 站 点 
@ 远程 站 点 
a 数据 通路 
@ 同步 复制 
@ 异步 复制 
@ 基于 主机 的 数据 复制 
@ 基于 存储 的 数据 复制 


数据 备份 系统 只 能 保证 数据 被 安全 地 复制 了 一 份 ， 但 是 一 旦 生产 
系统 发 生 故 障 ， 比 如 服务 器 磁盘 损坏 致使 数据 无 法 读 写 、 主 板 损 坏 造 
成 直接 无 法 开机 或 者 机 房 火灾 等 意外 事件 ， 我 们 必须 将 备份 的 数据 尽 
快 地 恢复 到 生产 系统 中 继续 生产 ， 这 个 动作 就 叫做 容 灾 。 容 灾 可 以 分 
为 四 个 级 别 : 数据 级 容 灾 ， 也 就 是 只 考虑 将 生产 站 点 的 数据 如 何 同步 
到 远程 站 点 即 可 ; 与 应 用 结合 的 数据 级 容 灾 ， 也 就 是 可 以 保证 对 应 应 
用 程序 数据 一 致 性 的 数据 同步 ， 以 及 可 感知 应 用 层 数据 结构 的 、 有 选 
择 的 同步 部 分 关键 重要 数据 的 数据 容 灾 ; 应 用 级 容 灾 ， 也 就 是 灾难 发 
生 时 ， 不 仅 可 以 保证 原本 生产 站 点 的 数据 在 灾 备 份 站 氮 可 用 ， 而 且 还 
要 保证 原生 产 系统 中 的 应 用 系统 比如 数据 库 、 邮 件 服务 在 灾 备 份 站 点 


也 可 用 ; 业务 级 容 灾 ， 除 了 保证 数据 、 应 用 系统 在 灾 备 份 站 点 可 用 之 
外 ， 还 要 保障 整个 企业 的 业务 系统 仍 对 外 可 用 ， 这 里 面 就 包含 了 IT 系 
统 可 用 、IT 管 理 部 门 可 用 、 业 务 逻 辑 部 门 可 用 、 对 外 服务 部 门 可 用 
等 ， 是 最 终 层次 的 容 灾 。 


17.1 ” 容 灾 概述 


有 些 事件 中 ,很 多 公司 就 是 因为 没有 远程 容 灾 系统 ， 导 致 数据 全 
部 毁 于 一 旦 ， 客 户 数据 丢失 、 公 司 倒 闭 ， 受 损失 的 不 仅 是 公司 ， 还 有 
客户 。 如 果 要 充分 保障 系统 和 数据 的 安全 ， 只 是 在 本 地 将 数据 进行 备 
份 还 远 远 不 够 ， 还 必须 在 远程 地 点 建立 另外 一 个 系统 ， 并 包含 当前 生 
产 系统 的 全 部 数据 备份 。 这 样 在 本 地 系统 发 生 故障 的 时 候 ， 远 程 备份 
系统 可 以 启动 ， 继 续 生产 。 


要 实现 这 样 一 个 系统 ， 首 先 ， 应 保证 主 生产 系统 的 所 有 数据 实时 
地 传输 到 远程 备份 系统 。 其 次 ， 主 系统 发 生 故 障 之 后 ， 必 须 将 应 用 程 
序 也 切换 到 远程 备份 系统 上 继续 运行 。 应 用 程序 是 一 个 企业 生产 流程 
的 代码 化 表示 ， 只 有 应 用 程序 正在 运行 ， 这 个 企业 才 处 于 生产 过 程 
中 ， 而 应 用 程序 的 成 功 运行 ， 又 必须 依赖 于 底层 数据 。 


俗话 说 ， 巧 妇 难 为 无 米 之 炊 。 我 们 的 应 用 程序 ， 比 如 Exchange 邮 
件 转发 系统 、SAP 企 业 ERP 系 统 、Lotus Notes 办 公 自 动 化 系统 等 ， 这 些 
就 好 比 巧 妇 ， 而 保存 在 磁盘 上 的 数据 ， 比 如 用 户 的 邮件 、ERP 系 统 的 
数据 库 文件 、 办 公 自 动 化 系统 自身 的 数据 文件 等 ， 就 好 比 大 米 ， 巧 妇 
用 她 高 超 的 厨 艺 ， 将 大 米 做 成 熟 饭 ， 供 消费 者 购买 。 


这 就 是 一 个 企业 生产 的 基本 雏形 ,企业 ( 巧 妇 ) 用 应 用 程序 (高 
超 的 厨 艺 ) 来 处 理 各 种 数据 (大 米 )”， 最 终生 成 新 的 数据 (米饭 ) ， 


供 消 费 者 购买 。 而 巧 妇 所 利用 的 锅 砚 杜 岔 、 水 、 电 、 煤 气 等 也 必 不 可 
少 ， 比 如 服务 器 、 硬 盘 、 网 络 通信 设施 、 电 源 等 这 些 IT 系统 必要 组 
件 。 下 面 来 对 比 一 下 厨房 和 I 系统 机 房 ， 如 表 17-1 所 示 。 


表 17-1 厨房 与 机 房 


生产 者 厨师 ， 用 生产 工具 来 加 工 生 产 资料 ， 获 得 产品 。 同 样 ， 各 
种 应 用 程序 ， 运 行 在 服务 器 上 ， 将 各 种 原始 数据 加 工 修改 ， 产 生 客户 
需要 的 信息 。 二 者 在 本 质 上 是 相同 的 。 


基于 这 个 生产 模型 ， 我 们 把 一 个 企业 IT 生产 系统 划分 为 4 个 组 件 : 
生产 资料 、 生 产 工具 、 生 产 者 、 产 品 。 要 实现 整个 IT 系统 的 容 灾 ， 那 
么 必然 要 实现 上 述 所 有 4 个 组 件 的 容 灾 。 然 而 ，IT 系 统 的 产品 和 原始 数 
据 往往 都 存放 在 同一 位 置 ， 比 如 同一 个 卷 、 同 一 台 盘 阵 等 。 本 章 不 摘 
述 产品 的 容 灾 ， 因 为 其 与 生产 资料 的 容 灾 本 质 是 相同 的 。 


思考 : 厨房 的 容 灾 。 大 家 不 要 笑 ， 厨 房 容 灾 ， 这 个 名 词 是 不 
是 太 荒唐 了 。 现 在 貌似 是 的 ， 但 是 战争 年 代 ， 厨 房 容 灾 将 是 
必 备 的 。 人 是 铁 饭 是 钢 ， 关 键 时 刻 看 厨房 。 我 想 厨房 容 灾 这 
个 话题 ， 广 大 读者 应 该 比 IT 工作 者 的 办 法 更 多 了 。 比 如 ， 在 
另外 一 个 隐蔽 地 点 建立 一 个 厨房 ， 柴 米 油 盐 光 酪 条、 锅 砚 村 
盆 炉 灶 勺 都 储存 到 这 个 厨房 中 作为 储备 粮 和 储备 工具 ， 一 旦 
当前 厨房 被 敌人 挫 毁 ， 立 即 启用 备用 厨房 ， 厨 师 全 部 转移 到 
备用 厨房 继续 做 饭 。 这 没 喻 难度。 的 确 ， 谁 都 可 以 想 出 这 样 
的 办 法 。 那 么 我 们 看 看 能 否 用 这 个 思想 来 建立 IT 系统 的 容 
灾 。 


生产 工具 的 容 灾 


像 厨房 容 灾 一 样 ， 在 另 一 个 地 点 建立 一 个 IT 机 房 ， 服 务 器 、 网 络 
设施 、 磁 盘 阵列 设施 等 一 应 俱 人 全。 当然， 出 于 成 本 因素 ， 备 用 地 点 的 
设备 不 一 定 非 要 与 主 系统 中 的 生产 工具 规格 和 性 能 完全 相同 ， 在 性 能 
和 容量 上 的 要 求 可 以 适当 降低 ， 但 至 少 要 满足 生产 需求 。 


下 面 将 主要 讲解 生产 资料 的 容 灾 和 生产 者 的 容 灾 。 
17.2 ”生产 资料 容 灾 一 一 原始 数据 的 容 灾 


IT 系统 的 生产 资料 ， 即 各 种 原始 录入 数据 。 它 和 实物 化 的 生产 资 
料 比如 大 米 ， 有 很 大 不 同 。 


第 一 ，IT 数 据 是 可 以 任意 复制 ， 并 可 以 复制 多 份 的 数据 。 


第 二 ，IT 系 统 数据 是 不 断 变 化 的 ， 在 生产 的 同时 ， 原 始 数据 将 会 
不 断 地 变化 ， 甚 至 产品 数据 会 覆盖 原始 数据 。 


基于 IT 数据 的 这 两 个 特点 ， 在 IT 系统 的 生产 资料 容 灾 方 面 ， 需 要 
注意 以 下 两 点 。 


第 一 ， 不 可 能 像 储存 大 米 一 样 ， 把 某 时 刻 的 原始 数据 复制 到 备用 
系统 中 就 不 管 了 ， 因 为 这 份 数据 是 不 断 在 变化 中 的 ， 我 们 需要 把 变化 
实时 地 同步 到 备用 系统 中 ， 只 要 主 系统 数据 变化 了 ， 备 用 系统 的 数据 
也 要 跟着 变化 。 


第 二 ， 数 据 必 须 至 少 保留 额外 的 一 份 。 因 为 大 米 没 有 了 ， 可 以 再 
购买 ， 每 次 购买 的 大 米 也 可 以 一 样 的 。 但 是 如 果 数 据 没 有 了 ， 束 不 可 
再 生 ， 这 个 企业 就 要 面临 倒闭 。 所 以 在 实现 容 灾 的 同时 ， 还 必须 做 好 
数据 备份 工作 ， 将 数据 备份 到 磁 市 或 者 其 他 备份 目标 中 保存 。 基 于 IT 


系统 数据 是 不 断 变化 的 ， 所 以 需要 尽量 保存 这 份 数 据 的 最 后 状态 ， 上 比 
如 ， 一 天 备份 一 次 。 如 果 数 据 量 很 小 ， 甚 至 可 以 一 天 备份 多 次 ， 这 样 
可 以 充分 保证 备份 的 数据 与 当前 的 数据 相差 最 少 。 


有 了 以 上 两 点 的 保证 ， 就 可 以 像 厨房 容 灾 一 样 ， 来 设计 IT 系统 的 
生产 资料 容 灾 了 。 以 下 是 一 个 设计 好 的 例子 。 


(1) 用 网 络 来 连接 本 地 系统 和 备用 系统 ， 先 将 本 地 系统 某 时 刻 的 
数据 ， 实 时 传送 到 备用 系统 。 


(2) 传输 结束 后 ， 再 将 从 这 个 时 刻 之 后 的 所 有 变化 的 数据 ， 同 步 
到 备用 系统 。 


(3) 此 后 ， 只 要 本 地 系统 有 数据 变化 ， 则 立即 将 变化 的 数据 传送 
到 备用 系统 ， 使 备用 系统 数据 发 生 相 同 的 变化 。 


在 这 个 基础 上 ， 还 需要 在 本 地 系统 中 对 数据 做 额外 备份 ， 即 备份 
到 离线 (如 磁带 等 ) 介质 上 ， 做 到 时 刻 保留 一 份额 外 的 数据 。 有 条 件 
的 话 ， 还 可 以 将 备份 好 的 磁带 运送 到 备份 站 点 去 ， 这 样 就 充分 保证 了 
主 站 点 一 旦 发 生火 灾 等 全 损 型 故障 后 的 数据 多余 度 。 

生产 资料 的 容 灾 ， 是 容 灾 系统 中 最 重要 的 一 个 组 件 ， 因 为 没有 了 
生产 资料 ， 即 使 有 生产 工具 、 生 产 者 ， 也 无 法 进行 生产 ; 而 如 果 疫 有 
了 生产 工具 和 生产 者 ， 比 如 服务 器 、 应 用 软件 等 ， 则 可 以 很 容易 购买 


到 。 


将 生产 数据 通过 网 络 实时 传送 到 备用 系统 ， 要 实现 这 个 目的 ， 要 
怎么 来 设计 呢 ? 我 们 来 看 个 拓扑 图 ， 如 图 17-1 所 示 。 


图 17-1 ”两 种 数据 通路 的 位 置 


左边 的 主 站 点 和 右边 的 备份 站 点 存在 相同 的 生产 工具 。 既 然 要 使 
主 站 点 和 备用 站 点 之 间 必 须 通过 网 络 来 连接 ， 所 以 只 要 知道 究竟 在 哪 
个 网 络 设施 上 进行 连接 。 系 统 中 有 两 个 网 络 通信 设施 ， 一 个 是 前 端 以 
太 网 络 ， 另 一 个 是 后 端 SAN 网 络 (也 有 可 能 是 以 太 网 络 ， 即 服务 器 通 
过 iSCSI 协 议 连 接 到 后 端 磁盘 阵列 ) ， 我 们 究竟 是 连接 二 者 的 前 端 网 络 
还 是 连接 后 端 网 络 呢 (图 中 标注 的 两 条 路 径 ) ? 答案 是 ， 两 者 都 可 
以 。 


17.2.1 ”通过 主机 软件 实现 前 端 专用 网 络 或 者 前 端 公用 网 络 同 
步 
这 种 方式 利用 的 就 是 图 17-1 中 的 标注 1 所 示 的 路 径 。 


(1) 主 站 点 和 备份 站 点 的 前 端 以 太 网 络 ， 均 通过 路 由 器 连接 至 电 
信 部 门 的 专线 或 者 Internet 网 络 上 。 


(2) 主 站 点 上 变化 的 数据 ， 经 过 前 端 以 太 网 交换 机 ， 然 后 通过 路 
由 器 ， 传 送 给 电信 部 门 的 网 络 交换 路 由 机 组 中 ， 经 过 层 层 交换 或 路 
由 ,传输 到 备份 站 点 的 路 由 器 。 


(3) 然后 经 过 交换 机 传送 到 备份 站 点 的 相应 服务 器 上 。 
(4) 服务 器 收 到 数据 后 ， 写 入 后 端的 磁盘 阵列 上 。 


提示 : 如 果 为 了 连接 而 接 入 Internet 网 络 ， 则 最 好 做 成 VPN 模 
式 ， 在 隧道 的 基础 上 上， 如果 追求 数据 安全 性 ， 则 需要 配置 加 
密 模式 的 VPN。 如 果 对 数据 同步 的 实时 性 要 求 不 高 ， 而 数据 
量 又 很 大 的 情况 下 ， 主 站 点 和 备份 站 点 都 接 入 100Mb/s 的 
Internet 网 络 ， 反 而 会 得 到 很 大 的 实惠 ， 特 别 是 备份 站 点 和 主 


站 点 在 相同 城市 的 情况 下 ， 这 样 主 站 点 数据 路 由 到 电信 部 门 
的 设备 之 后 ， 经 过 很 少 的 设备 束 会 到 达 备 份 站 点 ， 而 且 能 保 
证 很 大 的 实际 带宽 。 如 果 是 利用 罕 带 专线 接 入 专 网 ， 虽 然 可 
以 保证 这 条 链 路 带宽 独 享 ， 但 是 毕竟 带宽 低 。 所 以 专线 可 以 
保证 数据 同步 的 实时 性 ， 但 是 不 适合 大 数据 量 的 传输 。 


因为 这 种 方式 同步 数据 ， 需 要 经 过 前 端 网 络 ， 所 以 实现 这 个 功 
能 ， 还 需要 在 距离 前 端 网 络 最 近 的 主机 设备 上 实现 ， 也 就 是 服务 器 群 
上 来 实现 。 


思考 : 为 何不 能 直接 在 网 络 交换 设备 上 或 者 路 由 器 上 来 实现 
呢 ? 


第 一 ， 网 络 设备 一 般 是 没有 灵活 的 程序 载 入 运行 能 力 的 ， 网 络 设 
备 上 运行 的 程序 都 是 预先 固化 到 心 片 中 的 程序 ， 一 般 不 可 修改 ， 更 不 
用 说 再 加 入 另外 的 程序 来 执行 了 。 


第 二 ， 数 据 存 在 于 服务 器 ， 或 者 连接 服务 器 的 磁盘 阵列 上 ， 网 络 
设备 右 想 从 服务 器 上 提取 效 据 ， 则 必须 通过 调用 操作 系统 提供 的 相 天 
程序 接口 。 而 跨 网 络 传输 数据 的 现成 接口 ， 只 有 网 络 文件 系统 ， 所 以 
还 需要 将 所 有 数据 卷 都 共享 成 为 NAS 模 式 ， 但 这 样 过 于 繁 元 ， 所 以 我 
们 必须 要 在 每 台 有 数据 备份 的 服务 器 上 安装 一 种 软件 来 实现 数据 的 同 
步 ， 将 这 种 软件 安装 在 生产 者 ， 也 就 是 应 用 服务 器 上 ， 然 后 在 服务 器 
上 提取 生产 资料 和 产品 。 


不 管 生产 资料 和 产品 存在 于 服务 器 本 地 磁盘 ， 还 是 存在 于 后 端的 
磁盘 阵列 上 ， 对 于 服务 器 操作 系统 来 说 ， 都 是 一 个 个 的 目录 。 在 第 15 
章 的 最 后 曾经 描述 过 操作 系统 的 目录 虚拟 化 ， 不 管 底层 用 的 是 什么 设 


备 来 存储 数据 ， 也 不 管 数据 存放 在 网 络 上 还 是 本 地 磁盘 上 ， 最 终 操 作 
系统 都 将 这 些 位 置 虚拟 成 目录 ， 比 如 Windows 的 C 盘 、D 盘 ， 或 者 
UNIX 下 的 /mnt、/mountpoint 等 。 


通过 这 种 软件 可 以 直接 监视 这 些 目 录 中 数据 的 变化 ， 只 要 有 变化 
的 数据 ， 就 提取 出 来 通过 网 络 传送 到 远 端 服务 器 上 ， 远 端 服务 器 同样 
需要 安装 这 种 软件 的 接收 端 模块 来 接收 数据 ， 并 写 入 远 端 备份 站 点 上 
相应 服务 器 的 相同 目录 。 


这 种 方式 利用 了 前 端 网 络 进行 数据 同步 。 一 般 前 端 网 络 相对 后 端 
网 络 速度 来 说 是 比较 低 的 网 络 ， 而 且 是 客户 用 来 访问 服务 器 的 必 经 之 
路 ， 所 以 它 的 资源 是 比较 宝贵 的 。 另 外 ， 前 端 网 络 一 般 都 是 以 太 网 ， 
相对 廉价 ， 而 且 容 易 整 合 到 企业 大 网 络 中 ， 从 而 接 入 电信 部 门 的 网 
络 ， 所 以 适合 基于 TCP/ 耻 协议 的 远 距 离 传输 ， 比 如 大 于 100 公 里 的 范 
围 ， 甚 至 跨国 界 的 Pnternet 泄 围 内 传输 。 


下 面 来 看 一 下 这 种 方式 下 的 数据 流 经 路 径 : 


本 地 磁盘 阵列 (或 者 本 机 磁盘 ) 一 本 地 后 端 网 络 交 换 设 施 - 本 地 
服务 器 内 存 - 本 地 前 端 网 络 - 电信 交换 机 组 ~ 远 端 前 端 网 络 ~ 远 端 服 
务 器 内 存 - 远 端 后 端 网 络 交 换 设 施 - 远 端 磁盘 阵列 (或 者 远 端 本 机 磁 
盘 ) 。 


如 果 数 据 源 在 本 机 磁盘 ， 则 会 跳 过 本 地 后 端 网 络 交换 设施 ， 直 接 
到 服务 器 内 存 。 如 果 效 据 是 直接 在 内 人 存 中 生成 的 ， 则 需要 写 入 本 地 一 
份 ， 同 时 发 送 给 远 端 一 份 保存 。 其 中 ， 在 “本 地 磁盘 阵列 -本 地 后 端 网 
络 交 换 设 施 - 本 地 服务 器 内 存 ” 这 段 路 径 上 ， 数 据 是 通过 FCP 协 议 
(SCSI over FC 协议 ) 进行 打包 传送 的 ; 在 “本 地 前 端 网 络 ~- 电信 交换 


机 组 - 远 端 前 端 网 络 * 这 段 路 径 上 ， 数 据 是 通过 TCP/IP 协 议 传送 的 。 
FCP 协 议 运 行 在 后 端 高 速 网 络 的 保障 之 上 ， 而 TCP/IP 协 议 运 行 在 使 用 
前 端 低速 网 络 的 设备 上 ， 保 障 数 据 传输 ， 二 者 各 得 其 所 ， 充 分 发 挥 着 
各 上 自 的 作用 。 


图 17-2 所 示 的 路 径 即 是 数据 流动 的 路 径 。 服 务 器 上 的 涡轮 录 表 示 
数据 同步 软件 ， 它 从 本 地 提取 数据 ， 并 将 数据 源源 不 断 地 发 送 给 远 
端 ， 远 站 服务 器 上 的 涡轮 有 录 将 收 到 的 数据 源源 不 断 地 写 入 存储 设备 。 


图 17-2 经 前 端 网 络 备份 数据 


这 种 方式 的 数据 同步 ， 一 般 都 是 文件 级 同步 ， 即 同步 软件 只 检测 
文件 这 一 层 的 数据 变化 ， 或 者 每 当主 服务 器 针对 某 个 文件 做 写 入 时 ， 
写 入 数据 会 同时 发 送 给 备用 服务 器 。 而 对 底层 卷 的 数据 块 的 变化 ， 不 
做 同步 ， 除 非 数据 块 的 变化 造成 了 对 应 的 文件 的 逻辑 数据 变化 。 


Veritas Volume Replicator 软 件 介绍 


Veritas Volume Replicator (VVR) ， 是 Veritas 公 司 容 灾 套 件 Storage 
Foundation 系 列 软件 中 的 一 个 模块 ， 它 的 作用 非常 专 一 ， 就 是 将 本 地 
某 个 卷 上 的 数据 变化 ， 通 过 前 端 IP 网 络 复制 到 远 端 对 应 的 卷 上 ， 而 且 
保证 数据 变化 发 生 的 顺序 不 被 打 乱 ， 完 全 按照 本 地 的 IO 发 生 顺 序 在 异 
地 按照 相同 的 顺序 重 现 这 个 IO。 


VVR 支 持 耗费 融 宽 调整 功能 ， 控 制 对 网 络 带 宽 的 使 用 ， 在 业务 繁 
忙 时 可 以 降低 发 送 速 度 来 减少 对 网 络 带宽 的 耗费 ， 并 且 可 以 针对 不 同 
的 同步 流 设 定 各 自 的 带宽 。 支 持 异步 和 同步 复制 (在 后 面 会 介绍 ) 。 
在 网 络 发 生 故 障 的 时 候 ， 可 以 自动 将 复制 模式 从 同步 切换 到 异步 ， 以 
减少 对 主机 业务 的 影响 。 一 旦 复制 断 开 ，VVRe 可 以 记录 主 站 氮 目 从 断 


开 之 后 的 数据 变化 ， 待 连接 重新 建立 之 后 ， 立 即 复制 这 些 变化 的 数 
据 ， 而 不 需要 对 两 边 数据 进行 重新 比 对 或 者 全 部 重新 复制 。 


提示 : 类 似 的 软件 还 有 很 多 ， 比 如 Double Take、Legato， 
产 同 步 软件 InfoCore Replicator 等 ， 它 们 的 构思 都 是 一 样 的 ， 
只 不 过 实现 方式 和 效果 上 有 所 不 同 。 


后 文 将 介绍 两 个 使 用 这 种 方式 来 同步 数据 的 案例 。 
17.2.2 ”案例 : DB2 数 据 的 HADR 组 件 容 灾 


这 个 案例 是 笔者 实施 的 一 个 DB2 数 据 库容 灾 案 例 ， 它 利用 了 运行 
在 主机 和 备份 机 上 的 一 个 数据 库 软 件 模块 〈 即 HADR) ， 来 实现 两 端 
的 数据 同步 ， 主 机 和 备份 机 之 间 使 用 基于 以 太 网 的 TCP/IP 协 议 连 接 。 
这 个 案例 同步 的 数据 不 是 卷 上 的 原始 数据 ， 而 是 一 种 对 数据 操作 的 描 
述 ， 即 数据 库 日 志 ， 比 如 :“ 在 D 盘 创建 一 个 表 空 间 数据 文件 ， 名 称 
testspace， 大 小 500MB”。 


这 就 是 一 条 日 志 ， 主 机 只 需要 把 这 句 话 告诉 备份 机 即 可 ， 而 不 需 
要 传输 500MB 的 数据 。 备 份 机 收 到 日 志 后 ， 便 会 在 备份 机 的 磁盘 上 重 
做 (replay) 这 些 操作 ， 达 到 与 直接 同步 卷 上 数据 殊途同归 的 效果 。 


1. HADR 


其 全 称 为 High Availability Disaster Recovery， 它 是 DB2 数 据 库 级 别 
的 高 可 用 性 数据 复制 机 制 ， 最 初 被 应 用 于 Informix 数 据 库 系 统 中 ， 称 
为 High Availability Data Replication (HDR) ， 是 Share-Nothing 方 式 容 
灾 的 典型 代表 。 


提示 : 在 IBM 收 购 Informix 之 后 ， 这 项 技术 就 应 用 到 了 新 的 
DB2 发 行 版 中 。 


一 个 HADR 环 境 需 要 两 台数 据 库 服务 器 : 主 数据 库 服务 器 
(primary) 和 备用 数据 库 服务 器 (standby) 。 


= 当主 数据 库 中 发 生 事务 操作 时 ， 会 同时 将 日 志文 件 通 过 TCP/IP 
协议 传送 到 备用 数据 库 服务 器 ， 然 后 备用 数据 库 对 接收 到 的 日 
志文 件 进行 重 放 (Replay) ， 从 而 保持 与 主 数 据 库 的 一 致 性 。 
当主 数据 库 发 生 故 障 时 ， 备 用 数据 库 服务 器 可 以 接管 主 数 据 库 
服务 器 的 事务 处 理 。 此 时 ， 备 用 数据 库 服务 器 作为 新 的 主 数 气 
库 服 务 器 进行 数据 库 的 读 写 操 作 ， 而 客户 端 应 用 程序 的 数据 库 
连接 可 以 通过 自动 客户 端 重新 路 由 (Automatic Client Reroute) 
机 制 转 移 到 新 的 主 服务 器 。 

当 原 来 的 主 数据 库 服务 器 被 修复 后 ， 又 可 以 作为 新 的 备用 数据 
库 服务 器 加 入 HADR。 通 过 这 种 机 制 ，DB2 UDB 实 现 了 数据 库 
的 故障 恢复 和 高 可 用 性 ， 最 大 限度 地 避免 了 数据 丢失 。 图 17-3 
为 DB2 HADR 的 工作 原理 图 。 


图 17-3 ”DB2 HADR 工 作 原理 图 
注意 : 处 于 备用 角色 的 数据 库 不 能 被 访问 。 
HADR 有 三 种 同步 方式 。 

1) SYNC (同步 ) 


此 方式 可 以 尽 可 能 地 避免 事务 丢失 ， 但 在 三 种 方式 中 ， 使 用 此 方 
式 会 导致 事务 响应 时 间 最 长 。 在 此 方式 中 ， 仅 当日 志 已 写 入 主 数 据 库 


上 的 日 志文 件 ， 而 且 主 数据 库 已 接收 到 来 自 备用 数据 库 的 应 答 ， 确 定 
日 志 也 已 写 入 备用 数据 库 上 的 日 志文 件 时 ， 方 才 认为 日 志 写 入 是 成 功 
的 。 保 证 日 志 数 据 同 时 存储 在 这 两 处 。 


如 果 备 用 数据 库 在 重 放 日 志 记录 之 前 骨 溃 ， 则 它 下 次 启动 时 ， 可 
从 其 本 地 日 志文 件 中 检索 和 重 放 这 些 记 录 。 如 果 主 数据 库 发 生 故 障 ， 
故障 转移 至 备用 数据 库 ， 可 以 保证 任何 已 在 主 数据 库 上 沙 实 的 事务 ， 
也 在 备用 数据 库 上 落实 。 故 障 转移 操作 之 后 ， 当 客户 机 重新 与 新 的 主 
数据 库 连接 时 ， 可 能 会 有 在 新 主 数据 库 上 已 落实 的 事务 ， 对 于 原始 主 
数据 库 却 从 未 报告 为 已 落实 。 当 主 数据 库 在 处 理 来 自 备 用 数据 库 的 应 
答 消 息 之 前 出 现 故 障 时 ， 即 会 出 现 此 种 情况 。 客 户 机 应 用 程序 应 考虑 
查询 数据 库 以 确定 是 否 存 在 此 类 事务 。 


如 果 主 数据 库 失去 与 备用 数据 库 的 连接 ， 则 不 再 认为 这 些 数 据 库 
处 于 对 等 状态 ， 而 且 将 不 阻止 事务 等 待 来 自 备 用 数据 库 的 应 答 。 如 果 
在 数据 库 断 开 连 接 时 执行 故障 转移 操作 ， 则 不 保证 所 有 已 在 主 数据 库 
上 落实 的 事务 将 出 现在 备用 数据 库 上 。 


当 数 据 库 处 于 对 等 状态 时 ， 如 果 主 数据 库 发 生 故 障 ， 则 可 以 在 故 
障 转移 操作 之 后 ， 作 为 备用 数据 库 重 新 加 入 HADR 对 。 因 为 在 主 数据 
库 接收 到 来 自 备 用 数据 库 的 应 答 ， 确 认 日 志 已 写 入 备用 数据 库 上 的 日 
志文 件 之 前 ， 不 认为 事务 已 落实 ， 所 以 主 数据 库 上 的 日 志 顺 序 将 与 备 
用 数据 库 上 的 日 志 顺 序 相 同 。 原 始 主 数据 库 (现在 是 备用 数据 库 ) 只 
需要 通过 重 放 目 从 故障 转移 操作 以 来 ， 在 新 的 主 数据 库 上 生成 的 新 日 
志 记 录 来 进行 同步 更 新 。 


如 果 主 数据 库 发 生 故 障 时 并 未 处 于 对 等 状态 ， 则 其 日 志 顺 序 可 能 
与 备用 数据 库 上 的 日 志 顺 序 不 同 。 如 果 必 须 执行 故障 转移 操作 ， 主 数 


据 库 和 备用 数据 库 上 的 日 志 顺 序 可 能 不 同 ， 因 为 在 故障 转移 之 后 ， 备 
用 数据 库 启动 自己 的 日 志 顺 序 。 因 为 无 法 撤销 某 些 操作 (比如 ， 删 除 
表 ) ， 所 以 不 可 能 将 主 数据 库 回 复 到 创建 新 的 日 志 顺 序 的 时 间 点 。 


如 果 日 志 顺 序 不 同 ， 当 在 原始 主 数 据 库 上 发 出 指定 了 AS 
STANDBY 选 项 的 START HADR 命 令 时 ， 将 返回 错误 消息 。 如 果 原 始 
主 数据 库 成 功 地 重新 加 入 HADR 对 ， 则 可 以 通过 发 出 未 指定 BY 
FORCE 选 项 的 TAKEOVER HADR 命 令 来 完成 数据 库 的 故障 恢复 。 如 
果 原 始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 主 数据 
库 的 备份 映像 来 将 此 数据 库 重 新 初始 化 为 备用 数据 库 。 


2) NEARSYNC (接近 同步 ) 


此 方式 具有 比 同步 方式 更 短 的 事务 响应 时 间 ， 但 针对 事务 丢失 提 
供 的 保护 也 很 少 。 在 此 方式 中 ， 仅 当日 志 记 录 已 写 入 主 数据 库 上 的 日 
志文 件 ， 而 且 主 数据 库 已 接收 到 来 自 备用 系统 的 应 答 ， 确 定 日 志 也 已 
写 入 备用 系统 上 的 主 存储 器 时 ， 才 认为 日 志 写 入 是 成 功 的 。 仅 当 两 处 
同时 发 生 故 障 ， 并 且 目 标 位 置 未 将 接收 到 的 所 有 日 志 数据 转移 至 非 易 
失 性 存储 器 时 ， 才 会 出 现 效 据 的 丢失 。 


如 果 备 用 数据 库 在 将 日 志 记 录 从 存储 器 复制 到 磁盘 之 前 朋 溃 ， 则 
备用 数据 库 上 将 丢失 日 志 记 录 。 通 常 ， 当 备用 数据 库 重 新 启动 时 ， 它 
可 以 从 主 数 据 库 中 获取 丢失 的 日 志 记 录 。 然 而 ， 如 果 主 数据 库 或 网 络 
上 的 故障 使 检索 无 法 进行 ， 并 且 需 要 故障 转移 时 ， 日 志 记 录 将 不 会 出 
现在 备用 数据 库 上 ， 而 且 与 这 些 日 志 记 录 相 关联 的 事务 将 不 会 出 现在 
备用 数据 库 上 。 


如 果 事务 丢失 ， 则 在 故障 转移 操作 之 后 ， 新 的 主 数据 库 与 原始 主 
数据 库 不 相同 。 客 户 机 应 用 程序 应 该 考虑 重新 提交 这 些 事务 ， 以 便 使 
应 用 程序 状态 保持 最 新 。 


当主 数据 库 和 备用 数据 库 处 于 对 等 状态 时 ， 如 果 主 数据 库 发 生 故 
障 ， 则 在 没有 使 用 完全 复原 操作 重新 初始 化 的 情况 下 ， 原 始 主 数据 库 
可 能 无 法 作为 备用 效 据 库 重 新 加 入 HADR 对 。 


如 果 故 障 转 移 涉 及 丢失 的 日 志 记 录 (因为 主 数据 库 和 备用 数据 库 
已 发 生 故 障 ) ， 主 数据 库 和 备用 数据 库 上 的 日 志 顺 序 将 会 不 同 ， 并 且 
在 未 执行 复原 操作 的 情况 下 ， 重 新 启动 原始 主 数据 库 以 作为 备用 数据 
库 的 尝试 将 会 失败 。 如 果 原 始 主 数据 库 成 功 地 重新 加 入 HADR 对 ， 则 
可 以 通过 发 出 未 指定 BY FORCE 选 项 的 TAKEOVER HADR 命 令 来 完成 
数据 库 的 故障 恢复 。 


如 果 原 始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 
主 数 据 库 的 备份 映像 来 将 其 重新 初始 化 为 备用 数据 库 。 


提示 : 局 域 网 环境 一 般 采 用 NEARSYNC 方 式 进行 同步 。 
3) ASYNC (异步 ) 


提示 : 如 果 主 系统 发 生 故 障 ， 此 方式 发 生 事务 丢失 的 几率 最 
高 。 在 三 种 方式 之 中 ， 此 方式 的 事务 响应 时 间 也 是 最 短 的 。 


在 此 方式 中 ， 只 有 当日 志 记 录 已 写 入 主 数据 库 上 的 日 志文 件 ， 而 
且 已 将 此 记录 传递 给 主 系统 主机 的 TCP 层 时 ， 才 认为 日 志 写 入 是 成 功 
的 。 因 为 主 系统 不 会 等 待 来 自 备 用 系统 的 应 答 ， 所 以 当 事 务 仍 处 于 正 
在 传 入 备用 系统 的 过 程 中 时 ， 可 能 会 认为 事务 已 沙 实 。 


主 数 据 库 主机 上 、 网 络 上 或 备用 数据 库 上 的 故障 可 能 导致 传送 中 
的 日 志文 件 丢 失 。 如 果 主 数据 库 可 用 ， 则 会 在 此 对 重新 建立 连接 时 ， 
将 丢失 的 日 志文 件 重新 发 送 至 备用 数据 库 。 然 而 ， 如 果 在 丢失 日 志 
件 时 要 求 执行 故障 转移 操作 ， 则 日 志文 件 和 相关 联 的 事务 都 将 不 会 到 
达 备 用 数据 库 。 丢 失 的 日 志 记 录 和 主 数 据 库 上 的 故障 会 导致 事务 的 永 
久 寺 失 。 


如 果 事务 丢失 ， 则 在 故障 转移 操作 之 后 ， 新 的 主 数据 库 与 原始 主 
数据 库 不 是 完全 相同 的 。 客 户 机 应 用 程序 应 该 考虑 重新 提交 这 些 事 
务 ， 以 便 使 应 用 程序 状态 保持 最 新 。 


当主 数据 库 和 备用 数据 库 处 于 对 等 状态 时 ， 如 果 主 数据 库 发 生 故 
障 ， 则 在 没有 使 用 完全 复原 操作 重新 初始 化 的 情况 下 ， 原 始 主 数据 库 
可 能 无 法 作为 备用 效 据 库 重 新 加 入 HADR 对 。 


如 果 故 障 转 移 涉 及 丢失 的 日 志 记 录 ， 主 数据 库 和 备用 数据 库 上 的 
日 志 顺 序 将 会 不 同 ， 并 且 重 新 启动 原始 主 数据 库 以 作为 备用 数据 库 的 
尝试 将 失败 。 因 为 ， 如 果 在 异步 方式 中 发 生 故 障 转移 ， 日 志 记 录 更 有 
可 能 丢失 ， 所 以 主 数 据 库 不 能 重新 加 入 HADR 对 的 可 能 性 也 更 大 。 如 
果 原 始 主 数据 库 成 功 地 重新 加 入 HADR 对 ， 则 可 以 通过 发 出 未 指定 BY 
FORCE 选 项 的 TAKEOVERHADR 命 令 来 完成 数据 库 的 故障 恢复 ; 如 果 
原始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 主 数据 库 
的 备份 映像 将 此 数据 库 重 新 初始 化 为 备用 数据 库 。 


2。BBP 系 统 结构 


某 企业 目 前 有 一 套 物流 BBP 系 统 ， 基 于 SAP 构 建 ，SAP 后 台数 据 
库 使 用 的 是 DB2 v8.2。 现 有 一 台 闪 置 服务 器 (IP: 192.168.100.23) ， 


使 用 这 人 台 服 务 器 作为 HADR 系 统 的 备份 节点 ， 已 经 上 线 运行 的 BBP 服 
务 器 (IP: 192.168.100.231) 作为 系统 的 主 节点 。B2B 系 统 目前 的 拓扑 
与 实现 HADR 之 后 的 拓扑 图 如 图 17-4 所 示 。 


图 17-4 ”B2B 系 统 目 前 的 拓扑 与 实现 HADR 之 后 的 拓扑 图 


HADR 系 统 将 目前 闲置 的 备份 机 充分 利用 了 起 来 ,一旦 主 节点 发 
生 故 障 ， 可 以 立即 手动 切换 到 备份 节点 ， 与 此 同时 ， 客 户 端 会 自动 重 
新 连接 到 备份 机 ， 使 得 生产 继续 进行 。 故 障 的 主机 可 以 离线 进行 故障 
恢复 。 恢 复 之 后 可 以 加 入 HADR 组 ， 并 且 重 新 接管 所 有 应 用 。 表 17-2 
简要 说 明了 实施 HADR 的 过 程 。 


表 17-2 ”在 上 述 环境 下 实施 HADR 的 简单 过 程 


a Hadr_pri.bat 的 内 容 : 


db2 "UPDATE DB CFG FOR bbp USING HADR_ LOCAL_ HOST 
192.168.100.231" 
db2 "UPDATE DB CFG FOR bbp USING HADR LOCAL _ SVC 64000" 
db2 "UPDATE DB CFG FOR bbp USING HADR REMOTE_ HOST 
192.168.100.23" 
db2 "UPDATE DB CFG FOR bbp USING HADR _ REMOTE SVC 64001" 
db2 "UPDATE DB CFG FOR bbp USING HADR REMOTE_ INST db2bbp" 
db2 "UPDATE DB CFG FOR bbp USING HADR SYNCMODE NEARSYNC" 
db2 "UPDATE DB CFG FOR bbp USING HADR TIMEOUT 60" 
db2 "update alternate server for db bbp using hostname 


192.168.100.23 port 5912" 


db2 "update db cfg for bbp using logindexbuild on" 


db2 "update db cfg for bbp using indexrec restart" 


s hadr std.bat 的 内 容 : 


db2 "UPDATE DB CFG FOR bbp USING HADR_LOCAL_ HOST 
192.168.100.23" 
db2 "UPDATE DB CFG FOR bbp USING HADR_ LOCAL_SVC 64001" 
db2 "UPDATE DB CFG FOR bbp USING HADR REMOTE_ HOST 
192.168.100.231" 
db2 "UPDATE DB CFG FOR bbp USING HADR_ REMOTE_SVC 64000" 
db2 "UPDATE DB CFG FOR bbp USING HADR_ REMOTE_INST db2bbp" 
db2 "UPDATE DB CFG FOR bbp USING HADR_ SYNCMODE NEARSYNC" 
db2 "UPDATE DB CFG FOR bbp USING HADR_ TIMEOUT 60" 
db2 "update alternate server for db bbp using hostname 
192.168.100.231 port 5912" 
db2 "update db cfg for bbp using logindexbuild on" 


db2 "update db cfg for bbp using indexrec restart" 


完成 配置 之 后 ， 在 主机 或 者 备份 机 上 的 DB2 命 令 行 环境 中 输入 以 


下 命令 : 
Db2 get Snapshot for db on bbp 


即 可 以 查看 HADR 的 运行 状态 ， 如 图 17-5 所 示 。 


图 17-5 ”HADR 的 运行 状态 


17.2.3 ”通过 主机 软件 实现 后 端 专用 网 络 同步 


用 这 种 方式 来 同步 数据 ， 数 据 不 会 流 经 前 端 网 络 ， 而 全 部 通过 后 
端 网 络 传输 到 备份 站 点 对 应 的 存储 设备 中 。 这 就 需要 将 主 站 点 的 后 端 
网 络 设施 和 备份 站 点 的 后 端 网 络 设备 连接 起 来 。 或 者 直接 通过 裸 光纤 
连接 两 人 台 SAN 交 换 机 ;再 或 者 租用 电信 部 门 的 光缆 专线 。 


如 果 用 前 者 连接 两 个 站 点 ， 那 要 求 两 个 站 点 之 间 的 道路 上 可 以 自 
己 布线 ， 比 如 一 个 大 院内 ， 可 以 自主 布线 ,不 需要 经 过 市 政 部 门 干 
预 ， 这 样 便 可 以 直接 连接 两 端的 SAN 交 换 机 ， 直 接 承 载 FC 协 议 了 。 否 
则 ， 如 果 两 个 站 点 跨越 了 很 远 的 距离 ， 那 么 就 必须 使 用 后 者 ， 也 就 是 
租用 电信 部 门 的 光缆 ， 但 是 这 条 光缆 上 的 数据 必须 符合 电信 部 门 传输 
设备 所 使 用 的 协议 。 后 者 需要 添加 额外 的 协议 转换 设备 ， 两 个 站 点 各 
一 个 ， 如 图 17-6 所 示 。 


图 17-6 ”连接 两 个 站 点 的 后 端 网 络 


现在 电信 和 部门 的 光纤 专线 一 般 为 SDH 传 输 方式 ， 接 入 到 用 户 端的 
时 候 ， 一般 将 信号 调制 成 E1、OC3 等 编码 方式 ， 所 以 必须 将 FC 协议 承 
载 于 这 些 协 议 之 上 ， 也 就 是 我 们 在 前 面 第 13 章 中 所 描述 的 Protocol 
Over Protocol 模 型 ， 完 成 这 个 动作 的 ， 就 是 协议 转换 器 。 


协议 转换 器 在 一 端 按照 未 种 协议 的 逻辑 进行 工作 ， 而 在 另 一 端 则 
按照 另 一 种 协议 的 逻辑 进行 工作 ， 把 效 据 从 一 端 接收 过 来 ， 经 过 协议 
转换 ， 以 另 一 种 协议 的 逻辑 发 送出 去 ， 到 达 对 端 后 ， 再 进行 相反 的 动 
作 。 


有 些 路 由 器 则 直接 在 其 内 部 集成 了 各 种 协议 转换 器 ， 可 以 说 路 由 
器 就 是 一 种 协议 转换 器 。 我 们 可 以 看 一 下 机 房 中 的 网 络 路 由 器 ， 上 面 
有 各 种 各 样 的 接口 ， 为 何不 清一色 都 是 RJ-45 以 太 网 接口 呢 ? 


因为 路 由 器 不 只 是 路 由 以 太 网 数据 ， 还 要 路 由 其 他 网 络 协议 的 数 
据 ， 甚 至 还 要 在 不 同 网 络 协议 之 间 做 转换 。 而 如 果 把 这 些 协 议 都 做 到 
SAN 交 换 机 上 ， 那 么 这 台 SAN 交 换 机 ， 就 是 一 台 不 折 不 扣 的 SAN 路 由 
器 了 。 对 于 没有 费用 购买 SAN 路 由 器 的 用 户 来 说 ， 用 一 个 层 层 的 协议 
转换 设备 来 完成 也 是 很 划算 的 ， 这 就 像 给 照相 机 加 一 层 层 的 特殊 镜头 
一 样 。 图 17-7 是 一 个 层 层 协议 转换 器 的 实例 。 


图 17-7 利用 SDH 网 络 连接 后 端 网 络 


源 端 的 纯 FC 协 议 ， 经 过 FCIP 网 关 ， 变 成 了 基于 以 太 网 的 人 P 协 议 
(FC over IP over ETH) ， 经 过 E1/ 以 太 网 转换 器 ， 承 载 到 了 E1 协 议 之 
上 ， 然 后 多 路 E1 信 号 汇聚 到 光端机 ， 通 过 一 条 或 者 几 条 光纤 ， 传 输 给 
电信 部 门 的 SDH 交换 设施 上 进行 传输 ， 到 达 目 的 之 后 ， 进 行 相反 的 动 
作 ， 最 终 转换 成 纯 FC 协 议 。 这 样 ， 源 和 目的 都 不 会 感觉 到 中 间 一 层 层 
协议 转换 设备 的 存在 。 


主 站 点 和 备份 站 点 的 后 端 SAN 交 换 机 能 够 成 功 连接 之 后 ， 两 个 
SAN 网 络 便 可 以 融合 了 ， 就 像 一 个 SAN 网 络 一 样 。 所 以 ， 主 站 点 的 服 
务 器 也 就 可 以 访问 到 备份 站 点 的 磁盘 阵列 。 这 样 ， 不 需要 经 过 前 端 网 
络 ， 就 可 以 直接 访问 备份 站 点 的 存储 设备 ， 也 就 可 以 直接 在 备份 站 点 
的 存储 设备 上 读 写 数据 了 。 如 图 17-8 所 示 ， 备 份 站 点 磁盘 阵列 上 的 一 
个 LUN ( 卷 B) 可 以 直接 被 主 站 点 的 服务 器 识别 ， 这 样 ， 主 站 点 的 服 
务 器 就 可 以 同时 操作 本 地 磁盘 阵列 和 备份 站 点 的 磁盘 阵列 了 。 


图 17-8 “后 端 网 络 通路 示意 图 


我 们 来 看 一 下 这 种 方式 下 数据 走 过 的 路 径 : 


本 地 磁盘 阵列 ~- SAN 网 络 交换 设施 -~ 本 地 服务 器 内 存 *SAN 网 络 
交换 设施 -通过 协 转 流入 电信 部 门 网 络 (如 果 有 ) 一 远 端 SAN 网 络 交 
换 设施 - 远 端 磁盘 阵列 ， 如 图 17-9 所 示 。 


图 17-9 ”经 过 后 端 网 络 同步 数据 


分 析 : 上 述 的 两 种 方式 中 ， 第 二 种 方式 的 步骤 比 第 一 种 少 了 
两 步 ， 数 据 到 达 远 端 SAN 交 换 设 施 之 后 ， 立 即 被 传送 到 了 磁 
盘 阵 列 这 个 最 终 目 标 ， 而 不 必 再 经 过 一 人 台 服 务 器 了 ， 为 何 
呢 ? 


因为 第 二 种 方式 中 ， 主 站 点 的 服务 器 对 备份 站 点 的 存储 设备 有 了 
直接 访问 权 ， 而 第 一 种 方式 中 ， 双 方 都 没有 对 方 存储 设备 的 直接 访问 
权 ， 必 须 通 过 对 方 服 务 器 的 参与 。 


然而 ， 第 二 种 方式 中 数据 仍然 至 少 需要 经 过 一 台 服 务 器 ， 为 何 
呢 ? 因为 涡轮 泵 (实现 数据 同步 功能 的 软件 ) 是 运行 在 服务 器 上 的 ， 
没有 疯 轮 泵 ， 水 束 不 会 流动 ， 数 据 也 无 法 流动 ， 而 不 可 能 有 一 种 泵 ， 
可 以 让 水 不 经 过 它 就 可 以 流动 。 同 样 ， 数 据 流 也 不 可 能 不 经 过 泵 就 自 
己 流动 。 


现在 ， 两 个 SAN 已 经 连接 了 ， 而 且 主 站 点 的 服务 器 可 以 畅通 无 阻 
地 访问 备份 站 点 的 磁盘 阵列 存储 设备 了 ， 万 事 俱 备 ， 只 欠 东 风 。 究 竟 
在 这 种 方式 中 ， 要 怎么 来 设计 这 个 涡轮 泵 呢 ? 


其 实 没 有 什么 特别 之 处 ， 我 们 来 分 析 第 一 种 方式 的 同步 方法 ， 那 
个 泵 用 的 是 从 本 地 提取 数据 ， 发 送 到 前 端 网 络 ， 网 络 那 头 用 一 个 接收 
者 将 接收 的 数据 写 入 到 盘 阵 中 。 


分 析 : 同 理 ， 第 二 种 方式 下 ， 大 思路 当然 还 是 这 样 ， 只 不 过 
是 从 后 端 网 络 提取 数据 之 后 ， 再 发 送 回 后 端 网 络 的 另 一 个 目 
的 ， 然 而 这 一 切 只 需要 一 个 泵 就 能 完成 ， 因 为 这 个 泵 现在 已 
经 可 以 掌管 数据 的 起 产 设 备 和 数据 的 终结 设备 了 。 


我 们 理所当然 地 设计 了 这 个 泵 ， 它 的 作用 方式 就 是 ， 将 数据 从 本 
地 的 卷 A 中 提取 出 来 ， 然 后 直接 通过 SAN 网 络 写 入 位 于 备份 站 点 的 卷 
B。 如 果 数 据 是 直接 在 内 存 中 生成 的 ， 需 要 写 入 保存 ， 则 写 入 本 地 卷 A 
一 份 ， 同 时 写 入 远 端的 卷 B 一 份 。 这 种 方式 显然 比 第 一 种 方式 来 得 
快 ， 但 是 它 对 网 络 速度 要 求 更 高 ， 成 本 也 更 高 。 第 一 种 方式 中 ， 有 两 
个 泵 ， 而 第 二 种 方式 中 ， 只 有 一 个 泵 ， 这 样 会 不 会 造成 “动力 ”不 足 
呢 ? 不 会 的 ， 水 在 流动 过 程 中 是 有 阻力 的 ， 而 数据 流 是 没有 阻力 的 ， 
所 以 如 果 增 加 额外 的 汞 ， 反 而 会 影响 数据 流 的 速度 。 


这 种 实现 方式 又 叫做 “ 卷 镜像 ”， 意 思 就 是 两 个 卷 像 镜 物 与 实物 完 
全 一 样 。 第 一 种 方式 为 何不 叫 镜像 呢 ? 因为 第 一 种 方式 跨越 的 距离 太 
远 ， 这 样 不 能 达到 两 个 卷 在 任何 时 刻 的 数据 都 相同 ， 在 讲 同步 和 异步 
的 时 候 还 会 涉及 这 方面 的 问题 。 这 种 方式 能 很 好 地 保证 数据 同步 的 实 
时 性 ， 但 是 不 适合 远 距离 大 数据 量 数 据 同 步 ， 除 非 不 惜 成 本 搭建 高 速 
远 距 离 专 线 链 路 。 


第 二 种 方式 ， 卷 同步 软件 是 工作 在 卷 这 一 层 的 ， 所 以 它 检 测 的 是 
数据 块 的 变化 而 不 是 文件 的 变化 ， 同 步 的 数据 内 容 是 数据 块 而 不 是 文 
件 ， 和 第 一 种 方式 有 所 不 同 。 


1。Veritas Volume Manager 软 件 介绍 


Veritas Volume Manager 也 是 Veritas 公 司 Storage Foundation 套 件 中 
的 一 个 模块 ， 它 的 功能 就 是 辅助 或 者 代替 操作 系统 自己 的 磁盘 管理 模 
块 来 管理 底层 的 物理 磁盘 〈 当 然 也 有 可 能 是 SAN 上 的 LUN 逻 辑 磁 
盘 ) 。 


一 般 操作 系统 自己 的 磁盘 管理 模块 功能 有 限 ， 比 如 Windows 提 供 
的 磁盘 管理 器 组 件 ， 其 功能 只 限于 对 识别 到 的 物理 磁盘 进行 分 区 、 格 
式 化 、 挂 载 到 某 个 盘 符 下 ， 并 且 分 区 只 能 连续 ， 而 且 不 能 动态 调整 分 
区 大 小 ， 要 调整 也 只 能 删除 分 区 再 重新 建立 。 当 然 一 些 第 三 方 软件 可 
以 做 到 调整 分 区 大 小 ， 不 过 仍然 需要 重启 。 Windows Server 操 作 系 统 
提供 的 动态 磁盘 管理 ， 虽 然 可 以 做 到 RAID 卡 的 部 分 功能 ， 但 是 仍然 不 
够 灵活 ， 而 且 效 率 低下 。 而 VxVM (Veritas Volume Manager) 卷 管理 
软件 可 以 彻底 奉 换 操作 系统 的 卷 管理 功能 。 


提示 : 本 书 第 5 章 中 曾经 通俗 地 前 释 了 卷 管 理 软件 的 思想 ， 
VxVM 就 是 这 样 一 个 卷 管理 软件 ， 它 把 操作 系统 底层 的 磁盘 
统统 当 作 “ 面 团 "， 可 以 炮 合 起 来 ， 然 后 表 分 配 。 


它 改变 了 操作 系统 的 磁盘 管理 器 的 分 区 管理 的 闲置 ， 将 所 有 磁盘 
虚拟 成 卷 池 ， 然 后 从 池 中 分 配 新 的 卷 ， 新 卷 可 以 动态 地 增 大 和 减 小 容 
量 ， 可 以 动态 分 割 、 合 并 。 支 持 卷 多 重 镜像 。 支 持 RAID 0，RAID 1， 
RAID 0 十 1，RAID 5。 支 持 RAID 组 在 线 动态 扩容 ， 可 随时 向 RAID 组 
中 添加 新 磁盘 而 不 影响 使 用 。 卷 之 上 还 需要 有 一 层 文件 系统 ，VxVM 
同样 有 自己 的 文件 系统 ， 叫 做 VxFS。VxFS 是 一 个 高 效 的 日 志 型 文件 
系统 ， 这 就 使 得 在 发 生 骨 溃 之 后 文件 系统 的 自 检 过 程 非常 快 。 另 外 ， 
还 支持 文件 系统 大 小 动态 扩充 和 收缩 。 支 持 Direct IO。 支 持 文件 系统 
快照 功能 。 


用 户 只 要 在 服务 器 上 安装 VxVM 软 件 ， 经 过 相关 配置 ， 就 可 以 实 
现 对 服务 器 上 两 个 卷 的 镜像 操作 ， 实 现 两 个 卷 的 数据 同步 。 一 旦 某 时 
刻 主 站 点 发 生 故 障 ， 则 备份 站 点 的 卷 上 数据 和 主 站 点 发 生 故 障 的 时 候 
完全 一 致 。 此 时 只 要 在 备份 站 点 的 服务 器 上 挂 载 这 个 卷 到 某 个 盘 符 
(Windows) 或 者 目录 (UNIX) 下 ， 便 可 以 继续 使 用 了 。 


2。Logcal Volume Manager 软 件 介绍 


Logcal Volume Manager (LVM) 是 Linux 系 统 上 的 一 个 开源 的 软 
件 ， 后 来 被 [BM 的 AIX 操 作 系 统 用 于 默认 的 卷 管理 模块 。LVM 相 对 于 
VxVM 来 说 ， 是 一 个 更 加 开放 、 通 用 的 卷 管 理 软件 。LVM 同 样 也 可 以 
对 两 个 卷 进行 镜像 操作 。 在 本 书 第 5 章 已 经 介绍 过 LVM， 这 里 就 不 做 
过 多 摘 述 了 。 


17.2.4 ”通过 数据 存储 设备 软件 实现 专用 网 络 同步 


在 前 两 种 方式 中 ， 描 述 过 数据 要 流动 ， 就 需要 一 个 泵 来 提供 动 
力 。 第 一 种 方式 中 ， 有 两 个 泵 ， 数 据 流 经 的 管道 最 长 ， 第 二 种 方式 
中 ， 有 一 个 泵 ， 数 据 流 经 的 管道 比 第 一 种 要 短 。 这 两 种 方式 ， 泵 都 被 
安装 在 了 服务 器 上 。 而 第 三 种 方式 ， 泵 没有 安装 在 服务 器 上 ， 也 没有 
安装 在 网 络 设备 上 ， 而 是 被 安装 在 了 存储 设备 上 ， 如 图 17-10 所 示 。 

图 17-10 ”经 过 后 端 网 络 同步 数据 

数据 最 终 还 是 要 存储 在 存储 设备 上 ， 与 其 让 别人 从 目 己 身上 提取 

数据 然后 发 送 到 远 端 ， 不 如 自己 动手 ， 丰 衣 足 食 。 第 三 种 方式 就 是 利 


用 的 这 种 思想 ， 自 己 做 主将 自己 的 数据 通过 后 端 SAN 网 络 设施 传输 到 
目标 设备 上 。 


如 图 所 示 ， 主 站 点 的 磁盘 阵列 设备 上 的 同步 软件 ， 从 自身 的 一 个 
卷 (LUN A) 提取 数据 ， 通 过 SAN 交 换 机 传输 给 了 备份 站 点 的 磁盘 阵 
列 设备 上 的 同步 软件 接收 端 ， 并 将 接收 到 的 数据 写 入 镜像 卷 (LUN 
B) 。 


数据 流 的 路 径 如 下 : 本 地 磁盘 阵列 -本 地 SAN 网 络 交换 设施 -~ 电 
信 部 门 交 换 机 组 (如 果 有 ) 一 远 端 SAN 网 络 交换 设施 -~ 远 端 磁盘 阵 
列 。 


路 径 比 第 二 种 方式 又 少 了 两 步 。 更 加 重要 的 是 ， 这 种 方式 彻底 解 
脱 了 服务 器 ， 服 务 器 上 不 需要 增加 任何 额外 的 负担 ， 所 有 工作 全 部 由 
磁盘 阵列 设备 自己 完成 。 


提示 : 在 本 书 第 5 章 详细 讲解 过 磁盘 阵列 。 磁 盘 阵 列 本 身 就 
是 一 个 计算 机 系统 ， 有 自己 的 CPU、RAM、ROM， 甚 至 有 自 
己 的 磁盘 。 磁 盘 阵列 就 是 一 台 管 理 和 虚拟 化 大 量 物 理 磁 盘 的 
主机 系统 。 既 然 是 主机 系统 ， 那 当然 可 以 在 其 上 运行 各 种 功 
能 的 软件 了 。 所 以 ， 这 种 数据 同步 软件 应 运 而 生 。 

目前 几乎 每 个 广 家 的 高 端 磁盘 阵列 设备 ， 都 具有 数据 同步 功 
能 。 比 如 IBM 公 司 DS 系 列 盘 阵 上 的 数据 同步 功能 叫做 Remote 
Mirror，HDS 公 司 的 叫做 TrueCopy，EMC 公 司 的 叫做 SRDF。 
不 管 叫 什么 ， 它 们 的 思想 和 原理 都 是 一 样 的 ， 只 不 过 在 实现 
方法 和 效果 上 有 所 不 同 。 


这 种 方式 的 数据 同步 ， 由 于 底层 存储 设备 不 会 识别 卷 上 的 文件 系 
统 ， 所 以 同步 的 是 块 而 不 是 文件 ， 也 融 是 说 存储 系统 只 要 发 现 某 卷 上 
的 某 个 块 变 化 了 ， 就 会 把 这 个 块 复制 到 远程 设备 上 。 此 外 ， 备 份 站 点 
的 存储 设备 必须 和 主 站 点 的 存储 设备 型 号 一 致 ， 因 为 不 同 三 家 的 磁盘 


阵列 产品 之 间 无 法 做 数据 同步 。 而 在 主机 上 的 同步 引擎 ， 就 没有 这 种 
限制 ， 因 为 主机 上 的 同步 软件 所 操作 的 是 操作 系统 卷 ， 而 不 是 磁盘 阵 
列 上 的 卷 ， 操 作 系统 隐藏 了 底层 存储 阵列 上 的 卷 。 不 管 什么 三 家 什么 
型 号 的 盘 阵 ， 经 过 了 操作 系统 的 屏 表 ， 对 应 用 程序 看 来 ， 统 统 都 是 一 
个 卷 ， 或 者 一 个 盘 符 或 目录 。 


17.2.5 “案例 : IBM 公 司 Remote Mirror 容 灾 实 施 


Remote Mirror 是 IBM 公 司 的 DS4000 系 列 中 端 磁 盘 阵 列 上 的 一 个 软 
件 模 块 ， 其 功能 就 是 将 本 地 磁盘 阵列 上 某 个 或 者 某 些 卷 的 数据 ， 同 步 
到 远 端 磁盘 阵列 上 对 应 的 卷 ， 支 持 同 步 和 异步 复制 ， 支 持 一 致 性 组 。 


某 企业 存储 系统 如 图 17-11 所 示 。 
图 17-11 ” 某 企 业 存 储 系统 图 


这 个 企业 有 两 台 DS4500 磁 盘 阵 列 ， 主 、 备 份 站 点 各 一 台 。 现 在 将 
主 站 点 的 两 个 卷 LUN A 和 LUN B 同 步 到 备份 站 点 的 两 个 卷 LUN C 和 
LUN D 上 。 此 时 需要 启动 DS4500 的 Remote Mirror 功 能 。 启 用 这 个 功 
能 ， 要 求 主 站 点 和 备份 站 点 上 必须 分 别 建立 一 个 用 于 数据 缓冲 以 及 相 
关 重 要 数据 存放 的 卷 ， 且 必须 为 镜像 卷 ， 大 小 100MB 即 可 。 


(1) 在 Storage Manager 配 置 界面 中 ， 选 择 Storage Subsystem 一 
remote mirror ~” Active 菜 单 命令 ， 选 择 在 现 有 的 array 上 建立 一 个 mirror 
的 Repository 人 逻辑 卷 ， 如 图 17-12 所 示 。 


17-12 ”创建 Repository 卷 


(2) 单 击 Next 按 钮 ， 弹 出 如 图 17-13 所 示 的 对 话 框 ， 提 示 DS4500 
磁盘 阵列 将 前 端的 2 号 端口 专门 用 于 连接 远程 的 磁盘 阵列 设备 来 传输 数 
据 ， 所 以 这 个 端口 将 禁止 用 于 其 他 主机 的 连接 。 


图 17-13 ”重要 提示 窗口 


(3) 单 击 Finish 按 钮 ， 提 示 在 备份 节点 上 也 需要 相同 的 操作 ， 如 
图 17-14 所 示 。 


图 17-14 ”提示 备份 节点 需要 相同 的 操作 


(4) 主 站 点 上 的 两 个 Repository 建 立成 功 后 的 界面 ， 如 图 17-15 所 
示 。 


图 17-15 成功 建立 Repository 卷 


(5) 在 备份 站 点 上 重复 上 述 步 又。 然后， 在 备份 站 点 磁盘 阵列 上 
建立 两 个 目标 卷 ， 大 小 必须 大 于 源 卷 ， 如 图 17-16 所 示 。 


图 17-16 ”建立 两 个 目标 卷 


(6) 在 主 节点 上 右 击 Create Remote Mirror， 如 图 17-17 和 图 17-18 
所 示 。 


图 17-17 创建 远程 镜像 图 17-18 ”创建 远程 镜像 


(7) 此 时 ， 本 地 磁盘 阵列 会 显示 出 网 络 上 的 另 一 台 磁 盘 阵 列 设 
备 ， 如 图 17-19 所 示 。 


图 17-19 ”远程 设备 列表 


(8) 选择 备份 磁盘 阵列 上 的 镜像 目标 盘 ， 如 图 17-20 所 示 。 
图 17-20 ”远程 设备 上 的 卷 列表 
(9) 选择 模式 ， 如 图 17-21 所 示 。 
图 17-21 同步 或 者 异步 模式 选择 
(10) 设置 同步 的 优先 级 ， 如 图 17-22 所 示 。 
图 17-22 同步 优先 级 选择 
(11) 输入 “yes” 以 便 确认 操作 ， 如 图 17-23 所 示 。 
图 17-23 确认 
(12) 完成 后 出 现 如 图 17-24 所 示 的 提示 框 。 
图 17-24 ”成功 提示 
(13) 用 同样 的 方法 作 另 外 一 个 确认 提示 ， 如 图 17-25 所 示 。 
图 17-25 ”确认 提示 
(14) 完成 后 ， 监 控 主 站 点 磁盘 阵列 的 变化 ， 如 图 17-26 所 示 。 
图 17-26 镜像 后 卷 图 标的 变化 
(15) 监控 备份 站 点 磁盘 阵列 的 变化 ， 如 图 17-27 所 示 。 


图 17-27 备份 站 点 图 标的 变化 


(16) 主 站 上 右 击 源 盘 /属性 可 以 查看 镜像 的 完成 情况 ， 如 图 17- 
28 所 示 。 


图 17-28 ”镜像 状态 窗口 
(17) 备份 站 方法 相同 ， 如 图 17-29 所 示 。 
图 17-29 备份 站 镜像 状态 窗口 
17.2.6 小结 
纵 观 以 上 三 种 数据 同步 的 方式 ， 可 以 发 现 以 下 特点 。 


第 一 种 方式 数据 经 过 的 路 径 最 长 ， 同 步 实时 性 最 差 ， 但 是 也 最 廉 


价 。 


第 二 种 方式 数据 经 过 的 路 径 适 中 ， 数 据 同步 实时 性 强 ， 但 是 对 后 
端 链 路 要 求 比 第 一 种 高 ， 不 适合 大 量 数据 同步 。 


第 三 种 方式 ， 数 据 经 过 的 路 径 最 短 ， 对 服务 器 性 能 没有 影响 ， 但 
是 仍然 不 适合 在 远 距离 低速 链 路 的 环境 下 运行 ， 而 且 还 不 能 保证 数据 
对 应 用 程序 的 可 用 性 。 因 为 存储 设备 与 应 用 程序 之 间 还 有 操作 系统 这 
一 层 ， 操 作 系统 有 目 己 的 缓存 机 制 ， 如 果 存 储 设 备 上 的 数据 同步 引擎 
没有 与 操作 系统 配合 良好 的 话 ， 很 有 可 能 造成 数据 的 不 一 致 性 ， 这 样 
会 影响 到 应 用 程序 ， 甚 至 使 应 用 程序 骨 溃 。 


主 站 点 发 生 故 障 之 后 ， 备 份 站 点 的 存储 设备 会 感知 到 ， 然 后 强行 
接管 主 站 点 的 工作 ， 断 开 同 步 连 接 ， 备 份 站 点 成 为 当前 的 主 站 点 ， 接 
受 应 用 程序 的 读 写 操作 ， 并 记录 自从 断 开 连 接 之 后 发 生变 化 的 数据 
块 。 待 探测 到 主 站 点 恢复 正常 之 后 (或 者 手动 重新 配置 同步 ) ， 备 份 


站 点 先 将 变化 的 数据 块 复制 回 原来 的 主 站 点 ， 复 制 完成 后 ， 原 来 的 主 
站 点 再 次 接管 回 主 角色 ， 成 为 当前 的 主 站 点 ， 接 受 应 用 程序 的 读 写 操 
作 。 


17.3” 容 灾 中 数据 的 同步 复制 和 异步 复制 
17.3.1 ”同步 复制 例 解 


下 面 分 析 一 个 实际 容 灾 案例 中 数据 的 流动 情况 。 这 是 一 个 基于 存 
储 设备 的 自主 同步 的 环境 ， 如 图 17-30 所 示 。 


图 17-30 ”同步 复制 的 过 程 


(1) 某 时 刻 ， 主 站 点 服务 器 向 磁盘 阵列 发 出 一 个 IO 请 求 ， 向 某 
个 LBA 写 入 数据 。 待 写 的 数据 已 经 进入 了 磁盘 阵列 的 缓存 中 ， 但 是 此 
时 磁盘 阵列 控制 器 不 会 给 服务 器 的 SAN 网 络 适 配器 驱动 程序 发 送 写 入 
成 功 的 应 答 ， 所 以 发 起 这 个 IO 的 应 用 程序 也 不 会 得 到 写 入 成 功 的 应 
从 

(2) 主 站 点 磁盘 阵列 将 变化 的 数据 从 缓存 中 写 入 LUN A 中 (根据 
控制 器 策 陷 ， 写 入 一 般 会 有 延迟 ) 。 与 此 同时 ， 主 站 点 的 数据 同步 引 
和 擎 获知 到 了 这 个 变化 ， 立 即将 变化 的 数据 块 从 缓存 中 直接 通过 SAN 区 
换 机 发 往 备 份 站 点 的 磁盘 阵列 上 的 缓存 中 。 


(3) 备份 站 点 磁盘 阵列 上 运行 的 数据 同步 引擎 接收 端 成 功 地 接收 
到 数据 块 之 后 ， 会 在 底层 FC 协 议 隐 了 式 地 发 送 一 个 ACK 应 答 ， 或 者 通过 
上 层 显 式 地 发 送 给 主 站 点 一 个 应 答 。 


(4) 主 站 点 接收 到 这 个 应 答 之 后 ， 立 即 向 服务 器 发 送 一 个 FC 协 
议 的 隐 式 ACK 应 答 ， 这 样 ， 服 务 器 上 的 FC HBA 驱 动 程序 便 会 探测 到 
发 送 成 功 ， 从 而 一 层 层 向 操作 系统 的 更 上 层 发 送 成 功 信 号 。 最 终 应 用 
程序 会 得 到 这 个 成 功 的 信号 。 


(5) 如 果 按 照 上 述 方式 进行 ， 即 如 果 备 份 站 点 的 磁盘 阵列 由 于 某 
种 原因 人 述 述 未 收 到 数据 ， 则 不 会 发 送 应 答 信号 ， 那 么 主 站 点 的 磁盘 阵 
列 控制 器 也 就 不 会 给 服务 器 发 送 写 入 成 功 的 信号 ， 这 样 服务 器 上 的 应 
用 程序 就 会 处 于 等 待 状态 ， 造 成 应 用 程序 等 待 ， 从 而 连接 应 用 程序 的 
客户 端 也 得 不 到 响应 。 如 果 应 用 程序 使 用 的 是 同步 1O， 则 其 相关 的 进 
程 或 者 线程 就 会 被 挂 起 。 这 种 现象 也 叫做 IO wait， 即 IO 等 待 ， 意 思 就 
是 向 存储 设备 发 起 一 个 IO 而 迟 迟 接收 不 到 写 入 成 功 的 应 答 信号 。 如 果 
连接 两 个 站 点 之 间 的 网 络 链 路 出 现 拥 塞 、 故 障 ， 便 会 发 生 IO Wait。 


上 述 的 数据 复制 方式 ， 就 叫做 同步 复制 ， 因 为 主 站 点 必须 等 待 备 
份 站 扣 的 成 功 信 和 号， 两边 保持 严格 的 同步 ， 步 调 一 致 ， 一 采 俱 采 , 一 
损 俱 损 。 


17.3.2 ”异步 复制 例 解 
再 来 看 另外 一 种 实现 方式 ， 如 图 17-31 所 示 。 
图 17-31 异步 复制 的 过 程 


(1) 某 时 刻 ， 主 站 点 服务 器 向 磁盘 阵列 发 出 一 个 IO 请 求 ， 向 某 
个 LBA 写 入 数据 。 待 写 的 数据 已 经 进入 了 磁盘 阵列 的 缓存 中 ， 但 是 此 
时 磁盘 阵列 控制 器 不 会 给 服务 器 的 SAN 网 络 适 配器 驱动 程序 发 送 写 入 
成 功 的 应 答 ， 所 以 发 起 这 个 IO 的 应 用 程序 也 不 会 得 到 写 入 成 功 的 应 


答 


[== Ee) 


(2) 主 站 点 磁盘 阵列 控制 器 根据 策 陷 ， 如 果 设 置 为 Write Back 模 
式 ， 则 在 第 一 步 之 后 立即 向 服务 器 发 送 FC 协 议 的 底层 应 答 。 如 果 设 置 
为 Write Through 模 式 ， 则 先 将 数据 写 入 LUN A， 然 后 再 向 服务 器 应 
从 

(3) 主 站 点 磁盘 阵列 将 这 份 数据 通过 SAN 网 络 发 送 给 备份 站 点 的 
磁盘 阵列 缓存 中 。 


(4) 备份 站 点 磁盘 阵列 成 功 接收 后 ， 返 回 成 功 信号 。 


如 果 按 照 上 述 方式 进行 ， 即 ， 主 站 点 磁盘 阵列 只 要 接收 到 服务 器 
写 入 的 数据 ， 就 立即 向 服务 器 返回 成 功 信号 ， 这 样 应 用 程序 不 需要 等 
待 ， 数 据 同 步 动 作 不 会 影响 应 用 程序 的 响应 时 间 。 向 服务 器 发 送 变化 
的 数据 ， 可 以 在 稍 后 进行 ， 而 不 必 严 格 同步 。 这 种 数据 复制 的 方式 就 
叫做 异步 复制 。 也 就 是 说 两 边 步 调 无 须 一 致 ， 保 证 重要 的 事情 先 完 
成 ， 不 重要 的 稍 后 再 说 。 一 旦 遇 到 网 络 连接 阻塞 或 者 中 断 ， 只 要 服务 
器 还 能 访问 本 地 的 磁盘 阵列 ， 那 么 应 用 就 不 会 受 丝毫 影响 ， 本 地 磁盘 
阵列 会 记录 自从 网 络 断 开 之 后 ， 本 地 卷 上 所 有 发 生变 化 的 数据 块 的 位 
置 ， 待 网 络 恢复 之 后 ， 本 地 磁盘 阵列 会 根据 这 些 记 录 ， 将 发 生变 化 的 
数据 块 继续 复制 到 远程 备份 磁盘 阵列 。 


有 得 必 有 失 。 异 步 复 制 保证 了 服务 器 应 用 程序 的 响应 速度 ， 然 而 
付出 了 代价 ， 这 个 代价 就 是 牺牲 了 主 站 点 和 备份 站 点 数据 的 严格 一 
致 。 主 站 点 的 数据 和 备份 站 点 的 数据 会 有 一 个 间隙 (GAP) ， 也 就 是 
未 被 成 功 复 制 到 远 端 而 积压 在 本 地 的 数据 。 此 时 如 果 主 站 点 一 旦 发 生 
故障 ， 这 部 分 数据 将 永久 丢失 。 而 同步 复制 方式 下 ， 没 有 间隙 ， 如 果 
主 站 点 发 生 了 故障 ， 备 份 站 点 的 数据 就 是 主 站 点 发 生 故 障 那个 时 刻 的 


严格 数据 镜像 ， 不 会 有 数据 丢失 。 同 样 ， 同 步 复制 的 代价 ， 就 是 牺牲 
了 服务 器 的 应 用 程序 响应 时 间 。 


提示 : 在 实际 容 灾 系统 设计 的 时 候 ， 一 定 要 考虑 这 一 点 ， 要 
明白 用 户 是 愿意 牺牲 数据 安全 性 来 换取 高 响应 时 间 ， 还 是 愿 
意 牺 牲 响 应 时 间 来 换取 数据 的 安全 性 。 


目前 很 多 设备 厂商 都 有 折 中 的 解决 方案 ， 比 如 在 网 络 正常 的 情况 
下 ， 实 现 同步 复制 ,一旦 检测 到 网 络 连接 超时 ， 则 转 为 异步 复制 ， 待 
网 络 正常 后 ， 再 转 为 同步 复制 。 


17.4” 容 灾 系 统 数 据 一 致 性 保证 与 故障 恢复 机 制 


本 书 第 16 章 中 在 介绍 CDP 的 时 候 曾 经 提 过 数据 一 致 性 的 问题 。 本 
节 将 具体 分 析 一 下 数据 一 致 性 的 保证 办 法 和 具体 技术 细节 。 


17.4.1 ”数据 一 致 性 问题 的 产生 


设想 这 样 一 种 情况 ， 如 图 17-32 所 示 ， 主 机 HOST 上 运行 了 一 个 数 
据 库 系统 ， 数 据 库 将 Online Log 存 放 在 本 地 站 点 存储 设备 的 Log 卷 中 ， 
数据 文件 存放 在 DAT 卷 中 。 


图 17-32 ”数据 一 致 性 示例 


(1) 某 时 刻 ， 数 据 库 向 Log 中 写 入 了 一 条 Transaction 记 录 ， 主 机 
将 这 个 针对 Log 卷 的 写 请 求 发 送 给 本 地 站 点 存储 设备 ， 并 等 待 写 入 成 
功 的 SCSI 应 答 。 


(2) 本 地 站 点 存储 设备 接收 到 了 针对 Log 卷 的 写 IO， 在 将 数据 写 
入 Log 卷 的 同时 ， 将 这 份 IO 数据 发 送 至 远程 容 灾 站 点 的 存储 设备 。 


(3) 远程 存储 设备 接收 到 这 个 针对 Log 卷 的 IO ， 立 即将 其 写 入 缓 
存 (或 者 写 入 磁盘 ， 视 Cache 写 策略 而 定 ) ， 并 通知 本 地 站 点 存储 设备 
IO 完成 。 


(4) 本 地 存储 设备 接收 到 远程 IO 完成 的 消息 ， 立 即 通知 HOST 主 
机 本 次 针对 Log 卷 的 写 IO 完 成 。 


在 主机 上 的 数据 库 系 统 接 收 到 Log 写 入 成 功 之 后 ， 才 可 以 将 对 应 
的 Transaction 效 据 写 入 数据 文件 ， 如 果 效 据 库 并 未 接收 到 成 功 的 消 
息 ， 则 不 会 继续 下 一 步 动 作 。 在 将 数据 写 入 DAT 卷 的 时 候 ， 系 统 进 行 
与 刚才 的 4 步 相同 的 动作 。 可 以 看 到 ， 在 这 种 完全 同步 的 数据 复制 情况 
下 ， 不 会 产生 任何 数据 一 致 性 问题 ， 写 IO 完全 按照 先后 顺序 被 同时 体 
现 到 本 地 和 远程 存储 系统 中 ， 任 何 一 步 中 断 ， 下 一 步 束 不 会 发 生 。 


注意 : 同步 IO 所 能 严格 保证 的 也 只 是 灾 备 端 数据 的 时 序 一 致 
性 ， 而 不 能 保证 到 应 用 层 的 一 致 性 。 为 何 呢 ? 因为 比如 数据 
库 系统 ， 都 有 自己 的 缓存 ， 其 中 包含 有 大 量 的 脏 数 据 ， 只 要 
这 些 脏 数据 不 被 刷 盘 ， 那 么 存储 系统 就 算是 用 了 同步 ID ， 也 
不 能 把 这 些 脏 数据 同步 到 远程 存储 中 。 而 异步 数据 复制 则 可 
以 使 用 运行 在 客户 端的 代理 程序 ， 在 每 次 数据 复制 触发 之 
前 ， 通 过 代理 程序 将 对 应 应 用 系统 的 脏 数据 刷新 到 存储 系统 
中 ， 然 后 再 触发 一 份 本 地 存储 的 快照 ， 然 后 再 触发 数据 复制 
过 程 ， 这 样 就 可 以 保证 应 用 级 别 的 数据 一 致 性 了 。 


然而 ， 在 异步 数据 复制 过 程 中 ， 事 情 可 就 不 是 这 样 了 ， 会 出 现 这 
样 一 种 情况 ， 即 先后 发 生 的 两 个 有 逻辑 天 联 性 的 时 间 ， 在 被 复制 到 远 
程 站 点 之 后 ， 远 程 系 统 可 能 只 保存 了 后 来 发 生 的 事件 ， 而 先 发 生 的 事 
件 却 没 了 。 这 就 是 彻底 的 数据 不 一 致 ， 严 重 时 会 导致 应 用 程序 在 分 析 
这 些 数 据 时 产生 异常 甚至 无 法 成 功 启动 ， 最 严重 的 则 是 应 用 程序 成 功 
启动 了 ， 但 是 没有 一 致 性 检查 机 制 ， 直 接 在 这 份 不 一 致 的 逻辑 错乱 数 
据 基 础 上 继续 运行 处 理 ， 这 种 无 知行 为 可 能 会 造成 更 加 惨痛 的 后 果 ， 
比如 程序 给 出 了 不 符合 实际 的 错误 数据 从 而 影响 人 类 的 行为 。 


如 图 17-33 所 示 ， 同 样 为 上 述 的 拓扑 ， 复 制 方式 改 为 异步 方式 。 
图 17-33 ”数据 一 致 性 示例 
(1) 某 时 刻 ， 主 机 向 本 地 存储 的 Log 卷 写 入 一 份 数据 。 


(2) 本 地 存储 设备 接收 到 这 份 IO 数据 之 后 ， 将 其 写 入 缓存 ， 然 
后 立即 将 写 入 成 功 的 应 答 消息 返回 给 主机 。 


(3) 主机 数据 库 系统 得 知 成 功 写 入 Log 的 消息 ， 随 后 便 做 出 判断 
将 数据 写 入 数据 文件 。 向 DAI 卷 发 送 了 一 份 写 IO 数据 。 


(4) 本 地 存储 系统 收 到 这 份 数据 之 后 ， 立 即将 其 写 入 缓存 并 且 将 
写 入 成 功 的 消息 返回 给 主机 。 


(5) 稍 后 ， 异 步 复 制 过 程 开始 ， 本 地 存储 系统 由 于 各 种 原因 ， 首 
先 将 DAT 卷 刚才 被 更 新 的 那 份 数据 发 送 到 了 远程 存储 系统 。 


(6) 远程 存储 系统 接收 到 这 份 数据 ， 将 其 写 入 缓存 然后 立即 返回 
写 入 成 功 的 信息 给 本 地 存储 。 


(7) 之 后 ，Log 卷 刚才 被 更 新 的 那 份 数据 也 被 发 送 ， 在 尚未 发 送 
完成 之 前 ， 本 地 站 点 发 生 灾难 ， 整 个 机 房 由 于 地 震 完 全 夫 塌 。Log 卷 
刚 被 更 新 的 数据 或 变 为 电磁 波 永远 消失 在 宇宙 中 。 


我 们 来 看 一 下 灾难 发 生 之 后 ， 远 程 站 点 的 数据 状态 。 很 显然 ， 在 
主 站 点 首先 发 生 的 事件 ( 写 Log) 并 没有 被 同步 到 远程 站 点 ， 而 后 来 
发 生 的 事件 〈 写 数据 文件 ) 却 被 同步 到 了 远程 站 点 。 此 时 远程 站 点 的 
数据 影像 是 一 份 逻辑 错乱 的 不 一 致 影像 ， 需 要 使 用 和 处 理 这 份 数据 的 
应 用 程序 来 对 数据 做 一 致 性 检查 从 而 恢复 数据 的 一 致 性 。 然 而 这 个 过 
程 也 是 有 代价 的 ， 为 了 保证 一 致 性 ， 很 有 可 能 要 丢失 一 部 分 原本 不 应 
该 丢失 的 数据 。 


有 人 在 此 会 产生 一 个 质疑 ， 是 的 ， 我 们 这 就 来 论述 为 何 本 地 站 点 
不 能 按照 顺序 来 发 送 所 有 的 写 IO 效 据 。 如 果 按 照 顺序 发 送 ， 比 如 使 用 
TCP 协 议 来 发 送 ， 不 就 可 以 保证 发 送 端 和 接收 端的 数据 是 绝对 按照 顺 
序 排列 的 么 ? 当然 是 这 样 的 ， 本 地 站 点 在 传送 数据 所 利用 的 协议 这 方 
面 确实 没有 问题 ， 底 层 协议 绝对 是 遵循 先后 顺序 的 。 


问题 : 本 地 站 点 在 将 数据 传送 给 传输 协议 进行 传输 的 时 候 ， 
却 并 不 是 按照 写 IO 发 生 顺 序 的 。 什 么 ?怎么 可 能 ， 难 道 本 地 
存储 设备 不 知道 IO 发 生 的 先后 顺序 么 ?” 它 不 会 记录 一 下 么 ? 
答对 了 ， 本 地 存储 系统 真 的 就 不 会 记录 这 些 IO 的 先后 顺序 。 


17.4.2 ”对 异步 数据 复制 过 程 中 一 致 性 保证 的 实现 方式 


1. 异步 数据 复制 实现 方式 及 存在 的 一 致 性 问题 


为 何 本 地 站 点 不 去 记录 写 IO 的 先后 顺序 呢 ? 答案 是 为 了 节省 计算 
资源 和 空间 。 首 先 ， 可 以 在 脑海 中 演绎 一 下 ， 一 个 写 IO 进来 之 后 ， 系 
统 首先 要 做 的 就 是 尽快 高 效 地 将 其 写 入 对 应 卷 对 应 的 磁盘 ， 而 不 是 在 
缓存 中 排队 等 待 被 复制 到 远程 站 点 。 就 算是 系统 先 将 这 些 数据 写 入 ， 
之 后 驻 留 在 缓存 中 直到 被 传送 ， 这 样 做 依然 也 会 耗费 很 大 的 缓存 空 
间 ， 而 且 这 样 做 搞 不 好 会 积压 越 来 越 长 的 队列 ， 致 使 系统 进退 两 难 ， 
即使 其 他 任务 再 忙 也 不 得 不 先 处 理 这 些 积 压 的 队列 ， 导 致 系统 前 端的 


性 能 大 受 影 响 。 


那 怎 么 办 呢 ?” 又 不 记录 顺序 ， 又 不 让 积压 在 缓存 排队 ， 就 这 么 让 
这 些 数据 自由 地 写 在 硬盘 上 石沉大海 ? 待 到 要 传送 这 些 数据 到 远 端 
时 ， 我 们 又 该 怎样 大 海 护 针 呢 ? 呵呵 ， 说 道 搞 针 ， 您 还 真 说 对 了 ， 解 
决 这 个 问题 的 办 法 ， 就 是 用 针 ， 什 么 针 ? 指针 啊 ! 呵呵 ， 我 们 是 一 定 
要 记录 这 些 IO 的 行踪 的 ， 绝 对 不 能 让 它们 溜 掉 ， 所 以 ， 在 数据 复制 开 
始 之 前 ， 我 们 就 已 经 为 整个 卷 创 建 了 一 份 Bitmap， 如 图 17-34 所 示 。 


图 17-34 同步 位 图 


初始 Bitmap 是 全 为 0 的 ， 只 要 接收 到 一 个 针对 源 卷 某 地 址 的 写 IO， 
就 立即 将 Bitmap 中 对 应 这 个 地 址 的 位 置 为 1， 再 来 一 个 ， 就 再 置 一 个 ， 
已 经 置 过 位 的 就 不 再 置 了 ， 反 正 已 经 被 覆盖 过 多 次 了 。 系 统 就 这 样 一 
直 置 下 去 ， 你 甚至 可 以 在 系统 将 整个 Bitmap 都 置 成 了 全 1 之 前 ， 什 么 都 
不 做 ， 数 据 不 被 复制 ， 这 么 长 时 间 了 都 不 作为 ， 也 不 怕 此 时 一 旦 发 生 
灾难 ， 这 一 整 卷 的 变化 数据 都 没 被 复制 到 远程 。 估 计 没 人 打算 这 人 么 
做 ,一 旦 数据 复制 动作 被 触发 ， 则 系统 会 不 停 地 从 Bitmap 中 的 第 1 位 开 
始 向 最 后 一 位 扫描 ， 每 当 发 现 某 位 为 1， 则 表明 这 一 位 对 应 的 源 卷 地 址 
上 的 数据 尚未 被 传送 到 远程 ， 则 系统 立即 读 出 源 卷 对 应 地 址 的 数据 并 
传送 到 远程 ， 传 送 成 功 之 后 ， 立 即将 这 个 位 置 为 0%， 表 明 此 地 址 数据 已 


被 传送 ， 然 后 接着 扫描 下 一 位 ， 做 同样 的 动作 。 然 而 ， 具 体 实现 的 机 
制 并 不 一 定 就 得 是 一 位 一 位 地 扫描 ， 可 以 设 定 一 个 扫描 窗口 长 度 ， 一 
批 一 批 地 扫描 ， 数 据 被 一 批 一 批 地 读 出 ， 一 批 一 批 地 传 运 ， 一 批 一 批 
地 置 0。 扫 措 到 表 尾 之 后 立即 折 回 表 头 再 次 重新 扫描 。 这 个 Bitmap 是 不 
断 地 被 置 1 和 置 0 的 ， 数 据 写 线程 和 数据 复制 线程 ， 线 程 同 时 操作 这 个 
表 ， 争 抢 这 个 表 ， 有 可 能 刚 被 置 0 的 位 接着 又 被 置 了 1， 也 就 是 对 应 的 
地 址 又 被 瑟 入 了 数据 。 


效 据 复制 线程 和 效 据 写 线程 很 有 可 能 出 现 竞 争 情 况 ， 比 如 复制 续 
程 扫 描 到 某 个 为 1 的 位 并 且 准 备 读 取 对 应 的 数据 进行 传送 ， 但 是 数据 还 
没有 被 传送 完 之 前 ， 数 据 写 线程 收 到 针对 这 个 地 址 的 又 一 次 写 IO， 则 
如 果 此 时 写 线程 再 次 将 这 一 位 置 为 1 的 话 〈 原 本 就 是 1) ， 当 复制 线程 
成 功 传送 完 数据 之 后 ， 将 会 把 这 个 位 置 为 0， 而 这 是 不 应 该 发 生 的 ， 也 
就 是 说 漏 掉 了 一 个 写 IO 没 有 被 复制 到 远程 ， 这 在 数据 一 致 性 上 是 绝对 
不 允许 的 。 但 是 这 里 是 异步 复制 ， 利 用 这 种 扫描 Bitmap 的 方式 进行 的 
异步 复制 本 来 惑 不 可 能 保证 数据 的 先后 性 ， 也 融 根 本 谈 不 上 一 致 性 ， 
那么 刚才 那 种 竞争 引发 的 问题 是 否 就 可 以 忽略 不 计 了 呢 ? 


不 可 以 。 如 果 最 后 被 更 新 的 地 址 的 数据 在 很 长 时 间 里 (或 者 永 
远 ) 都 不 被 再 次 更 新 ， 那 么 最 后 一 次 的 更 新 就 需要 等 待 很 长 时 间 ， 或 
者 永远 无 法 传递 到 远程 。 一 旦 在 这 段 时 间 内 《最 后 一 次 漏 掉 更 新 后 直 
到 下 一 次 这 个 地 址 再 次 被 更 改 的 期 间 ) ， 操 作 员 希望 将 异步 模式 变 为 
同步 模式 ， 先 暂停 应 用 程序 IO， 等 待 数据 完全 同步 到 远程 之 后 ， 将 复 
制 关 系 改 为 同步 ， 一 段 时 间 内 ， 这 个 地 址 仍然 未 被 更 改 ， 而 此 时 系统 
发 生 灾 难 。 操 作 员 庆 季 地 认为 两 个 站 点 的 数据 是 完全 一 致 的 〈 由 于 之 
前 变 为 了 同步 模式 ) 。 可 惜 ， 他 错 了 ， 他 被 这 个 Bug 搞 惨 了 ， 由 于 最 
后 那个 被 更 新 的 数据 块 永远 也 没有 被 同步 到 远程 ， 而 这 个 数据 块 内 恰 


好 又 是 一 笔 非常 天 键 的 数据 ， 异 地 启动 应 用 程序 之 后 ， 由 于 数据 的 丢 
失 ， 给 业务 带 来 了 巨大 的 损失 。 当 然 ， 这 是 一 个 极端 的 例子 ， 但 是 也 
不 能 不 防止 。 所 以 ， 还 是 引入 避免 竞争 的 设计 为 好 ， 比 如 在 发 生 置 位 
冲突 时 ， 数 据 写 线程 先 将 保存 状态 ， 然 后 继续 执行 ， 等 待 复制 线程 结 
束 传送 置 位 之 后 ， 再 重新 置 位 。 


注意 : 数据 写 线程 在 接收 到 写 IO 之 后 一 定 要 先 将 Bitmap 置 位 
成 功 后 再 将 数据 写 入 源 卷 ， 数 据 写 入 源 卷 后 才 通 知 上 层 成 功 
完成 。 其 中 任何 一 步 被 异常 中 断 的 话 ， 那 么 随后 的 动作 都 必 
须 停 止 。 究 其 原因 ， 是 因为 如 果 先 将 数据 写 入 硬盘 后 再 置 
位 ,一 旦 在 尚未 和 置 位 成 功 前 发 生 异常 中 断 ， 比 如 系统 Down 
机 ， 则 此 时 Bitmap 中 对 应 这 个 地 址 的 位 依然 为 0 (如 果 置 位 前 
就 为 1 则 忽略 本 情景 ) ， 而 源 卷 对 应 地 址 却 被 更 改过 了 数据 ， 
此 时 ,再 次 同步 时 ， 束 会 发 生 与 上 文 相同 的 Bug。 而 如 果 先 
置 位 成 功 再 写 入 源 卷 ， 即 便 置 位 成 功 后 ， 写 入 源 卷 之 前 ， 系 
统 Down 机 ， 那 么 重启 后 再 次 同步 的 过 程 束 会 将 原本 已 经 同步 
的 数据 块 再 同步 一 次 ， 无 非 就 是 浪费 了 一 点 可 以 忽略 不 计 的 
链 路 带宽 ， 但 是 不 会 导致 Bug。 


在 进行 数据 异步 复制 的 初期 ， 系 统 需要 首先 将 源 卷 的 所 有 内 容 复 
制 到 目标 卷 ， 然 后 才 可 以 开始 Catchup 追 踪 不 断 变化 的 数据 并 且 持 续 传 
送 。 这 个 步骤 叫做 初始 化 传输 。 此 时 ， 在 初始 化 传输 之 前 ， 系 统 会 
成 一 份 全 为 1 的 Bitmap， 这 样 ， 扫 描 线 程 就 需要 传输 产 卷 上 的 所 有 数据 
到 远程 了 ， 其 他 后 续 步骤 与 上 文 所 述 的 后 期 Catchup 过 程 相同 ， 唯 一 区 
别 就 是 初始 化 传输 时 需要 Catchup 的 是 整个 卷 。 


这 种 数据 异步 复制 设计 导致 数据 传输 和 数据 写 入 的 同步 时 间 方 面 
总 有 一 段 Gap， 扫 描 线程 在 不 断 追 赶 不 断 被 写 入 的 IO 以 将 它们 传输 至 


远 端 ， 受 制 于 系统 写 IO 负 载 和 数据 传输 线路 的 因素 ， 很 少 有 两 者 齐 头 
并 进 的 时 候 。 所 以 异步 数据 容 灾 在 主 站 点 灾难 发 生 的 时 候 几 乎 都 是 要 
丢 数 据 的 。 


由 于 针对 源 卷 的 写 IO 地 址 是 随机 的 乱 序 的 ， 而 系统 扫描 Bitmap 时 
不 能 感知 IO 的 顺序 ， 只 能 按照 自然 数 顺 序 扫描 以 便 传送 被 更 新 的 数 
据 ， 这 样 做 的 结果 就 是 ， 数 据 被 传送 到 远程 站 点 的 时 间 也 不 是 按照 写 
IO 发 生 的 先后 顺序 排列 的 ， 对 端 接收 和 写 入 的 时 候 当然 也 不 是 按照 先 
后 顺序 的 ， 这 就 最 终 导 致 了 容 灾 端 存储 系统 中 数据 的 不 一 致 。 


如 果 用 这 种 Bitmap 记 录 模 式 来 进行 数据 异步 复制 ， 不 仅仅 是 在 多 
个 卷 之 间 可 能 发 生 不 一 致 ， 而 且 就 算 本 地 和 远程 各 只 有 一 个 卷 ， 那 依 
然 也 会 发 生 乱 序 传输 ， 也 会 不 一 致 。 


有 人 再 次 质疑 ， 称 其 有 办 法 做 到 既 按照 顺序 传输 又 不 影响 性 能 。 
写 IO 一 进来 ， 也 该 怎么 写 盘 就 怎么 写 ， 但 是 如 果 为 每 个 卷 也 创建 一 张 
表 ， 每 个 表 保 存 每 一 个 写 IO 的 LBA 地 址 和 当前 系统 的 时 间 戳 ， 如 果 过 
到 一 个 以 前 已 经 保存 过 的 地 址 条 目 ， 则 删除 之 前 的 ， 保 存 最 新 的 时 间 
戳 。 这 样 系统 到 时 候 就 可 以 扫描 时 间 戳 从 而 按照 先后 顺序 发 送 数 据 
了 。 


这 种 设计 存在 问题 。 首 先 ， 这 张 表 以 谁 来 排序 呢 ? LBA 地 址 还 是 
时 间 戳 ?一 定 要 以 时 间 戳 来 排序 ， 否 则 还 需要 做 额外 的 索引 表 以 便 查 
询 ， 既 然 这 样 ， 那 么 如 果 遇 到 刚才 说 的 那 种 情况 ， 即 针对 同一 个 LBA 
再 次 由 写 IO 进入 ， 那 么 就 删除 原来 的 条 目 ， 此 时 ， 既 然 表 是 以 时 间 戳 
排序 ， 那 么 系统 此 时 搜索 的 是 这 个 LBA 针 对 的 条 目 ，LBA 是 乱 序 的 ， 
怎么 保证 查询 性 能 ? 如果 还 需要 额外 做 索引 的 话 ， 那 就 得 不 傍 失 了 。 
就 算 做 了 索引 ， 快 速 查 到 了 对 应 条 目 将 其 删除 之 后 ， 这 个 空位 必须 要 


利用 的 ， 否 则 表 将 无 限 扩 大 ， 那 么 就 要 将 整个 底部 上 移 ， 这 些 动作 都 
是 非 党 耗费 资源 的 。 


提示 : 另外 ， 时 间 惟 的 粒度 有 多 大 ?参考 本 书 第 16 章 对 于 
CDP 回 溯 粒 度 的 像 滚 论 述 即 又 可 得 知 ， 这 种 设计 实际 上 也 根 
本 无 法 保证 能 够 记录 每 一 个 IO 的 先后 顺序 。 所 以 ， 这 种 设计 
太 过 复杂 而 且 还 不 能 百 分 百 保 证 顺序 ， 因 此 不 能 应 用 。 


通过 快照 来 做 异步 复制 


首先 在 源 卷 上 做 快照 ， 然 后 将 这 份 快照 对 应 的 数据 块 全 部 复制 到 
远程 站 点 。 在 复制 期 间 ， 源 卷 数据 一 定 会 有 后 续 的 更 改 ， 不 管 它 ， 
为 会 被 CoFW， 还 有 一 份 快 照 留 底 。 等 首次 复制 完成 之 后 ， 目 标 卷 做 
一 次 快照 ， 这 份 快照 内 容 上 等 同 于 源 卷 的 第 一 次 快照 。 一 段 间隔 之 
后 ， 源 卷 再 次 做 一 份 快 照 ， 然 后 比 对 本 次 源 卷 快照 和 上 一 次 源 卷 快照 
之 间 的 变化 的 数据 块 ， 比 对 方法 见 其 他 章节 。 得 到 变化 数据 块 列表 之 
后 ， 将 这 些 数据 块 依次 复制 到 目标 卷 ， 复 制 完 成 后 目标 卷 做 一 次 快 
照 ， 然 后 将 上 一 个 目标 卷 快照 删除 ， 同 时 ， 源 卷 也 将 第 一 次 快照 删 
除 ， 两 边 各 自 都 留存 最 近 这 一 次 快照 ， 然 后 一 段 间 隔 之 后 ， 重 复 相 同 
的 过 程 。 


这 种 做 法 的 好 处 是 可 以 充分 利用 原 有 的 快照 功能 ， 无 须 做 过 多 开 
发 即 可 实现 远程 复制 功能 ， 但 是 做 不 到 同步 复制 ， 而 且 快 照 的 间隔 不 
能 过 短 ， 所 以 RPO 会 加 长 。 但 是 不 失 为 一 种 简便 的 方法 ， 同 时 这 种 方 
法 在 实现 一 致 性 保护 方面 也 比较 容易 ， 比 如 做 快照 时 如 果 引 入 主机 端 
一 致 性 代理 ， 则 可 以 做 到 应 用 层 的 一 致 性 而 不 仅 是 底层 时 序 一 致 性 
了 。 


2. 数据 一 致 性 保证 的 办 法 


上 文中 描述 了 利用 追踪 位 图 法 来 进行 异步 复制 过 程 中 所 存在 的 时 
序 一 致 性 无 法 保证 的 问题 。 本 节 介 绍 三 种 用 来 保证 异步 复制 过 程 中 数 
据 一 致 性 的 设计 思想 和 方法 。 


1) 设计 思想 1: 基于 追踪 日 志 法 


最 简单 的 一 种 保证 数据 时 序 一 致 性 的 方法 ， 就 是 将 所 有 进入 的 写 
IO 写 入 源 数据 卷 的 同时 ， 将 其 复制 一 份 暂 存 在 一 个 日 志 中 ， 完 全 按照 
IO 进入 的 先后 顺序 排列 。 之 后 ， 按 照 FIFO 先 进 先 出 的 方式 将 日 志 进 行 
回放 ， 生 成 数据 流通 过 网 络 传输 到 远程 阵列 中 。 这 种 方法 最 彻底 地 保 
证 了 时 序 一 致 性 ， 但 是 存在 的 问题 也 不 可 忽略 ， 也 就 是 这 种 日 志 需 
占据 大 量 空间 ， 如 果 对 于 一 个 写 负 载 很 重 的 系统 来 讲 ， 日 志 将 占用 大 
量 空间 。 此 外 ， 写 日 志 过 程 必 须发 生 在 IO 路 径 前 部 ， 因 为 如 果 不 在 前 
部 将 IO 顺 序 记 录 下 来 ， 那 么 一 旦 等 到 写 1O 全 部 进入 后 端 Page Cache 缓 
存 后 ， 将 无 法 再 分 辨 出 顺序 。 所 以 ， 这 种 做 法 对 IO 资源 、 计 算 资 源 、 
存储 空间 资源 都 有 很 大 影响 。 相 比 于 追踪 位 图 法 来 讲 ， 不 适合 高 负载 
的 环境 下 。 


2) 设计 思想 2: 基于 追踪 位 图 的 批量 传输 法 
(1) 单 本 地 存储 系统 解决 办 法 


通过 前 文中 对 追踪 位 图 法 的 分 析 看 到 ， 时 序 一 致 性 难以 保证 。 事 
已 至 此 ， 是 否 这 个 问题 就 无 解 了 呢 ? 难道 只 有 同步 数据 复制 才能 保证 
一 致 性 么 ? 


非 也 。 人 的 智慧 是 无 穷 的 。 要 解决 这 个 问题 ， 必 须 找到 一 个 能 够 
分 辨 单个 IO 顺序 的 机 制 或 者 位 置 ， 而 且 不 能 用 时 间 戳 ， 因 为 已 经 讨论 
过 时 间 戳 的 局 限 性 了 。 而 整个 存储 系统 唯一 能 够 辨别 IO 先后 顺序 的 地 
方 就 是 总 入 口 的 IO Queue。Queue 是 一 个 先进 先 出 的 队列 ， 虽 然 队 列 不 
对 每 个 IO 记录 时 间 惟 ， 但 是 如 果 在 Queue 中 任何 一 点 切 开 暂停 ， 或 者 
叫 Suspend， 就 一 定 能 够 保证 切口 两 侧 的 IO 一 定 是 按照 时 间 先 后 排列 
的 。 


此 时 ， 如 果 系 统 首 先 将 所 有 Suspend 之 前 发 生 的 IO 统统 复制 到 远程 
站 点 而 确保 本 地 站 点 在 传送 这 些 数 据 的 过 程 中 不 发 生 灾 难 或 链 路 问 
题 ， 也 就 是 说 必须 保证 这 些 Suspend 之 前 发 生 的 所 有 写 IO 无 一 遗漏 地 被 
复制 到 远程 ， 那 么 也 就 保证 了 远程 站 点 数据 的 一 致 性 。 如 果 复 制 过 程 
中 发 生 灾难 或 者 链 路 问题 ， 即 数据 只 传输 了 一 半 ， 而 本 地 系统 在 传输 
这 些 数据 的 时 候 是 乱 序 传输 的 ， 并 不 能 分 辨 被 Suspend 之 前 发 生 的 这 些 
IO 的 先后 顺序 ， 所 以 远程 系统 中 的 那 一 半数 据 ， 很 有 可 能 就 是 不 一 致 
的 。 这 个 问题 的 解决 办 法 我 们 在 下 文中 详细 论述 ， 在 此 我 们 先 一 路 假 
设 灾难 和 链 路 问题 都 不 会 发 生 。Suspend 之 前 所 发 生 的 IO， 其 处 理 过 程 
与 上 一 节 中 所 述 的 异步 复制 过 程 相同 ， 系 统 也 同样 需要 在 Bitmap 中 标 
记 对 应 的 位 ， 再 等 待 扫 描 线程 的 扫描 然后 传送 。 


Suspend 之 前 发 生 的 IO 在 被 复制 到 远程 的 过 程 中 ， 被 Suspend 住 的 
那些 写 IO 该 如 何 处理 呢 ? 此 时 系统 绝 不 可 能 一 直 将 它们 Suspend， 因 为 
异步 复制 是 需要 时 间 的 ， 而 主机 客户 端的 IO 决 不 能 为 了 等 待 它们 完成 
而 一 直 被 Suspend 住 。 实 际 上 ， 当 系统 做 出 Suspend 动 作 之 后 ， 会 将 被 
拘 住 的 部 分 另存 为 一 个 新 写 IO Queue 并 且 立 即 开 始 处 理 ， 漏 下 去 的 那 
部 分 Queue 也 同时 会 被 系统 逐渐 处 理 掉 。 然 后 系统 再 从 新 Queue 中 再 次 
执行 Suspend 传输 过 程 ， 周 而 复 始 。 


新 Queue 与 原 Queue 不 能 共用 一 份 Bitmap (前 一 节 所 述 的 
Bitmap) ， 因 为 Suspend 之 后 系统 将 要 传输 的 只 是 被 漏 下 去 的 那 部 分 原 
Queue， 只 有 这 部 分 IO 才 会 走 前 一 节 所 述 的 异步 复制 流程 ， 更 新 
Bitmap 从 而 等 待 被 扫描 后 传送 。 如 果 新 Queue 中 的 IO 此 时 插 进 来 ， 那 
IO 的 顺序 就 无 从 保证 了 ， 所 以 需要 为 新 Queue 也 建立 一 个 对 应 的 空 的 
全 0 的 Bitmap ， 同 时 在 处 理 新 Queue 中 的 IO 的 过 程 中 更 新 这 份 新 


Bitmap o 


当 系 统 将 Suspend 之 前 的 所 有 IO 复制 到 远程 的 时 候 ， 被 复制 出 去 的 
IO 在 旧 Bitmap 中 对 应 的 位 并 不 被 重 置 为 0， 目 的 是 为 了 防止 复制 过 程 被 
突然 中 断 。 如 果 一 旦 被 中 断 ， 远 程 系统 就 需要 将 数据 回 退 到 复制 之 前 
的 状态 (下 文 详 述 ) ， 而 且 本 地 系统 的 旧 Bitmap 中 的 所 有 信息 都 需要 
保留 ， 并 与 新 Bitmap 进 行 OR 操作 从 而 合并 为 一 份 活动 的 Bitmap， 然 后 
等 待 下 次 Suspend 的 到 来 ， 即 本 次 复制 宣告 失败 。 如 果 复制 过 程 成 功 结 
束 ， 则 旧 活 动 Bitmap 无 须 保留 ， 系 统 会 将 其 删除 ， 然 后 将 新 Bitmap 角 
色 转 变 为 活动 Bitmap， 并 创建 一 份 新 的 空 Bitmap 以 供 下 次 Suspend 时 使 
用 。 


整个 过 程 的 示意 图 如 图 17-35 所 示 。 
图 17-35 ”批量 传送 思想 


就 这 样 ， 系 统 在 执行 完 一 次 批量 传输 后 ， 接 着 再 次 Suspend， 重 复 
刚才 的 动作 ， 周 而 复 始 地 将 本 地 存储 系统 发 生 的 写 IO 数 据 一 批 一 批 地 
传达 至 远程 站 点 。 所 以 ， 怎 么 折腾 也 是 异步 ， 没 必要 非得 一 个 一 个 地 
按照 顺序 传送 IO， 一 批 一 批 地 传 既 简单 又 划算 。 


这 个 过 程 的 实质 其 实 就 是 批 与 批 之 间 可 以 保证 绝对 按照 时 间 顺 序 
排列 ， 但 是 一 批 当 中 的 IO 则 无 法 判断 先后 时 间 。 所 以 上 文中 提 到 过 ， 
在 批量 传输 过 程 中 一 定 要 保证 本 地 不 发 生 灾难 或 者 链 路 没有 问题 。 


还 没 结束 。 细 心 的 人 已 经 发 现 了 。 上 面 的 做 法 不 正 是 刻 舟 求 剑 、 
掩耳盗铃 么 ? 虽然 项 上 给 抬 住 一 下 子 ， 形 成 两 份 bitmap， 但 是 底下 的 
益 就 一 个 ， 效 据 不 停 地 被 更 新 到 卷 中 的 数据 块 中 ， 而 当前 活动 bitmap 
是 不 允许 再 更 改 的 ， 被 冻 住 了 ， 本 批 次 需要 传输 哪些 块 已 经 定 死 了 ， 
而 这 也 正 是 当初 为 何 要 新 生成 一 份 第 二 bitmap 的 原因 。 但 是 ， 当 前 活 
动 bitmap; 东 住 了 ， 底 层 卷 却 没有 被 你 住 ， 所 有 更 新 都 是 直接 履 盖 源 数 
据 块 的 。 试 想 这 样 一 种 情况 : 某 时 刻 系 统 扫描 活动 位 图 进行 批量 同 
步 ， 当 扫描 到 一 半 的 时 候 ， 底 层 着 有 某 个 块 被 更 新 了 ， 而 这 个 块 地 址 
恰好 落 在 已 扫描 完成 的 区 域 ， 那 么 此 时 没有 任何 问题 。 但 是 后 来 ， 底 
层 卷 中 某 个 块 又 被 更 新 了 ， 而 这 个 块 地 址 恰好 落 入 了 尚未 被 扫 措 到 的 
区 域 ， 那 么 当 系统 扫描 到 活动 bitmap 中 对 应 这 个 块 的 位 的 时 候 ， 如 果 
这 个 位 恰好 又 为 1， 那 么 就 会 将 对 应 的 块 读 出 来 并 且 传送 到 远程 。 这 样 
的 话 远 端 的 数据 卷 的 状态 就 时 序 不 一 致 了 ， 因 为 这 个 块 是 后 来 发 生 
的 ， 在 它 之 前 还 有 一 个 块 的 更 新 ， 而 这 笔 更 新 却 并 没有 传 到 远程 ， 这 
就 是 典型 的 不 一 致 。 如 何 解 决 ? 两 条 路 : 要 么 将 底层 卷 的 分 成 两 个 ， 
要 么 就 将 底层 卷 东 住 ， 等 本 批 次 同步 完成 之 后 再 解冻 。 


显然 ， 把 卷 也 分 成 两 个 的 路 子 行 不 通 ， 动 一 动 内 存 里 的 数据 怎么 
都 行 ， 但 是 不 要 去 动 底层 的 数据 结构 ， 否 则 会 很 难 收场 。 那 么 就 只 能 
将 底层 卷 冻 住 了 ， 显 然 想到 利用 快照 技术 来 东 住 卷 ， 形 成 同步 开始 时 
刻 的 一 份 快 照 ， 这 样 的 话 ， 系 统 扫 描 活 动 bitmap 进 行 传输 的 时 候 就 不 
需要 担心 底层 卷 数据 随时 变化 而 导致 的 不 一 致 了 。 然 而 ， 也 没有 必要 
完全 使 用 传统 的 快照 技术 ， 可 以 在 其 上 做 一 些 修改 ， 删 掉 一 些 不 必要 


的 功能 模块 ， 只 保留 最 核心 的 CoFW 线 程 核 心 即 可 ， 并 且 其 作用 逻辑 
也 可 以 更 加 简化 : 


只 CoFW 那 些 当前 活动 bitmap 中 被 标记 为 1 的 块 ; 
只 CoFW 和 那些 当前 活动 bitmap 中 尚未 被 扫 搞 到 ， 也 就 是 尚未 被 传 
送 到 远 端的 块 。 


当 本 批 次 传输 完成 之 后 ， 删 掉 这 个 快照 。 当 下 一 批 次 同步 更 新 开 
始 时 ， 再 做 快照 ， 然 后 利用 两 份 循环 位 图 完成 数据 传输 。 当 然 ， 如 果 
为 了 节省 开发 成 本 等 因素 考虑 ， 直 接 使 用 已 有 的 快照 模块 也 可 以 。 


(2) 多 本 地 存储 系统 解决 办 法 


以 上 的 设计 虽然 可 以 严格 保证 单 台 本 地 存储 系统 向 单 台 远程 存储 
系统 复制 数据 时 的 数据 一 致 性 ， 但 如 果 本 地 有 多 台 物 理 上 独立 分 开 的 
存储 设备 ， 而 某 主 机 上 的 某 个 应 用 程序 又 同时 向 每 个 设备 上 的 一 个 卷 
与 数据 ， 这 些 卷 之 间 又 有 逻辑 相关 性 ， 则 此 时 就 必须 要 求 所 有 存储 系 
统 都 要 伺机 Suspend 住 IO ， 而 且 Suspend 的 时 间 点 也 需要 恰到好处 ， 不 
允许 某 个 设备 上 有 某 个 IO 是 先 于 其 他 某 设 备 的 某 IO 执 行 的 却 被 Suspend 
住 ， 而 其 他 设备 上 后 发 生 的 I0O 却 没 被 Suspend 住 而 漏 下 去 执行 了 。 


这 种 目的 应 该 怎样 达到 呢 ? 让 所 有 系统 在 其 Queue 的 任意 位 置 
Suspend? 不 可 能 ， 系 统 与 系统 设计 不 同 ，Queue 也 不 同 ， 相 关联 的 IO 
处 于 各 个 系统 中 的 Queue 的 位 置 也 不 同 ， 所 以 系统 不 可 能 恰到好处 都 
默契 地 Suspend 在 一 个 一 致 点 。 本 质 上 ， 人 存储 系统 也 不 可 能 感知 其 他 系 
统 中 某 IO 与 目 身 系统 中 的 某 IO 是 否 有 逻辑 相 天性。 但是， 我们 可 以 巧 
妙 地 避 开 这 个 问题 ， 从 一 种 根本 的 并 且 自 然 形成 的 角度 来 解决 这 个 问 


题 。 


设想 一 下 ， 如 果 是 从 Queue 的 中 部 某 处 来 Suspend， 则 多 个 独立 存 
储 系 统一 定 要 有 机 制 来 相互 协作 ， 开 发 这 种 机 制 不 是 不 可 以 ， 而 是 得 
不 偿 失 ， 开 销 太 大 ， 有 没有 一 种 不 用 额外 开发 就 自然 存在 的 机 制 呢 ? 
然 也 。 如 果 不 是 从 Queue 中 部 来 Suspend， 而 是 所 有 设备 由 其 中 一 台 设 
备 作 为 Commander， 向 所 有 存储 系统 发 出 命令 ， 令 其 在 某 时 刻 准 点 同 
时 (关于 同时 ， 请 参考 下 文 论 述 ) 直接 从 各 自 Queue 的 尾部 触发 
Suspend， 即 任何 尚未 到 达 存 储 设备 内 部 的 、 主 机 尚未 发 送 的 ， 或 者 在 
主机 的 HBA 卡 Queue 中 的 ， 或 者 已 经 发 送 但 是 依然 在 线路 上 传递 着 的 
所 有 IO， 都 被 物理 地 隔离 到 了 所 有 存储 系统 之 外 ， 这 样 的 话 ， 所 有 存 
储 系 统 就 都 可 以 完全 保证 漏 下 去 等 待 执行 的 所 有 IO 中 的 最 晚 发 生 的 一 
个 ， 与 被 拘 住 的 那个 点 最 早 到 来 的 IO 是 先后 连续 的 了 。 和 触发 Suspend 之 
后 ， 按 照 与 上 一 节 中 相同 的 步骤 进行 。 同 样 ， 期 间 也 不 能 出 现 本 地 灾 
难 或 者 链 路 问题 。 当 所 有 本 地 存储 系统 完成 本 批 次 的 数据 复制 之 后 ， 
会 向 Commander 通 知 状态 ，Commander 确 认 所 有 成 员 都 完成 任务 之 
后 ， 再 次 发 起 下 一 轮 Suspend。 如 图 17-36 为 这 种 思想 的 示意 图 。 


图 17-36 ”多 本 地 存储 系统 解决 办 法 


注意 : 这 种 方法 要 求 所 有 本 地 存储 设备 的 系统 时 间 严 格 保持 
精确 同步 ， 否 则 同样 会 发 生 不 一 致 。 比 如 ， 主 机 分 别 先 后 于 
Tl1、T2、T3 时 刻 向 存储 系统 A、B、C 发 起 三 个 写 IO 操 作 ， 现 
在 系统 决定 在 T4 时 刻 发 起 全 局 Suspend， 但 是 存储 系统 B 的 系 
统 时 间 比 A 和 C 的 快 ， 则 就 有 可 能 在 A 和 C 疝 未 到 达 T4 时 刻 之 
前 ，B 已 经 达到 了 规定 的 时 间 ， 则 B 此 时 立即 Suspend， 此 时 
主机 针对 B 系 统 的 写 IO 恰 好 尚未 到 达 B ， 被 排除 在 外 。 而 晚 些 
时 刻 ，A 和 C 同 时 达到 了 T4 时 刻 ， 同 时 Suspend， 而 恰好 针对 
A 和 C 系 统 的 写 IO 都 已 经 进入 了 Queue， 则 整体 系统 在 Suspend 


之 前 Queue 中 的 写 IO 只 包含 了 针对 A 和 C 的 ， 没 有 针对 B 的 ， 
而 针对 C 的 写 IO 是 晚 于 B 发 生 的 ， 所 以 此 时 整体 系统 数据 处 于 
不 一 致 状态 。 


说 到 这 里 ， 又 有 了 一 个 矛盾 ， 上 文 曾经 论述 过 ， 时 间 惟 并 不 能 保 
证 单个 IO 级 别 的 顺序 ， 即 使 本 地 的 所 有 存储 系统 的 时 间 再 精确 ， 也 不 
可 能 无 限 精 确 下 去 ， 总 会 在 某 个 数量 级 产生 差异 ， 如 果 此 时 系统 的 写 
IOPS 非 常 大 ， 大 过 了 时 间 戳 的 数量 级 ， 则 上 面 的 方法 也 就 不 能 保证 单 
个 IO 级 别 的 顺序 的 Suspend 粒 度 了 。 


有 人 出 主意 了 ， 这 样 行 不 行 ， 即 触发 Suspend 的 时 候 直 接 发 送 触 发 
指令 ， 而 不 是 事先 通知 所 有 系统 在 某 个 时 刻 触 发 ?不行 的 。 想 出 这 种 
办 法 的 和 人 忽略 了 其 本 质问 题 ， 即 多 个 独立 系统 的 时 间 不 可 无 限 精 确 ， 
就 算是 用 指令 立即 触发 ， 那 也 要 考虑 指令 到 达 各 个 独立 存储 系统 的 时 
延误 差 ， 和 各 个 存储 系统 的 处 理 时 延 ， 一 旦 处 理 不 同步 ， 一 样 还 是 造 
成 了 不 一 致 。 


江 妇 才 尽 了 么 ? 尚 早 。 既 然 多 个 系统 时 间 不 可 无 限 精 确 ， 那 么 单 
个 系统 的 时 间 至 少 对 于 自己 来 讲 是 精确 的 ， 不 存在 不 同步 的 问题 。 如 
果 能 让 一 个 独立 的 系统 来 总 控 所 有 IO 的 进出 ， 从 物理 上 将 所 有 IO 串 行 
化 ， 然 后 在 这 个 关口 实现 Suspend， 那 么 这 个 问题 就 非常 完美 地 解决 
了 。 看 看 系统 拓扑 图 ， 最 佳 的 串 行 化 关口 是 谁 呢 ? 没 错 ， 就 是 主机 。 
在 主机 上 进行 IO 物理 串 行 化 是 最 彻底 的 。 在 主机 的 HBA 驱 动 上 层 设 计 
一 个 串 行 化 器 也 可 以 说 是 Suspender， 由 这 个 Suspender 来 Suspender 主 机 
上 的 IO， 然 后 通知 所 有 其 连接 的 本 地 存储 系统 做 好 准备 。 这 一 过 程 将 
会 是 很 快 的 ， 在 几 十 毫秒 级 别 。 随 后 Suspender 释 放 主 机 IO。 


经 过 这 样 设计 之 后 ， 各 个 本 地 存储 系统 之 间 就 不 需要 太 过 精确 的 
时 间 同 步 了 ， 几 毫秒 甚至 几 秒 的 误差 都 可 以 容忍 ， 因 为 此 时 主机 上 的 
Suspender 已 经 完全 暂 定 了 向 存储 系统 发 送 IO ， 存 储 系统 有 足够 的 时 间 
将 全 部 剩余 的 IO 收纳 进来 然后 做 好 准备 。 


如 图 17-37 所 示 为 主机 端 Suspend 解 决 办 法 示意 图 。 
图 17-37 ”主机 端 Suspend 解 决 办 法 


虽然 可 以 自己 开发 一 个 Suspender， 但 是 如 果 有 现成 的 东西 ， 为 何 
不 拿 来 用 呢 ? 第 16 章 介绍 过 VSS 服 务 ，VSS 服 务 是 一 种 最 好 的 
Suspender， 它 直接 作用 于 应 用 层 ，Suspend 在 应 用 层 ， 这 比 在 哪 一 层 
Suspend 都 要 更 佳 。 所 以 ， 完 全 可 以 利用 VSS 来 实现 一 致 性 组 的 功能 。 


然而 ， 问 题 并 未 就 此 彻底 解决 。 如 果 有 多 台 主 机 共同 连接 本 地 存 
储 系 统 ， 或 者 多 台 主 机 之 间 具 有 逻辑 相关 性 ， 那 么 如 果 只 在 其 中 一 人 台 
主机 上 实行 Suspend， 那 么 未 必 能 够 同时 保证 其 他 主机 写 IO 的 一 致 性 ， 
所 以 这 里 又 回 到 了 刚才 那个 问题 ， 即 如 何 将 所 有 主机 的 系统 时 间 做 到 
精确 同步 从 而 精确 同时 Suspend， 答 案 一 样 是 不 可 能 。 这 次 是 真 的 江 郎 
才 尽 了 么 ? 依然 尚 早 。 既 然 主 机 和 存储 都 不 能 做 到 ， 那 为 何不 在 它们 
之 间 插 入 一 个 独立 的 串 行 化 器 呢 ? 完全 可 以 的 。 交 换 机 就 是 这 个 角色 
的 最 佳 候选 者 ， 如 果 在 交换 机 上 开发 一 种 模块 专门 实现 这 个 动作 ， 并 
且 可 以 与 阵列 进行 指令 交互 ， 形 成 一 个 标准 协议 ， 那 就 是 最 好 不 过 的 
了 。 其 次 ， 虚 拟 化 存储 网 天 设备 也 同样 是 一 个 极 佳 的 角色 。 


然而 ， 目 前 针对 多 主机 间 一 致 性 组 实现 方面 ， 尚 未 有 成 型 的 产品 
出 现 。 


如 图 17-38 和 图 17-39 所 示 为 基于 交换 机 和 基于 虚拟 化 网 关 的 一 致 
性 组 实现 方式 。 


图 17-38 ”基于 FC 交换 机 的 一 致 性 组 解决 办 法 
图 17-39 ”基于 虚拟 化 网 天 的 一 致 性 组 解决 办 法 


提示 : 目前 就 作者 的 了 解 程度 范围 内 ， 很 多 人 对 数据 一 致 性 
保护 方面 的 理解 很 局 限 ， 总 认为 只 要 为 每 个 IO 打 入 时 间 戳 ， 
就 一 定 能 够 保证 数据 是 按照 先后 顺序 写 入 的 。 这 一 点 很 具有 
误导 性 。 我 们 可 以 分 析 一 下 ， 比 如 本 地 先后 发 生 了 A、B、C 
三 个 IO0， 此 时 给 它们 分 别 打 入 时 间 戳 T1、T2、T3， 然 后 通过 
链 路 发 送 到 对 端 ， 然 而 ， 在 发 送 的 过 程 中 ，A 先 被 发 出 ， 而 C 
第 二 个 被 发 出 ， 最 后 一 个 发 出 的 是 B (根据 上 文 所 述 的 异步 
复制 的 设计 思想 ， 发 生 这 种 情况 是 肯定 的 ) ， 对 端 会 分 别 先 
后 接收 到 A、C、B。 试 问 ， 此 时 远程 系统 如 何 判断 到 底 什 么 
时 候 将 这 些 数 据 写 入 呢 ? 如 果 系 统 打 算 在 接收 到 A、C 之 后 就 
写 入 ， 那 么 根据 时 间 惟 判断 ，C 在 A 后 面 ， 的 确 ， 所 以 系统 写 
入 了 A 和 C， 殊 不 知 ， 还 有 一 个 B 尚 未 被 接收 到 呢 。 如 果 B 尚 
未 收 到 之 前 链 路 断 开 或 者 本 地 灾难 ， 那 么 远程 对 应 的 数据 就 
是 不 一 致 的 了 。 有 人 说 了 ， 远 程 就 不 能 等 B 来 了 再 写 入 么 ? 
不 能 。 因 为 远程 怎么 知道 还 有 一 个 B 没 过 来 ? 有 人 又 说 了 ， 
根据 上 文 所 述 的 设计 思想 ， 本 地 会 一 批 一 批 地 将 数据 传送 
啊 ， 这 一 批 中 只 要 有 一 个 IO 没 传 成 功 ， 那 么 远程 就 会 回 滚 
啊 ! 是 啊 ， 正 是 因为 这 样 ， 那 么 是 否 还 有 必要 给 每 个 IO 打 人 入 
时 间 惟 呢 ? 打 入 了 又 有 什么 用 呢 ? 远程 必须 成 批 的 数据 一 次 
写 入 磁盘 才 可 以 保持 一 致 ， 那 又 何必 在 乎 这 一 批 IO 中 谁 先 被 
写 入 谁 后 被 写 入 呢 ? 


有 人 又 问 了 ， 我 如 果 在 本 地 系统 发 送 IO 的 时 候 严 格 按照 顺序 
发 送 ， 那 么 远程 接收 到 数据 包 之 后 ， 上 层 的 协议 ， 比 如 TCP 
或 者 FC， 也 一 定 会 按照 顺序 排列 起 来 ， 这 样 不 就 可 以 保证 每 
个 IO 都 是 按照 顺序 进入 远程 系统 的 么 ? 的确， 是 这 样 的 。 但 
是 上 文中 也 说 过 ， 在 本 地 系统 内 记录 IO 的 先后 顺序 而 且 还 要 
按照 顺序 发 送 IO ， 这 种 开销 太 大 。 再 说 了 ， 如 果 是 多 系统 协 
作 进行 一 致 性 保护 ， 你 还 这 么 设计 么 ? 单 系统 已 经 够 复杂 ， 
多 系统 你 再 去 横向 比 对 多 个 独立 系统 之 间 的 IO 谁 先 谁 后 的 
话 ， 那 就 得 不 偿 失 了 。 

经 过 以 上 的 分 析 ， 我 们 可 以 判断 ， 给 每 个 IO 打 入 时 间 戳 是 根 
本 没 必要 的 ， 多 此 一 举 。 如 果 选 择 使 用 对 IO 打 入 先后 顺序 信 
息 的 一 致 性 保障 设计 方法 的 话 ， 请 使 用 自然 数 序号 而 不 是 时 
间 戳 进行 。 


3) 设计 思想 3: IO 序号 法 
(1) 单 本 地 存储 系统 解决 办 法 


上 文 论述 了 为 何 时 间 戳 无 法 判断 单个 IO 的 先后 顺序 以 及 不 能 判断 
两 个 IO 之 间 是 否 还 有 漏 掉 的 IO。 如 果 要 从 为 每 一 个 IO 打 入 一 个 信息 以 
用 来 识别 先后 的 角度 解决 这 个 问题 ， 就 需要 找 一 种 能 够 反映 单个 IO 先 
后 顺序 并 且 还 可 以 让 接收 方 判断 出 两 个 识别 信息 之 间 是 否 还 有 其 他 识 
别 信息 未 收 到 。 很 显然 ， 这 种 识别 信息 就 是 自然 数 。 


本 地 系统 在 接收 到 每 个 写 IO 之 后 ， 为 这 个 IO 打 入 一 个 自然 数 序 
号 ， 在 初始 化 数据 同步 完成 之 后 所 接收 到 的 第 一 个 IO ， 为 其 打 入 自然 
数 1， 然 后 没 接收 一 个 再 十 1， 一 直 排 列 下 去 。 依 然 使 用 Bitmap 来 对 本 
地 卷 更 新 过 的 地 址 做 记录 ， 不 同 的 是 ， 这 个 Bitmap 中 还 需要 对 应 每 一 


位 增加 一 个 对 序号 的 记录 项 ， 当 本 地 系统 读 出 待 传送 的 数据 后 ， 根 据 
Bitmap 中 对 应 位 所 记录 的 序号 ， 将 这 个 序号 追加 在 所 传送 的 IO 数据 之 
后 。 远 程 接收 到 数据 之 后 ， 会 按照 自然 数 的 顺序 将 数据 写 入 远程 卷 ， 
比如 某 时 刻 收 到 序号 为 1024 的 IO ， 将 其 写 入 卷 中 ， 随 后 又 接收 到 了 序 
号 为 1026 的 IO ， 此 时 系统 就 会 得 知 序号 为 1025 的 IO 丢失 或 者 尚未 传送 
到 ， 系 统 会 缓存 所 有 已 经 接收 到 的 1025 之 后 的 IO 数据 ， 直 到 接收 到 
1025 号 IO， 然 后 将 这 些 数据 写 入 卷 中 。 


经 过 这 样 的 设计 ， 本 地 系统 不 再 需要 Suspend 操 作 了 ， 而 且 灾 难 之 
后 丢失 的 数据 也 较 上 一 种 实现 方式 降低 了 许多 (上 一 种 一 丢 一 整 批 ， 
也 就 是 一 整 份 Bitmap 中 的 数据 ， 这 种 则 是 只 丢失 Gap 内 的 数据 ) ， 
RPO 能 够 降低 一 些 。 但 随 之 而 来 的 则 是 Bitmap 的 庞大 、 占 用 内 存 过 
多 、IO 数 据 带 序 号 传送 耗费 了 更 多 的 网 络 带 宽 、 定 长 的 序号 一 旦 耗 尽 
需要 两 端 协商 重 置 序号 等 问题 。 而 其 中 最 为 突出 的 就 是 耗费 更 多 的 网 
络 带 宽 ， 异 步 数 据 复制 的 起 因 就 是 因为 链 路 带宽 过 低 不 能 满足 同步 复 
制 的 要 求 。 而 这 种 设计 方式 便 是 雪上 加 霜 了 ， 造 成 复制 速度 降低 ， 所 
以 ， 这 种 设计 思想 虽然 在 系统 写 IO 负 载 不 高 的 时 候 会 降低 一 些 RPO。 
但 是 在 写 负 载 非常 高 的 时 候 ， 由 于 链 路 带宽 的 额外 负担 ， 则 数据 复制 
的 Gap 会 加 大 ， 此 时 是 否 能 降低 RPO 也 就 要 综合 考虑 了 ， 搞 不 好 适 得 
其 反 。 


综 上 所 述 ， 现 在 大 部 分 厂商 都 在 使 用 第 一 种 设计 思想 。 
(2) 多 本 地 存储 系统 解决 办 法 


多 本 地 存储 系统 情况 下 ， 对 IO 序 号 法 设计 思想 来 说 就 是 一 个 梦 
厦 ， 因 为 此 时 I0 序 号 需要 在 全 局 下 保持 各 自 的 先后 ， 而 这 种 先后 顺序 
仅 靠 每 个 存储 系统 是 无 法 判断 的 。 需 要 在 一 个 上 游 设备 中 将 IO 串 行 化 


然后 编号 ， 发 送 给 存储 系统 。 这 样 做 就 需要 改变 存储 系统 前 端 ， 这 个 
工程 无 疑 是 巨大 的 ， 而 且 也 得 不 偿 失 。 


所 以 ，IO 序 号 法 目前 来 说 尚 无 实际 应 用 。 本 书 以 后 的 例子 都 基于 
第 一 种 设计 思想 来 论述 。 


(3) 数据 复制 过 程 中 的 错误 恢复 机 制 


上 文中 留 了 一 个 问题 尚未 解决 ， 即 一 旦 在 数据 复制 的 过 程 中 本 地 
发 生 灾难 或 者 链 路 出 现 问题 中 断 ， 那 么 此 时 处 于 远程 存储 系统 中 的 数 
据 几 乎 就 是 不 一 致 的 。 这 个 问题 如 何 解 决 ? 很 显然 我 们 需要 回 退 已 经 
被 复制 到 远程 站 点 的 数据 ， 存 储 系统 的 回 退 ， 我 们 立即 想到 了 快照 。 
是 的 ， 如 果 在 每 次 数据 开始 复制 之 前 ， 能 够 为 远程 存储 系统 对 应 的 卷 
制作 一 份 快照 的 话 ， 那 么 一 旦 后 来 的 复制 发 生 问题 ， 就 可 以 直接 将 对 
应 的 卷 回 滚 到 上 一 次 快照 的 时 间 点 ， 昌 然 此 时 丢失 了 数据 ， 但 是 这 是 
异步 容 灾 所 无 法 避免 的 ， 起 码 这 样 做 能 够 保证 数据 的 一 致 性 。 所 以 ， 
我 们 在 每 次 数据 被 成 功 地 复制 之 后 ， 还 需要 多 加 一 个 步骤 ， 即 为 远程 
存储 系统 制作 一 份 快照 ， 制 作成 功 后 才 会 通知 Suspender。 


对 于 多 本 地 存储 系统 的 关联 性 数据 复制 ， 在 Suspender 发 起 
Suspend 指 令 并 命令 所 有 存储 系统 开始 数据 复制 之 后 ， 一 旦 其 中 某 一 台 
存储 系统 发 生 数 据 复 制 错误 ， 或 者 干脆 这 人 台 设 备 发 生 故 障 ， 那 么 
Suspender 永 远 也 不 会 收 到 这 个 设备 返回 的 成 功 消息 了 ， 和 在 一 定 的 允许 
时 间 之 内 ，Suspender 只 要 没有 从 任何 一 台 设 备 接收 到 成 功 消 息 ， 则 便 
会 立即 向 对 应 的 所 有 远程 存储 系统 设备 发 送 命令 让 其 回 深 到 上 一 个 快 
照 时 刻 。 而 由 于 本 次 复制 并 未 成 功 ， 所 以 本 地 所 有 存储 系统 会 将 当前 
活动 Bitmap 与 新 Bitmap 〈( 即 对 应 Suspend 之 后 发 生 的 IO 的 Bitmap) 进行 
OR 操作 ， 合 并 为 一 份 活 动 Bitmap， 并 创建 一 份 新 的 空 Bitmap 以 便 为 下 


次 Suspend 之 后 作为 新 Suspend Bitmap 使 用 。 下 次 Suspend 之 后 ， 即 使 上 
次 传 了 一 半 的 数据 也 依然 需要 再 传 一 遍 ， 这 也 是 为 何 要 进行 OR 操 作 的 
原因 。 但 是 EMC 公 司 SRDF/A 的 设计 则 可 以 在 本 地 记录 上 次 传 过 的 数 
据 ， 恢 复 之 后 ， 只 传递 上 次 未 传 过 的 和 新 一 轮 Suspend 后 改变 的 。 当 然 
这 样 做 就 需要 远程 系统 暂时 不 回 滚 ， 保 持 上 次 已 经 传输 完成 的 那 部 分 
数据 ， 当 确认 本 地 站 点 由 于 某 种 原因 无 法 增 量 传输 之 后 再 回 深 。 


如 果 所 有 本 地 存储 系统 的 数据 复制 过 程 都 成 功 结束 ， 则 这 些 存储 
系统 会 通知 Suspender， 然 后 Suspender 会 向 所 有 对 应 的 远程 存储 系统 发 
送 命 令 ， 即 触发 一 份 对 应 卷 的 快照 。 快 照 成 功 后 ，Suspender 继 续 开 始 
Suspend 操 作 ， 周 而 复 始 地 将 数据 一 批 一 批 地 复制 到 远程 ， 并 且 每 次 成 
功 后 制作 快照 ， 并 删除 倒数 第 三 个 快照 〈 倒 数 第 二 份 快照 用 于 异常 情 
况 之 后 的 回 滚 ) 。 


对 于 普通 异步 复制 或 一 致 性 异步 复制 ， 系 统 Down 机 重 局 之 后 ， 将 
会 继续 进行 扫描 Bitmap 并 传送 对 应 数据 的 过 程 。 在 第 17.4.2 节 中 所 述 的 
两 个 潜在 的 Bug 一 定 要 特别 注意 。 


对 于 同步 模式 的 数据 复制 ， 错 误 恢复 过 程 就 相对 简单 了 。 比 如 某 
时 刻 链 路 突然 中 断 ， 或 者 系统 Down 机 后 重启 。 如 果 是 严格 同步 ， 那 么 
受 影响 的 应 用 程序 就 会 出 错 ， 业 务 无 法 继续 进行 。 而 此 时 可 以 人 为 干 
预 断 开 同步 复制 逻辑 Session， 重 新 启动 应 用 程序 ， 对 底层 卷 的 写 IO 不 
再 被 同步 传输 到 远程 ， 但 是 会 在 本 地 创建 一 份 新 Bitmap 用 来 记录 所 有 
在 断 开 复制 Session 之 后 本 地 卷 所 有 被 更 改过 的 数据 地 址 。 这 样 ， 在 链 
路 恢复 之 后 ， 重 新 启动 复制 逻辑 Session， 此 时 系统 就 会 根据 这 份 
Bitmap 而 只 将 变化 过 的 数据 再 次 同步 到 远程 。 以 上 过 程 可 以 预先 在 容 
灾 系 统 中 进行 设置 从 而 自动 执行 。 


3。 一 致 性 组 


说 到 这 里 ， 该 说 一 下 一 致 性 组 了 。 其 实 仔 细 看 完 前 面 的 论述 后 应 
该 就 能 体会 到 这 个 “组 ” 字 的 含义 了 。 第 一 个 含义 : 数据 是 被 一 批 一 
批 ， 或 者 一 组 一 组 地 传输 到 远程 的 ， 组 和 组 之 间 能 够 保证 先后 顺序 ， 
组 内 则 无 法 保证 ， 如 果 一 整 组 数据 完整 传 到 了 远程 ， 则 远程 的 数据 是 
一 致 的 ， 如 果 一 整 组 数据 在 传输 的 中 途 出 现 问题 ， 则 需要 将 远程 的 数 
据 回 滚 到 上 一 个 一 致 点 ， 这 个 目的 需要 用 快照 来 完成 。 第 二 个 含义 : 
多 个 独立 存储 系统 上 的 多 个 卷 组 成 一 个 整体 ， 个 体 与 个 体 之 间 必 须 保 
证 数据 按照 整体 时 间 的 先后 传输 到 对 方 ， 远 程 的 多 个 存储 系统 上 的 多 
个 卷 形 成 的 组 ， 在 整体 上 必须 保持 数据 一 致 性 。 


这 就 是 一 致 性 组 技术 。 
4. 快照 异步 复制 方法 中 的 一 致 性 保护 和 一 致 性 组 


基于 快照 的 异步 复制 ， 相 比 上 文中 的 异步 复制 设计 虽然 RPO 加 
大 ， 但 是 在 一 致 性 方面 还 是 很 不 错 的 。 比 如 在 做 快照 时 ， 可 以 通过 主 
机 端 Agent 来 将 缓存 数据 刷 入 磁盘 ， 根 据 主 机 Agent 的 作用 层次 ， 最 高 
可 以 做 到 应 用 级 的 一 致 性 ， 也 就 是 彻底 的 一 致 性 保证 。 其 次 ， 在 数据 
复制 期 间 ， 由 于 两 端 都 做 了 快照 留 底 ， 所 以 不 必 担 心中 途 链 路 中 断 等 
导致 的 目的 端 数据 时 序 不 一 致 状况 ， 一 旦 遇 到 中 断 ， 则 目的 端 回 滚 到 
最 近 的 快照 即 可 ， 随 后 择机 继续 执行 数据 复制 。 同 时 ， 在 多 主机 多 
LUN 多 存储 系统 一 致 性 组 方面 ， 更 是 没有 问题 ， 同 一 台 主 机 上 的 多 个 
LUN 需 要 一 致 性 组 保证 的 话 ， 那 么 可 以 通过 主机 上 的 Agent 来 同时 刷 这 
些 LUN 的 数据 ， 之 后 做 快照 如 果 是 多 台 主 机 的 多 个 LUN (位 于 不 同 
阵列 ) ， 也 可 以 通过 让 多 台 主 机 上 的 Agent 同 时 刷 对 应 LUN 的 数据 ， 然 


后 各 自 阵 列 做 快照 。 这 里 相当 于 主机 快照 Agent 充 当 了 上 文中 的 


SuspenderFreezer 了 。 
17.4.3 ”灾难 后 的 切换 与 回 切 同 步 过 程 


容 灾 的 目的 是 为 了 在 本 地 发 生 灾难 ， 或 者 并 未 发 生 破 坏 性 灾难 ， 
但 是 正在 遭受 长 时 间 的 断 电 ， 或 者 通风 系统 、 瘟 控 系 统 等 辅助 设施 的 
长 期 故障 ， 则 此 时 可 以 在 异地 将 业务 重新 跑 起 来 。 养 兵 干 日 ， 用 兵 一 
时 。 如 果真 的 需要 将 业务 切 到 异地 运行 ， 那 么 应 用 程序 就 一 定 需要 向 
异地 站 点 的 卷 中 写 数 据 。 而 一 旦 主 站 点 从 灾难 或 者 长 期 Outage 中 恢 
复 ， 那 么 就 需要 将 业务 再 次 回 切 到 本 地 主 站 点 执行 。 这 个 时 候 ， 就 需 
要 将 在 异地 执行 时 被 更 改过 的 数据 重新 同步 到 主 站 点 。 


对 于 同步 数据 复制 架构 下 的 切换 与 回 切 ， 处 理 过 程 也 是 相当 简单 
的 。 比 如 ， 主 站 点 在 任意 时 刻 发 生 灾难 之 后 ， 主 站 点 和 异地 站 点 对 应 
的 数据 是 绝对 相同 的 ， 在 业务 切换 到 异地 站 点 执行 之 前 ， 异 地 站 点 就 
可 以 对 所 有 受 影响 的 卷 创建 一 份 新 的 全 0 的 Bitmap ， 用 来 记录 所 有 切换 
之 后 针对 本 卷 的 写 IO 数 据 ， 被 写 过 则 将 IO 地 址 对 应 的 位 置 为 1。 在 主 
站 点 恢复 运行 之 后 ， 需 要 将 异地 站 点 变更 的 数据 Resync 到 主 站 点 ， 此 
时 异地 站 点 扫描 每 个 卷 的 Bitmap， 把 为 1 的 位 所 对 应 的 地 址 的 数据 读 取 
并 履 盖 到 主 站 点 对 应 的 卷 的 对 应 地 址 。 结 束 之 后 ， 应 用 程序 即 可 重新 
局 动 ， 恢 复 最 初 的 状态 。 


而 对 于 普通 非 一 致 性 异步 复制 过 程 ， 又 可 分 为 三 种 情况 《其 实 
三 种 情况 的 处 理 方 式 都 是 相同 的 ) 。 


一 种 情况 是 : 本 地 系统 发 生 灾难 ， 但 是 硬盘 完好 没 被 破坏 。 一 
切 活动 停止 ， 数 据 状态 永远 定格 ， 对 应 的 本 地 卷 Bitmap 也 将 定格 ， 复 


制 到 哪 算 哪 。 之 后 ， 应 用 程序 在 异地 启动 ， 启 动 之 前 ， 异 地 系统 为 每 
一 个 参与 容 灾 的 卷 创建 一 份 新 的 全 0 的 Bitmap， 然 后 开始 接受 应 用 的 写 
IO， 每 接受 一 个 ， 就 在 Bitmap 中 对 应 的 位 置 1， 然 后 将 数据 写 入 容 灾 
卷 。 当 主 站 点 恢复 之 后 ， 需 要 将 在 异地 变化 的 数据 重新 同步 Resync 回 
主 卷 ， 此 时 ， 主 站 点 首先 将 灾难 之 前 被 定格 的 Bitmap 传 送 到 异地 ， 异 
地 系统 将 这 份 主 站 的 Bitmap 与 异地 的 Bitmap 进 行 OR 操作 (至 于 为 何 要 
使 用 OR 操作 ， 读 者 可 以 自行 推导 ， 可 以 参考 第 16 章 中 卷 Clone 一 节 里 
的 算法 思想 ) 。 得 出 的 新 Bitmap 中 ， 为 1 的 位 就 表示 需要 进行 Resync 的 
数据 地 址 ， 然 后 异地 系统 读 出 对 应 数据 传送 回 主 站 ， 主 站 覆盖 之 后 ， 
方 可 再 次 创建 异步 复制 Session， 系 统 恢复 原状 ， 之 后 方 可 启动 应 用 程 
序 。 


第 二 种 情况 是 : 本 地 发 生 灾 难 ， 玉 石 俱 焚 。 那 么 没什么 好 说 的 
了 ， 应 用 程序 在 异地 启动 ， 本 地 重建 之 后 ， 购 买 全 新 设备 ， 异 地 变 为 
了 主 站 点 ， 重 建 后 的 本 地 变 为 了 容 灾 站 点 ， 数 据 重 新 被 同步 。 


第 三 种 情况 是 : 本 地 没有 发 生 整体 灾难 ， 而 只 是 对 外 网 络 链 路 全 
部 中 断 ， 包 括 数据 复制 链 路 。 此 时 业务 需要 在 异地 启动 。 之 后 的 过 和 
与 第 一 种 情况 完全 相同 。 


对 于 审 一 致 性 组 的 异步 复制 过 程 的 错误 恢复 ， 步 又 与 普通 异步 复 
制 过 程 完全 相同 ， 但 是 除了 一 点 ， 也 就 是 需要 Resync 时 ， 本 地 站 点 需 
要 将 Suspend Queue 对 应 的 Bitmap 与 活动 Bitmap 进 行 OR 操 作 后 再 发 送 给 
异地 系统 ， 异 地 系统 将 这 份 OR 之 后 的 Bitmap 再 次 与 自己 的 Bitmap 进 行 
OR 运算 之 后 才能 得 出 结果 。 


17.4.4 ”周期 性 异步 复制 与 连续 异步 复制 


从 上 文 的 分 析 可 以 看 出 ， 每 次 异步 传输 触发 之 前 ， 系 统 需要 做 很 
多 处 理 ， 包 括 生成 新 位 图 、 锁 住 对 应 的 块 或 者 生成 快照 等 。 而 这 些 后 
台 处 理 过 程 需 要 耗费 一 定 的 资源 。 系 统 可 以 使 用 两 种 模式 来 触发 异步 
同步 过 程 。 


1. 连续 异步 复制 


这 种 模式 下 ， 系 统 不 停 地 做 复制 ， 本 次 同步 完成 之 后 ， 立 即 开始 
下 一 轮 的 同步 ， 利 用 循环 位 图 及 快照 连续 不 断 地 将 数据 复制 到 远程 ， 
而 不 管 每 次 复制 耗费 多 长 时 间 ， 复 制 了 多 少数 据 。 这 种 方式 是 一 种 自 
适应 的 全 自动 方式 。 


比如 某 时 刻 系统 触发 了 复制 操作 ， 复 制 用 了 10 分 钟 完 成 ， 这 10 分 
钟 期 间 ， 源 卷发 生 了 200MB 的 变化 ， 那 么 在 历时 10 分 钟 的 同步 结束 之 
后 ， 系 统 立即 开始 对 这 200MB 数 据 的 继续 同步 ;假如 这 次 同步 过 程 用 
了 5 分 钟 ， 而 这 5 分 钟 期 间 源 卷发 生 了 100MB 的 变化 ， 然 后 系统 继续 同 
步 这 100MB 数 据 ; 用 了 2 分 钟 ， 期 间 又 产生 了 50MB 的 变化 ; 再 同步 这 
50MB 用 了 1 分 钟 。 就 这 样 一 直 往 下 收敛 ， 最 后 导致 同步 的 间隔 越 来 越 
短 ， 每 次 传输 的 数据 越 来 越 小 ， 最 后 会 达到 一 个 极端 状况 ， 即 两 次 数 
据 同步 期 间 源 卷 没有 发 生 改 变 ， 那 么 此 时 系统 会 依然 执行 相同 过 程 ， 
只 是 最 后 传输 的 时 候 发 现 位 图 都 是 0， 所 以 立即 完成 本 次 传输 ， 然 后 再 
次 触发 下 一 次 传输 ， 相 当 于 空转 ， 这 样 就 耗费 了 不 必要 的 资源 。 但 是 
却 可 以 最 大 程度 地 保证 系统 的 RPO。 


2. 周期 性 异步 复制 


这 种 模式 下 ， 系 统 严 格 按照 预先 设 定 的 时 间 间 隔 或 者 待 同步 数据 
的 积累 量 来 触发 复制 ， 比 如 每 15 分 钟 ， 或 者 每 积累 50MB 的 数据 量 。 


这 样 做 合乎 常理 ， 也 节约 系统 资源 ， 但 是 其 RPO 是 固定 的 ， 比 如 就 是 
15 分 钟 ， 或 者 50MB 的 数据 。 灾 难 发 生 之 后 ， 这 15 分 钟 内 的 数据 或 者 
这 50MB 的 数据 一 定 是 丢失 找 不 回来 的 。 


17.5 ”四 大 厂商 的 数据 容 灾 系统 方案 概述 


本 节 对 四 大 厂 丙 的 基于 存储 系统 底层 的 数据 容 灾 方案 进行 简要 介 


S| 
绍 。 


17.5.1 IBM 公 司 的 PPRC 


PPRC 其 全 称 为 Peer-to-Peer Remote Copy， 即 点 对 点 的 远程 数据 复 
制 。 它 是 IBM 用 于 其 DS 6000 和 DS 8000 中 高 端 存储 平台 上 的 一 种 远程 
数据 容 灾 软件 模块 。 这 个 名 称 只 是 一 个 统称 ， 它 其 实 包 含 了 Metro 
Mirror、Global Copy 和 Global Mirror 等 多 种 组 件 。 


Metro Mirror 方 式 是 一 种 同步 数据 复制 方式 ， 能 够 在 任何 情况 下 保 
证 数据 一 致 性 。 适 用 于 距离 较 近 并 且 链 路 带宽 足够 的 两 个 站 点 之 间 的 
复制 。 


Global Copy 方 式 则 是 一 种 不 帝 一 致 性 组 功能 的 异步 数据 复制 方 
式 ， 这 种 方式 不 能 保证 数据 的 一 致 性 。 适 用 于 距离 较 远 而 且 链 路 带宽 
很 低 的 情况 下 的 数据 复制 。 它 的 数据 复制 方式 与 17.4.2 一 节 中 描述 的 相 
同 。 


Global Mirror 则 是 一 种 带 有 一 致 性 组 保证 技术 的 异步 数据 复制 方 
式 ， 可 以 保证 在 单 存 储 系统 的 严格 数据 一 致 性 ， 底 层 也 是 使 用 双 循 环 
位 图 法 。 但 是 对 于 多 存储 系统 ， 不 能 严格 保证 数据 一 致 性 ，Global 
Copy 只 是 使 用 了 多 存储 系统 时 间 同 步 ， 然 后 同一 时 间 Suspend 的 模式 


进行 数据 一 致 性 的 大 致 保障 的 ， 如 果 系 统 IOPS 超 过 了 时 间 精 确 级 别 ， 
那么 依然 不 能 保证 单个 IO 级 别 的 一 致 性 。 


在 多 存储 系统 架构 下 ， 用 户 需 要 指定 其 中 一 台 为 Master， 其 他 参 
与 一 致 性 组 的 系统 都 为 Subordinate。 Master 负 责 同 步 全 局 系统 时 间 和 
发 送 全 局 指令 从 而 命令 其 他 设备 执行 Suspend。 当 所 有 系统 成 功 完成 本 
次 Suspend 和 数据 传输 之 后 ，Master 还 负责 向 远程 关联 的 所 有 存储 系统 
发 送 措 令 ， 命 令 这 些 远程 存储 系统 对 相应 的 卷 做 一 次 Snapshot。IBM 
的 Snapshot 产 品名 称 为 “FlashCopy”， 这 个 名 字 具 有 一 定 的 迷惑 性 ， 中 
译名 “ 闪 速 复制 *"， 其 实 闪 速 的 只 是 创建 了 一 份 地 址 映射 表 而 已 ， 数 据 
并 未 被 全 部 复制 。FlashCopy 在 执行 的 时 候 有 个 选项 叫做 “NOCOPY”， 
这 个 选项 控制 着 Snapshot 生 成 后 的 行为 ， 如 果 被 设置 为 NOCOPY 模 
式 ， 则 系统 只 保存 地 址 映射 表 和 被 CoFW 出 来 的 数据 ;而 如 果 选 择 了 
COPY 模 式 ， 则 系统 会 像 Clone Split 一 样 将 共享 数据 块 全 部 复制 出 来 ， 
加 上 CoFW 的 数据 块 共同 在 一 个 新 的 存储 空间 形成 一 份 与 源 卷 对 应 时 
刻 一 致 的 物理 卷 复制 。 


PPRC 可 以 实现 两 地 三 中 心 的 容 灾 架构 。 站 点 A 与 站 点 B 处 于 同城 
距离 范围 内 ， 使 用 Metro Mirror 进 行 同步 数据 复制 。 站 点 B 再 与 位 于 异 
地 远 距 离 范 围 的 站 点 C 之 间 进 行 Global Mirror 带 有 一 致 性 组 的 异步 数据 
复制 。 


17.5.2 EMC 公司 的 MirrorView、SanCopy 和 SRDF 


1. MirrorView 


MirrorView 是 专用 于 Clariion 存 储 系统 平台 上 的 远程 卷 镜像 软件 模 
块 。 分 为 MirrorView/S 和 MirrorView/A 两 种 模式 ， 前 者 为 同步 镜像 模 


式 ， 后 者 为 异步 镜像 模式 。 前 者 没什么 好 说 的 ， 各 家 实现 方式 都 一 
样 。MirrorView/A 底 层 使 用 了 双 循 环 位 图 法 十 Snapview 来 保证 时 序 一 
致 性 。 


MirrorView/A 只 支持 单 存 储 系 统 中 多 个 卷 的 一 致 性 组 。 而 IBM 
PPRC 则 支持 多 独立 系统 中 多 个 卷 的 一 致 性 组 。 


2. Sancopy 


Sancopy 其 实 是 一 个 Snapshot Replicator。 也 就 是 说 ， 它 运行 于 存储 
设备 中 ， 专 门将 本 存储 系统 的 某 个 指定 的 源 卷 的 某 个 指定 的 
Snapshot， 直 接 通 过 后 端 存储 网 络 复制 到 另外 一 台 或 者 多 台 存 储 系 统 
的 指定 的 卷 中 。 由 于 Sancopy 是 复制 的 快照 ， 需 要 调用 Snapview 来 实现 
快照 的 生成 ， 所 以 ，Sancopy 的 源 卷 只 能 位 于 Clariion 平 台 存 储 系统 
上 ，Sancopy 软 件 自身 也 只 能 安装 并 运行 在 Clariion 平 台 上 。 而 复制 的 
目的 卷 可 以 位 于 Clariion、Symmetrix DMX 以 及 其 他 经 过 认证 的 第 三 方 
存储 系统 中 ， 比 如 IBM、HP、HDS 等 。 支 持 单 台 存储 系统 的 一 致 性 
组 ， 即 在 Suspend 后 对 多 个 源 卷 同时 制作 快照 并 且 复 制 。 经 过 第 一 次 初 
始 化 复制 之 后 ， 通 过 不 断 地 对 源 卷 制作 快照 并 且 比 对 前 后 两 次 快照 之 
间 的 变化 数据 地 址 从 而 实现 增 量 的 数据 传输 。 在 初始 化 传输 时 ， 由 于 
需要 将 源 卷 所 有 数据 首先 同步 到 目的 卷 ， 所 以 要 求 源 卷 在 这 期 间 不 能 
有 写 IO 发 生 。 从 技术 角度 来 讲 ， 实 现 允 许 源 卷 写 IO 的 初始 化 传输 是 没 
有 问题 的 ， 制 作 一 份 对 源 卷 的 初始 快照 并 且 传输 到 目的 卷 ， 此 后 逐渐 
生成 快照 做 增 量 传输 ， 慢 慢 达 到 Catchup 状 态 ， 这 种 做 法 理论 上 讲 没 有 
问题 。 但 是 Sancopy 目 身 无 法 做 到 ， 必 须 依 附 于 Snapview/snap 或 者 
Snapview/Clone 来 做 到 。 


Sancopy 支 持 远程 复制 ， 支 持 通过 iSCSI 协议 复制 。Sancopy 本 质 上 
就 是 把 源 卷 所 在 的 存储 系统 作为 一 个 mitiator， 目 的 卷 所 在 的 存储 原本 
就 是 Target， 这 样 Sancopy 所 在 的 存储 系统 就 会 识别 并 且 挂 载 目的 卷 到 
本 地 ， 然 后 将 本 地 源 卷 的 某 个 Snapshot 直 接 像 主 机 访问 Target 一 样 复 制 | 
到 目的 卷 ， 之 后 再 做 增 量 复制 。 所 以 这 种 模式 下 ，Target 端 无 须 做 任何 
变化 ，Target 此 时 就 当 Sancopy 端 的 存储 系统 为 主机 。 


正 因 为 本 质 上 就 是 mitiator-Target 关 系 ， 所 以 Sancopy 也 支持 将 产 卷 
某 个 快照 复制 到 一 个 比 源 卷 更 大 的 目的 卷 。 目 的 卷 比 源 卷 多 出 来 的 容 
量 在 物理 上 是 追加 到 了 源 卷 的 尾部 。 


Sancopy 其 实 与 MirrorView/A 在 底层 设计 有 很 多 都 是 相同 的 ， 都 是 
基于 Snapshot Catchup 模式 而 且 都 需要 调用 Snapshotsnap 。 只 不 过 
Sancopy 是 直接 以 Initiator-Target 模 式 工作 ， 所 以 可 以 复制 到 众多 第 三 方 
存储 卷 ; 而 MirrorView 需 要 源 和 目的 双方 都 运行 MirrorView 的 进程 ， 
不 是 通用 的 SCSI Initiator-Target 模 式 ， 所 以 其 只 支持 Clariion 之 间 的 互 
相 Mirror。 


3. SRDF 


1) SRDF/Synchronous (SRDEF/S) 


这 是 同步 数据 复制 ， 没 哈 好 说 的 ， 全 世界 的 厂家 都 是 一 样 的 实现 
方式 。 


2) SRDF/Asynchronous (SRDF/A) 


这 是 带 一 致 性 保障 的 异步 数据 复制 模式 。SRDF/A 的 设计 模式 大 致 
思想 与 上 文 介绍 的 无 异 。 同 样 是 数据 批量 传送 ，Suspend 后 形成 一 批 ， 


然后 等 待 传输 。 如 图 17-40 所 示 ， 系 统 Suspend 之 后 的 所 有 IO 在 图 中 就 
是 Capture N， 对 应 前 文中 的 Suspend Queue; 当前 正在 传输 的 数据 对 应 
中 的 Transmit N-1; 远程 正在 接收 的 数据 批 ， 对 应 图 中 的 Recive N- 
1; 远程 已 经 接收 成 功 的 数据 批 ， 正 要 将 其 写 入 磁盘 ， 对 应 图 中 的 
Apply N-2。 


图 17-40 “异步 SRD 


注意 : 为 何在 远程 站 点 ， 数 据 不 是 一 边 接收 一 边 被 写 入 磁盘 
呢 ? 因 为 SRDF/A 没 有 用 到 任何 快照 技术 来 照 下 远程 站 扣 的 一 
致 性 状态 ， 与 前 几 节 的 设计 思想 是 不 同 的 。 所 以 ， 只 能 利用 
数据 库 所 常用 的 Two Phase Commit 思 想来 做 ， 即 接收 到 的 数 
据 批 ， 首 先 写 到 一 个 额外 的 存储 空间 ， 确 保 整 批 数据 都 接收 
到 了 ， 然 后 再 一 次 性 写 入 磁盘 。 在 写 入 的 过 程 中 ， 也 需要 再 
记录 一 个 日 志 ， 因 为 一 旦 在 写 入 过 程 中 系统 发 生 Down 机 等 异 
常情 况 ， 重 启 后 还 可 以 追溯 这 个 日 志 以 便 了 解 上 一 次 成 功 写 
到 哪里 了 ， 然 后 继续 从 断 点 处 开始 写 。 


SRDF/A 与 前 几 节 介绍 的 实现 方法 还 有 其 他 一 些 不 同 ， 下 面 就 追加 
介绍 一 下 这 些 不 同 之 处 。 首 先 ， 主 站 点 复制 引擎 接收 到 针对 源 卷 的 写 
IO 数据 之 后 ， 在 这 些 数据 没有 被 复制 到 远程 之 前 ， 都 会 驻 留 于 内 存 等 
待 传输 〈 根 据 多 种 事实 推断 ，SRDF/A 没 有 利用 Bitmap 作 为 设计 思想 ， 
这 一 点 只 是 推断 ， 但 是 无 法 确定 ) 。 这 种 设计 实在 不 太 划 算 ， 虽 然 能 
够 节省 一 些 磁盘 读 IO 操 作 ， 但 是 也 浪费 了 大 量 的 缓存 稀缺 资源 。 


果不其然 ， 这 种 设计 模式 最 终 导 致 其 不 得 不 考虑 缓存 溢出 的 情 
况 ， 所 以 又 开发 了 一 些 补救 措施 。 比 如 ， 一 种 叫做 Write Folding 的 技 
术 ， 如 果 某 个 写 IO 是 针对 之 前 已 经 写 过 的 地 址 再 次 写 ， 而 之 前 的 写 IO 


数据 尚未 被 复制 到 远程 ， 那 么 系统 就 不 复制 原来 的 写 IO 了 转 而 只 复制 
新 的 写 IO (这 一 点 如 果 利 用 Bitmap 来 实现 的 话 是 自然 就 可 以 实现 的 ， 
所 以 再 次 推断 SRDEF/A 没 有 用 Bitmap 实 现 ) 。 


再 严重 一 些 ， 见 势 不 妙 的 时 候 ， 就 提高 对 主机 写 IO 的 响应 时 间 以 
降低 主机 端 写 IO 的 频率 (Write Pacing) ， 其 次 ， 如 果 这 招 都 不 好 用 
了 ， 眼 看 缓存 将 满 ， 那 么 还 可 以 将 缓存 中 的 一 些 数 据 destage 到 磁盘 ， 
相当 于 page/swap ， 以 腾 出 一 些 空间 (Delta Set Extension) 。 这 样 的 
话 ， 最 终 还 是 要 多 耗费 磁盘 读 了 ， 而 且 是 先 耗 费 了 缓存 资源 ， 可 谓 是 
赔 了 夫人 又 折 兵 ， 还 给 主机 故意 提高 响应 时 间 。 其 次 ， 还 有 一 点 不 同 
之 处 ， 这 一 点 是 个 优点 。 即 上 文中 曾经 提 到 过 的 ， 在 遇 到 传输 错误 、 
链 路 异常 等 情况 时 ， 再 次 传输 时 ，SRDF/A 可 以 只 传输 上 次 传输 中 未 完 
成 的 部 分 。 


以 上 为 本 地 单 存储 环境 ， 实 现 一 致 性 组 较为 容易 。 虽 然 SRDF/A 也 
是 支持 本 地 多 存储 系统 下 的 一 致 性 保障 的 ， 然 而 ， 根 据 推断 ，SRDF/A 
与 1BM Global Mirror 一 样 ， 也 不 能 实现 单个 IO 级 别 的 一 致 性 。SRDEF/A 
与 IBM Global Mirror 有 一 点 不 同 ， 即 前 者 是 将 Commander 放 置 于 主机 
端 而 不 是 本 地 存储 系统 中 的 一 台 。 让 人 费解 的 是 ， 既 然 已 经 涉及 到 了 
主机 的 参与 ， 那 么 为 何不 在 主机 端 一 并 实现 Serializer 和 Suspender 的 功 
能 呢 ? 这 一 点 根据 现 有 的 资料 判断 无 法 判断 。 


至 于 多 主机 环境 下 的 一 致 性 组 ， 更 是 无 法 支持 了 ， 目 前 似乎 没有 
厂家 支持 这 么 高 级 别 的 一 致 性 组 保证 。 


17.5.3 ”HDS 公司 的 Truecopy 


Truecopy 也 分 为 Synchronous 模 式 和 Asynchronous 模 式 。 同 步 模式 
没什么 可 说 的 。 异 步 模式 也 是 使 用 批量 传输 法 保证 数据 一 致 性 ， 底 层 
设计 细节 不 再 莹 述 。 


17.5.4 ” NetApp 公司 的 Snapmirror 


Snapmirror 也 分 为 同步 和 异步 模式 。 在 异步 模式 下 ，Snapmirror 针 
对 源 卷 每 隔 一 段 时 间 做 一 次 快照 ， 通 过 比 对 两 次 Snapshot 的 变化 数据 
地 址 ， 从 而 将 这 些 变化 的 数据 传输 到 远程 存储 系统 对 应 的 卷 中 。 这 种 
思想 的 本 质 其 实 也 是 批量 传送 ， 对 产 卷 的 Snapshot 就 相当 于 一 次 
Suspend， 比 对 两 份 快照 的 变化 数据 地 址 ， 就 相当 于 记录 Bitmap。 


对 于 多 台独 立 存 储 系统 之 间 一 致 性 组 保证 方面 ，NetApp 是 基于 主 
机 VSS 实 现 的 。 其 Snapmanager 产 品 (与 EMC 的 Replication Manager 类 
似 ) ， 作 为 一 个 Requestor 向 VSS 发送 快照 请 求 ，VSS 将 Suspend 对 应 的 
应 用 程序 的 IO ， 这 样 ， 不 管 这 个 应 用 程序 需要 读 写 的 卷 分 布 于 单个 存 
储 系统 还 是 多 个 存储 系统 ， 所 有 的 系统 都 有 足够 的 时 间 来 对 相应 的 卷 
进行 快照 操作 。 作 为 VSS 的 Provider ，Snapdriver 作 为 快照 代理 ， 将 向 
所 有 对 应 的 存储 系统 发 起 快照 请 求 。 快 照 完 成 后 ，Snapmanger 可 以 调 
用 Snapmirror 对 变化 的 数据 进行 传输 。 针 对 多 主机 之 间 的 一 致 性 组 实 
现 ， 尚 未 有 解决 方案 。 


对 于 同步 模式 ，Snapmirror 是 利用 Catchup 模 式 实现 的 。Snapmirror 
首先 进入 异步 模式 ， 即 数据 复制 的 Session 建 立 之 后 ， 了 立即 生成 首次 快 
照 ， 然 后 初次 数据 传递 过 程 需要 传递 源 卷 上 所 有 被 这 份 Snapshot 所 占 
用 的 数据 ， 需 要 比较 长 的 时 间 。 传 完 后 再 次 做 Snapshot， 比 对 两 次 
Snapshot 中 变化 的 数据 地 址 ， 再 次 同步 。 就 这 样 一 直 进 行 下 去 ， 当 达 
到 一 定 的 Gap 阅 值 时 ， 系 统 进入 同步 复制 阶段 ， 针 对 源 卷 的 每 一 个 写 


IO 在 进入 本 地 日 志 链 后 立即 同步 到 远程 ， 远 程 系统 接收 到 写 IO 之 后 ， 
先 将 其 存放 于 Vol0 下 面 的 日 志 链 文件 中 ， 然 后 在 后 台 将 日 志 读 出 重 
放 ， 从 而 写 入 对 应 的 卷 。 


提示 : 由 于 WAFL 的 快照 方式 与 其 他 厂商 的 常规 设计 不 同 ， 
所 以 在 比 对 两 份 Snapshot 的 时 候 并 不 是 按照 本 书 第 16 章 中 介 
绍 的 机 制 进行 的 。 


WAFL 的 每 份 Snapshot 其 实 就 是 一 份 真实 的 文件 系统 MetaData 
Tree。 这 个 Tree 中 记录 了 整个 物理 存储 空间 的 Bitmap，AFS 以 及 每 个 
Snapshot 都 会 有 自己 的 Bitmap， 通 过 下 列 规 则 比 对 两 份 Bitmap 即 可 得 
出 变化 的 数据 地 址 。 


= 规则 1: 后 面 的 Bitmap 中 为 1 的 但 是 前 面 Bitmap 中 为 0 的 位 ， 则 表 
明 这 个 地 址 对 应 的 数据 发 生 了 更 改 。 

规则 2: 后 面 Bitmap 中 为 1 并 且 前 面 Bitmap 中 也 为 1 的 位 ， 表 明了 这 
个 地 址 对 应 的 数据 是 两 份 Snapshot 共 用 的 ， 一 定 也 没有 变化 
规则 3: 绝对 不 可 能 存在 后 面 Bitmap 中 为 0 而 前 面 Bitmap 中 为 1 的 
数据 。 因 为 WAF1 从 来 不 覆盖 正在 被 某 Snapshot 占 用 的 数据 。 


虽然 EMC 的 MirrorView 也 同样 是 采用 比 对 快照 的 方式 进行 数据 复 
制 ， 但 是 其 本 质 上 有 区 别 。NetApp 在 数据 复制 到 远程 之 后 ， 快 照 也 就 
自然 而 然 地 生成 了 ， 因 为 WAFI 的 快照 本 身 就 是 一 个 卷 的 全 部 内 容 ， 而 
传统 的 Snapshot， 源 卷 是 源 卷 ， 相 关 的 映射 表 和 其 他 元 数据 等 都 存在 
于 源 卷 额外 的 存储 空间 ， 即 这 些 映射 表 里 记 录 的 是 源 卷 的 数据 变化 而 
不 是 记录 自己 所 占用 空间 的 变化 ， 更 不 会 将 自己 占用 的 空间 的 数据 变 
更 同步 到 远程 ， 所 以 EMC 的 MirrorView 在 同步 完 一 批 数据 之 后 需要 在 


远程 系统 创建 一 份 快 照 。 而 WAFI 在 同步 完 一 批 数据 之 后 ， 只 需要 进行 
一 个 叫做 “Jump Ahead” 的 操作 即 可 ， 即 ， 将 容 灾 卷 上 的 AFS 入口 指针 
指向 最 新 的 Snapshot 入 口 指 针 ， 并 且 删 除 前 一 份 Snapshot。 当 然 这 份 
Snapshot 就 是 刚 被 同步 过 来 的 数据 所 自然 形成 的 而 不 是 待 同步 完成 后 
期 制作 的 。 


提示 : 利用 比 对 快照 方式 进行 异步 数据 传送 的 设计 模式 的 一 
个 好 处 就 是 不 用 为 错误 恢复 机 制 而 额外 设计 复杂 的 流程 。 一 
旦 发 生 Down 机 或 者 灾难 ， 容 灾 站 点 只 需要 Rollback 到 上 一 个 
Snapshot 即 可 ， 主 站 点 重启 之 后 立刻 就 可 以 接受 IO， 无 须 做 
任何 前 处 理 。 关 于 比 对 Snapshot 的 具体 技术 细节 实现 原理 请 
参考 本 书 第 16 章 的 有 关内 容 。 


17.6 ”生产 者 的 容 灾 一 一 服务 器 应 用 程序 的 容 灾 


IT 系统 的 生产 者 ， 也 就 是 各 种 服务 器 上 运行 的 应 用 程序 。 军 无 疑 
问 ， 主 站 点 发 生 故 障 ， 必 须要 在 备份 站 点 重新 运行 这 些 应 用 程序 。 我 
们 是 否 可 以 在 备份 站 点 预备 应 用 程序 的 安装 文件 ， 发 生 故 障 后 ， 在 备 
份 站 点 服务 器 上 安装 配置 这 些 应 用 程序 呢 ? 


这 么 做 虽然 可 行 ， 但 是 一 些 较为 复杂 的 应 用 程序 ， 安 装 和 配置 要 
花费 大 量 的 时 间 ， 比 如 SAP 企 业 REP 系 统 的 安装 ， 可 能 需要 一 天 的 时 
间 ， 再 加 上 不 可 预料 的 因素 ， 耗 时 可 能 更 长 。 如 果 没 有 预先 安 妆 配置 
好 这 些 应 用 程序 ， 未 雨 绸 缩 ， 则 事故 发 生 的 时 候 ， 企 业 就 需要 忍受 停 
机 所 市 来 的 损失 了 。 


17.6.1 生产 者 容 灾 概述 


我 们 必须 将 应 用 程序 在 备份 站 点 预先 安装 并 且 配 置 好 ， 但 是 不 能 
让 它们 处 于 工作 状态 ， 应 当时 刻 保证 同一 时 刻 只 有 一 个 站 点 的 生产 者 
在 生产 ， 因 为 IT 系统 生产 出 来 的 产品 是 具有 一 致 性 的 数据 ， 而 且 效 据 
是 有 时 效 的 ， 具 有 上 下 文联 系 的 。IT 生 产 是 一 个 连续 的 数据 处 理 过 
程 ， 一 旦 中 途 产 生 数 据 不 一 致 性 ， 就 需要 恢复 数据 到 某 个 一 致 的 时 
刻 ， 然 后 从 这 个 时 刻 继续 生产 。 而 不 像 实 物 生 产 那 样 ， 产 品 是 一 件 件 
的 物品 ， 都 具有 相同 的 属性 。 所 以 保证 同一 时 刻 ， 整 个 IT 系统 只 有 一 
个 站 点 的 生产 者 处 理 同一 份 数据 ， 这 一 点 非常 重要 。 


然而 ， 既 要 求 两 个 站 点 同一 时 刻 只 能 有 一 个 站 点 的 生产 者 处 理 一 
份 数据 ， 又 要 求 当 生 产 站 点 发 生 事故 的 时 候 ， 备 份 站 点 的 生产 者 立即 
启动 ， 接 着 处 理 备份 站 点 经 过 主 站 点 数据 同步 过 来 的 数据 。 要 做 到 这 
一 点 ， 就 需要 让 备份 站 点 的 应 用 程序 感知 到 主 站 点 应 用 程序 的 状态 ， 
一 旦 检测 到 主 站 点 应 用 程序 故障 ， 则 备份 站 点 应 用 程序 立即 启动 ， 开 
始 生产 。 


第 16 章 曾经 说 过 高 可 用 性 群集 ， 而 在 容 灾 技术 领域 中 ， 群 集 的 概 
念 扩大 到 了 很 远 的 范围 ， 备 份 站 点 与 主 站 点 可 能 不 在 同一 机 房 中 而 在 
相隔 很 远 的 两 座 建筑 物 里 ， 甚 至 两 个 城市 中 。 这 样 ， 备 份 应 用 程序 就 
要 跨越 很 远 的 距离 与 主 应 用 程序 通信 来 交换 状态 。 由 于 应 用 程序 运行 
状态 数据 ， 相 对 于 其 处 理 的 数据 来 说 ， 数 据 量 是 很 小 的 ， 所 以 即使 是 
跨越 广域网 通信 ， 也 不 必 担 心 延 迟 太 大 。 如 果 是 通过 广域网 连接 两 个 
站 点 的 前 端 网 络 ， 则 最 好 使 用 专 绪 连接 ; 如 果 是 基于 Internet 的 VPN 连 
接 ， 虽然 可 以 获得 高 带宽 /价格 比 ， 但 是 延迟 无 法 保证 最 小 ， 除 非 购买 
电信 部 门 提供 的 QOS 服务 。 


类 似 HACMP、MSCS 这 种 HA 软件 ， 都 是 使 用 共享 存储 的 方式 来 
作用 的 ， 即 HA 系统 中 的 所 有 节点 ， 共 享 同 一 份 物 理 存 储 ， 不 管 某 时 刻 


由 谁 来 操作 处 理 这 些 数 据 ， 最 终 的 数据 只 有 一 份 ， 而 且 是 一 致 的 、 具 
有 上 下 文 逻 辑 关系 的 。 而 远程 异地 容 灾 系 统 中 ， 数 据 在 主 站 点 和 备份 
站 点 各 有 一 份 ， 而 且 必 须 保证 两 边 数 据 的 同步 。 


生产 的 时 候 ， 必 须 以 一 边 数 据 为 准 ， 另 一 边 与 之 同步 ， 绝 对 不 能 
发 生 两 边 同 时 进行 生产 的 情况 ， 除 非 两 边 生 产 者 处 理 的 是 两 份 逻辑 上 
无 任何 关联 的 数据 。 所 以 ， 远 程 容 灾 系统 所 要 关注 的 有 两 个 重要 因 
素 ， 即 生产 者 和 生产 资料 。 只 要 生产 资料 在 主 站 和 备 站 完全 同步 ， 那 
么 就 可 以 逻辑 上 认为 ， 数 据 只 有 一 份 ， 备 站 的 数据 是 主 站 的 镜像 ， 平 
时 虚无 绿 织 不 可 用 ; 但 是 一 旦 主 站 发 生 故 障 ， 备 站 的 镜像 立即 成 为 实 
实在 在 可 用 的 数据 ， 同 时 ， 生 产 者 在 备 站 启动 生产 ， 处 理 数 据 。 这 就 


人 有 


是 异地 容 灾 。 


然而 ， 传 统 的 基于 共享 存储 模式 的 HA 软件 ， 不 适用 于 异地 容 灾 系 
统 ， 因 为 共享 存储 模式 的 HA 软件 ， 是 基于 资源 切换 为 基础 的 ， 它 把 各 
个 组 件 都 看 成 是 资源 ， 比 如 应 用 程序 、 卫 地 址 、 主 机 名 、 应 用 所 要 访 
问 的 存储 卷 等 。 发 生 故 障 时 ， 备 份 机 HA 软件 检测 到 对 方 的 故障 ， 然 后 
强行 将 这 些 资源 迁移 到 本 地 。 比 如 ， 在 备份 机 修改 相应 网 卡 的 IP 地 
址 ， 并 发 出 ARP 广 播 来 刷新 所 有 本 广 域 内 的 客户 端 以 及 本 地 网 天 设备 
所 保存 的 ARP 了 映射 记录 ， 以 让 所 有 网 络 上 的 终端 获知 此 耻 对 应 的 新 
MAC 地 址 ， 修 改 主机 名 映射 文件 《Host 文件 ) ， 挂 载 共 享 存储 设备 上 
的 卷 ， 最 后 启动 备份 应 用 系统 。 


应 用 系统 可 以 访问 已 经 强行 挂 载 的 共享 卷 而 存 取 数据 ， 客 户 端 可 
以 继续 使 用 原来 的 IP 地 址 来 访问 服务 器 上 运行 的 应 用 程序 ， 因 为 这 个 
IP 已 经 由 故障 的 计算 机 转移 到 了 备份 计算 机 ， 这 样 ， 生 产 就 可 以 继续 
进行 了 。 要 保证 生产 者 在 切换 之 后 生产 可 以 继续 ， 则 必须 先 保证 生产 


者 所 依赖 的 所 有 条 件 已 经 切换 成 功 ， 这 些 条 件 包括 IP 地 址 〈 非 必需 ) 
和 卷 等 。 


1。 本 地 容 灾 系统 中 的 两 种 存储 模式 


本 地 HA 系统 中 ， 多 个 节 点 如 果 共 同 拥有 同一 个 或 者 同 几 个 卷 ， 但 
是 同一 时 刻 只 有 活动 节点 才 挂 载 该 卷 进行 1O 读 瑟 ， 这 种 模式 就 叫做 共 
享 存储 模式 。 即 HA 系统 中 的 每 个 节点 都 拥有 同一 份 存储 卷 ， 只 不 过 不 
活动 的 节点 不 对 其 进行 挂 载 并 1O。 


如 果 HA 系 统 中 每 个 节点 都 有 自己 独占 的 存储 卷 ， 这 些 卷 除了 拥有 
者 可 以 读 写 之 外 ， 任 何 情况 下 ， 其 他 节点 都 不 能 读 写 ， 数 据 的 共享 是 
通过 同步 复制 技术 同步 到 所 有 节点 上 的 存储 卷 中 的 ， 这 种 方式 就 叫做 
Share-Nothing 模 式 。 即 HA 系统 中 的 所 有 节点 之 间 不 共享 任何 东西 ， 所 
有 元 素 都 是 独 享 的 ， 甚 至 网 络 地 址 都 是 各 用 各 的 。 数 据 存在 多 份 ， 每 
个 节点 一 份 ， 节 点 之 间 通 过 同步 复制 技术 来 同步 数据 ， 某 节点 发 生 故 
障 之 后 ， 这 个 节点 对 应 的 备份 节点 直接 启动 应 用 程序 ， 由 于 之 前 数据 
已 经 在 所 有 节点 上 同步 ， 所 以 此 时 数据 是 完整 一 致 的 。 由 于 Share- 
Nothing 模 式 下 ， 不 存在 任何 的 “接管 >， 所 以 此 时 客户 端 需要 感知 到 服 
务 端 群集 的 这 种 切换 动作 ， 并 通过 客户 端 手动 或 者 自动 切换 配置 以 便 
连接 新 服务 器 。 表 17-3 对 比 了 HA 的 两 种 存储 模式 。 


表 17-3 ”HA 群集 中 两 种 存储 模式 的 对 比 


。 数 据 本 身 是 否 容 灾 
共享 存储 模式 下 ， 容 灾 系统 的 各 个 节点 共享 同一 份 数据 。 如 果 
这 份 数 据 发 生 损坏 ， 则 必须 用 备份 镜像 加 以 还 原 ， 而 且 需 要 承 
受 停机 带 来 的 损失 。 而 Share-Nothing 模 式 下 ， 系 统 中 每 个 节点 


都 有 自己 的 数据 复制 ， 如 果 其 中 一 份 数据 被 破坏 ， 系 统 可 以 切 
换 到 另外 的 节点 ， 不 影响 应 用 ， 不 需要 停机 ， 被 损坏 的 数据 可 
以 在 任何 时 候 加 以 还 原 修 复 ， 并 且 修 复 后 的 节点 可 以 再 次 加 入 
容 灾 系统 。 

软 人 硬件 成 本 

共享 存储 模式 下 ， 由 于 各 个 节点 需要 共享 一 份 存储 数据 ， 所 以 
需要 外 接 的 磁盘 阵列 系统 ， 而 且 为 了 保证 数据 访问 速度 ， 外 接 
存储 系统 必须 自身 实现 RAID 机 制 ， 主 机 上 也 需要 安装 连接 盘 阵 
的 适配器 。 这 样 就 增加 了 整个 系统 的 成 本 。Share-Nothing 模 式 
下 ， 各 个 节点 自身 保存 各 自 的 数据 ， 而 不 必 使 用 外 接 存 储 系 
统 。 另 外 ， 共 享 存储 模式 还 需要 额外 的 HA 软件 及 额外 的 成 本 ， 
而 Share-Nothing 模 式 不 需要 。 

前 端 网 络 资源 耗费 

共享 存储 模式 下 ， 各 个 节点 之 间 交 互信 息 一 般 通 过 以 太 网 络 ， 
而 存储 数据 通过 后 端 存 储 网 络 。 由 于 各 个 节点 在 前 端 网 络 上 只 
传输 控制 数据 ， 所 以 对 前 端 以 太 网 络 资源 的 耗费 相对 较 低 。 而 
Share-Nothing 模 式 下 ， 由 于 各 个 节点 之 间 的 数据 同步 完全 通过 
前 端 网 络 ， 所 以 对 前 端 网 络 资源 耗费 相对 较 高 ， 适 合 局 域 网 环 
境 。 

管理 难度 

共享 存储 模式 下 ， 不 但 需要 管理 节点 间 的 交互 配置 ， 还 需要 管 
理 外 部 存储 系统 ， 增 加 了 管理 难度 。Share-Nothing 模 式 下 ， 只 
需要 管理 各 个 节点 间 的 交互 配置 即 可 。 

是 否 需 要 停机 

共享 存储 模式 下 ， 由 于 需要 将 数据 从 单机 环境 转移 到 共享 存储 
环境 供 其 他 节点 使 用 ， 往 往 需 要 停机 来 保证 数据 的 一 致 性 。 而 
Share-Nothing 模 式 下 ， 数 据 同步 是 动态 的 ， 不 需要 停机 。 


实现 复杂 程度 

首先 ， 共 享 存储 模式 下 ， 有 三 种 基本 元 素 : 节点 、 节 点 间 交 
互 、 共 享 数据 。 而 Share-Nothing 模 式 下 ， 只 有 两 种 元 素 : 节 
点 、 节 点 间 交 互 。 其 次 ， 如 果 使 用 共享 存储 模式 做 容 灾 ， 需 
将 数据 移动 到 共享 存储 上 ， 增 加 额外 的 工作 量 、 时 间 和 不 可 控 
因素 。 

是 否 需要 第 三 方 软件 

共享 存储 模式 下 ， 备 份 节点 需要 通过 第 三 方 软件 来 监控 主 节点 
的 状态 ， 在 发 生 故 障 的 时 候 主 动 接管 资源 ， 比 如 各 种 操作 系统 
提供 的 HA 软件 (HACMP、MSCS、SUN Cluster 等 ) 。 Share- 
Nothing 模 式 下 不 需要 任何 第 三 方 软件 参与 。 

故障 因素 数量 

共享 存储 模式 下 ， 如 果 出 现 容 灾 系统 本 身 的 功能 故障 ， 需 要 在 
操作 系统 、 应 用 程序 、HA 软 件 三 个 方面 排查 故障 。 Share- 
Nothing 模 式 下 ， 只 需要 在 操作 系统 、 应 用 程序 二 者 之 间 排 查 故 


障 。 


2. 异地 容 灾 系 统 中 的 中 切换 


生 异 地 容 灾 系统 中 ， 主 服务 器 和 备份 服务 器 不 太 可 能 在 一 个 广播 
域 中 ， 一 般 都 是 通过 网 关 设 备 来 转发 之 间 通 信 的 IP 包 ， 所 以 不 可 能 
所 谓 资源 切换 的 方式 来 切换 IP 地 址 。 如 果 想 对 客户 端 透明 ， 即 客户 端 
可 以 无 须 感知 故障 的 发 生 ， 继 续 使 用 原来 的 IP 地 址 来 连接 备份 服务 
器 ， 那 么 就 需要 在 网 络 路 由 设备 上 做 文章 了 ， 动 态 修改 路 由 器 上 的 路 
由 表 ， 将 IP 包 路 由 到 备份 站 点 而 不 是 主 站 点 。 如 果 客 户 利用 域名 来 访 
问 服务 器 ， 那 么 也 可 以 直接 在 DNS 设 备 上 修改 IP 指 向 记录 来 完成 这 个 
功能 。 


最 方便 而 且 普遍 的 做 法 是 : 让 所 有 客户 机 利用 主机 名 来 连接 服务 
器 ， 这 样 ， 主 站 点 故障 后 ， 通 知 所 有 客户 端 修改 它们 的 host 文 件 即 可 
将 原来 的 主机 名 映射 到 新 的 IP 地 址 而 不 用 重启 计算 机 。 这 方面 ， 异 地 
容 灾 系 统 中 的 HA 软件 几乎 发 挥 不 了 作用 。 


3. 异地 容 灾 系 统 中 的 卷 切换 


异地 容 灾 系统 中 在 主 站 点 和 备份 站 点 各 有 卷 ， 两 个 卷 之 间 可 以 通 
过 前 端 网 络 同步 ， 或 者 通过 后 端 网 络 同步 。 主 站 点 后 ， 备 份 服务 器 上 
的 HA 软件 检测 到 主 服务 器 通信 失败 ， 便 会 感知 故障 发 生 ， 然 后 通过 某 
种 方式 ， 断 开 主 卷 和 备份 卷 的 同步 关系 (如 果 不 断 开 ， 则 卷 会 被 锁定 
而 不 可 访问 ) 。 如 果 同 步 引 擎 是 运行 在 存储 设备 上 的 ， 那 么 除非 HA 软 
件 可 以 操控 运行 在 存储 设备 上 的 同步 引擎 ， 否 则 必须 由 系统 管理 员 手 
动 利 用 存储 设备 的 配置 工具 来 断 开 同 步 天 系 。 同 步 关系 断 开 后 ， 本 地 
的 卷 才 能 被 访问 ， 这 样 ，HA 软 件 才能 在 备份 机 上 调用 操作 系统 的 相关 
功能 来 挂 载 这 个 卷 。 


如 果 同 步 引 擎 本 身 融 是 由 运行 在 主机 和 备份 机 上 的 HA 软件 提供 
的 ， 那 么 就 可 以 实现 在 检测 到 通信 失败 之 后 ， 由 HA 软件 本 身 来 自动 断 
开 同 步 关 系 ， 然 后 在 备份 机 上 挂 载 对 应 的 卷 。 


4. 异地 容 灾 系 统 中 的 应 用 切换 


应 用 ， 也 就 是 生产 者 的 切换 ， 是 所 有 HA 容 灾 系 统 在 故障 发 生 后 所 
执行 的 最 后 一 步 动作 。 与 共享 存储 模式 的 HA 容 灾 相 同 ， 异 地 容 灾 中 的 
应 用 切换 ， 也 是 由 备份 机 的 HA 软件 来 执行 脚本 ， 或 者 通过 其 他 功能 调 
用 相关 应 用 的 接口 来 启动 备份 机 的 应 用 。 


比如 ， 对 于 DB2 数 据 库 来 说 ， 启 动 数据 库 实例 所 使 用 的 命令 为 : 
db2start，HA 软 件 只 要 检测 到 主 站 点 故障 ， 只 要 在 备份 机 的 db2cmd 命 
令 行 方式 下 执行 这 条 命令 ， 便 可 使 备份 机 的 DB2 数 据 库 实例 启动 起 
来 。 应 用 的 启动 必须 在 所 有 资源 成 功 切 换 到 备份 机 后 发 生 ， 因 为 应 用 
启动 的 时 候 必 然 会 读 取 卷 上 的 一 些 数 据 ， 如 果 卷 还 没有 被 挂 载 ， 应 用 
启动 的 时 候 丈 会 报错 ， 比 如 : 找 不 到 数据 文件 。 


5。 Veritas Cluster Server 软 件 介绍 


VCS (Veritas Cluster Server) 可 以 基于 VVR 的 配合 ， 而 实现 异地 
容 灾 系 统 。 在 一 个 CLUSTER 环境 中 ， 如 果 一 台 服 务 器 运行 多 个 应 用 ， 
只 有 一 个 应 用 出 现 故 障 时 ， 那 么 VCS 可 以 只 将 该 应 用 切换 到 预先 定义 
的 服务 器 上 ， 另 一 个 应 用 仍然 在 原来 的 服务 器 上 继续 运行 。 


VCS 将 其 监视 的 应 用 当 作 一 组 资源 来 管理 ， 这 一 组 资源 定义 为 资 
源 组 (RG) 。 例 如 Web-Server， 要 保证 这 个 应 用 正常 运行 ，VCS 将 监 
视 存放 数据 的 磁盘 组 ， 该 磁盘 组 上 的 文件 系统 、 网 卡 、IP 地 址 及 Web 
服务 进程 。 既 然 VCS 是 基于 应 用 的 高 可 用 软件 ， 一 台 服 务 器 上 运行 的 
多 个 应 用 可 以 切换 到 不 同 的 服务 器 上 。 


例如 ， 图 17-41 所 示 的 服务 器 A。 图 17-41 多 Active 集 群 

运行 着 IIS 网 页 访问 服务 和 DB2 数 据 

库 服务 ， 服 务 器 B 运 行 着 FTP 服 务 和 邮件 转发 服务 ， 服 务 器 C 运 行 着 
NFS 服 务 和 SMB 网 络 文件 系统 服务 。 当 服务 器 A 出 现 故 障 时 ， 资 源 组 
RG-Web 切 换 到 服务 器 B 上 ， 资 源 组 RG-DB2 切 换 到 服务 器 C 上 。 当 然 条 
件 是 它们 都 能 存 取 对 应 的 应 用 数据 。 系 统管 理 员 制 定 合 适 的 故障 条 
件 ， 例 如 现场 完全 瘫 疯 10 分 钟 或 某 个 应 用 停止 运行 半 小 时 。 当 这 种 情 
况 发 生 时 ， 可 以 设 定 有 GCM 《Global Cluster Manager) 自动 切换 应 


用 ， 或 向 系统 管理 员 报警 ， 得 到 确认 后 ， 再 切换 应 用 。 无 论 应 用 切换 
是 自动 还 是 需要 确认 ， 两 个 场地 之 间 应 用 的 启动 过 程 均 无 须 人 工 干 
预 。 


17.6.2 ”案例 一 : 基于 Symantec 公 司 的 应 用 容 灾 产品 VCS@ 


图 17-42 所 示 为 两 台 DB2 数 据 库 四” 全 两 全 服务 器 的 双 机 系统 
服务 器 ， 下 面 要 将 其 配置 为 一 个 HA 
双 机 热 备 系统 ， 主 机 硬件 或 者 应 用 程序 故障 之 后 ， 由 VCS 自 动 检测 故 
障 ， 并 在 备份 机 上 重新 启动 各 种 环境 以 及 应 用 程序 。 


主 服务 器 名 称 为 dbsvr1，IP 地 址 为 192.168.0.1; 备份 服务 器 名 称 为 
dbsvr2，IP 地 址 为 192.168.0.2。 


两 台 计 算 机 操作 系统 都 是 Solaris 9， 利 用 Symantec 的 Storage 
foundation (包含 了 VxVM 和 VxFS) 作为 卷 和 文件 系统 管理 工具 。 


在 两 个 系统 中 分 别 安装 了 DB2 数 据 库 程序 ， 而 数据 库 文 件 存放 在 
共享 磁盘 阵列 上 面 。 共 享 卷 由 VxVM 对 底层 磁盘 进行 虚拟 化 而 生成 。 
VxVM 先 将 操作 系统 底层 磁盘 ( 盘 阵 上 的 LUN) 组 成 磁盘 组 ， 然 后 在 
这 个 组 中 再 划分 卷 ， 这 就 和 RAID 卡 的 做 法 类 似 ， 只 不 过 VxVM 作 用 在 
主机 操作 系统 层 ， 而 RAID 卡 作用 在 硬件 层 。 


本 例 所 生成 的 共享 磁盘 组 命名 为 DBDG， 只 包含 一 个 物理 磁盘 ， 
设备 名 为 c0t0d0， 然 后 划分 一 个 卷 ， 卷 名 DBVolume。 用 VxFS 格 式 对 
这 个 卷 进行 格式 化 ， 再 将 格式 化 好 的 卷 挂 载 到 虚拟 目录 中 。 本 例 将 其 
挂 载 于 /home/db2 下 面 。 


对 卷 的 划分 和 格式 化 仅 需 在 一 台 计 算 机 上 配置 即 可 ， 配 置 完 后 ， 
只 需要 将 这 个 卷 进行 导出 操作 ， 另 一 台 计 算 机 就 可 以 导入 并 识别 出 这 
个 卷 的 格式 ， 再 直接 挂 载 到 虚拟 目录 。 


为 了 对 客户 端 透 明 ， 我 们 用 一 个 虚拟 主机 名 和 虚拟 IP 作 为 访问 
DB2 数 据 库 服务 的 地 址 。 虚 拟 主 机 名 为 dbsvr， 虚 拟 IP 为 192.168.0.3。 


虚拟 IP 不 是 一 个 神秘 的 东西 ， 我 们 知道 一 块 以 太 网卡 可 以 有 多 个 
IP 与 之 对 应 ， 如 果 把 192.168.0.3 这 个 IP 绪 定 到 dbsrv1 主 机 的 网 卡 上 ， 那 
么 dbsrv1 主 机 就 同时 拥有 两 个 IP: 192.168.0.1 和 192.168.0.3。 这 样 ， 客 
户 端 用 ARP 协 议 请 求 192.168.0.3 这 个 IP 地 址 对 应 的 MAC 地 址 时 ， 
dbsrv1 这 人 台 主 机 便 会 上 应答， 客户 端 知道 192.168.0.3 这 个 地 址 的 MAC 地 
址 (dbsrvl 主 机 网 卡 的 MAC 地 址 ) ， 就 可 以 建立 与 dbsrv1 主 机 的 通 


一 一 
信 。 


一 旦 dbsrvl 主 机 发 生 故 障 ， 那 么 dbsrv2 主 机 上 的 VCS 软 件 就 会 将 
192.168.0.3 这 个 IP 地 址 设置 到 dbsrv2 主 机 的 网 卡 上 ， 并 发 出 Free ARP 广 
播 ， 将 新 的 IP 与 MAC 地 址 的 对 应 关系 通告 到 网 络 上 的 其 他 终端 。 客 户 
机 再 次 连接 的 时 候 ， 就 会 建立 和 dbsrv2 主 机 的 通信 ， 而 客户 端 对 这 个 
IP 的 拥有 者 是 dbsrv1 还 是 dbsrv2 丝 之 没有 察觉 ， 也 没有 必要 察觉 到 。 这 
个 切换 IP 的 动作 ， 也 是 VCS 将 虚拟 IP 作 为 一 个 资源 来 切换 的 过 程 。 


提示 : Storage Foundation 的 安装 过 程 这 里 就 不 做 描述 了 ， 本 
例假 设 在 两 台 计 算 机 上 都 已 经 成 功 地 安装 Storage Foundation 
组 件 了 。 


相关 配置 配置 过 程 


(1) 在 dbsrv1 主 机 上 创建 供 DB2 数 据 文件 使 用 的 共享 存储 及 文件 
系统 。 


# vxdg init DBDG cotod9 \\ 创 建 磁盘 组 BBDG6， 使 用 c0t0d0 这 个 硬盘 

# Vxassist -g DBDG make DBVolume 5g \\ 在 磁盘 组 上 创建 56B 大 小 的 卷 
DBVolume 

# mkfs -F vxfs -o largefiles /dev/vx/rdsk/DBDG/DBVolume 

\\ 将 卷 DBVolume 

格式 化 为 VxFS 文 件 系 统 

# mkdir /home/db2 \\ 创 建 挂 载 点 ， 将 用 于 DBVolume 卷 的 挂 载 

# mount -F vxfs /dev/vx/dsk/DBDG/DBVolume /home/db2 \\ 将 格 


式 化 好 的 卷 
DBVolume 挂 载 于 /home/db2 下 ， 这 样 就 可 以 通过 CD /home/db2 进 入 这 个 目录 
从 而 对 


这 个 卷 的 内 容 进 行 访问 了 


(2) 使 两 个 系统 可 以 通过 RSH 方 式 互相 访问 ， 在 dbsrv1 上 面 做 如 
下 操作 。 


# echo “dbsrv2 192.168.0.2”>> /etc/hosts \\ 将 对 方 加 入 自己 的 
主机 列表 

# echo “dbsrv2 db2inst1”>> $HOME/ .rhosts \\ 使 得 对 方 主机 可 以 
通过 RSH 

以 db2inst1 的 身份 登录 本 机 。Db2inst1 是 DB2 数 据 库 所 必需 的 用 户 

# echo “dbsrv 192.168.0.3”>> /etc/hosts  \N\ 将 虚拟 主机 加 入 自己 
的 主机 列表 


(3) 在 dbsrv2 上 面 做 类 型 的 操作 ， 将 dbsrv2 改 为 dbsrv1，IP 也 做 
相应 的 改变 ， 虚 拟 主 机 IP 和 主机 名 不 变 。 


(4) 在 两 台 计 算 机 上 分 别 执行 下 列 命令 ， 创 建 相 同 的 用 户 组 。 


# groupadd -g 999 db2iadm1 \\ 创 建 DB2 实 例 管理 组 ， 

# groupadd -g 998 db2fadm1 \\ 创 建 DB2 fencing 管 理 组 ， 

# groupadd -g 997 db2asgrp \\ 创 建 DB2 数 据 库 管 理 组 ， 

# Useradd -g db2iadm1 -u 1005 -d /home/db2 -m db2inst1 

\\ 创 建 DB2 实 例 管理 用 户 

# Useradd -g db2fadm1 -u 1006 -d /home/db2fenci -m db2fenc1 
\\ 创 建 DB2 fencing 管理 用 户 

# Useradd -g db2asgrp -u 1007 -d /home/db2as -m db2as 

\\ 创 建 DB2 数 据 库 管 理 员 账 户 


注意 : 上 述 用 户 组 或 者 用 户 的 ID 可 以 是 尚未 被 使 用 的 任意 数 
字 ， 但 一 定 要 保证 两 台 计 算 机 上 面 的 用 户 ID 是 一 致 的 ， 否 则 
数据 库 切 换 的 操作 会 失败 ; 数据 库 实 例 管理 员 的 账户 目录 要 
存放 在 共享 盘 上 面 ， 也 就 是 home/db2 目 录 。 


(5) 在 两 台 计 算 机 上 面 分 别 安装 DB2 数 据 库 程序 。 用 install 程 序 
来 安装 DB2， 然 后 手动 创建 实例 和 数据 库 。 因 为 实例 目录 需要 放 到 共 
享 卷 上 ， 也 就 是 home/db2 目 录 。 


(6) 安装 完 DB2 程 序 后 ， 分 别 在 两 台 计算 机 安装 DB2 的 许可 证 。 
# /opt/IBM/db2/V8.1/adm/db21licm -a db2ese.lic 


(7) 在 dbsrv1 上 面 创建 实例 (存放 到 共享 盘 ) 。 


# cd /usr/opt/db2 08 01/instance 

# ./db2icrt -u db2fenc1i db2inst1 \\\ 创 建 一 个 名 为 db2inst1 的 实 
例 ，DB2 会 

将 实例 目录 存放 到 同名 的 用 户 名 目录 下 ， 也 就 是 dbinst1 用 户 的 主 目录 : 
home/DB2 目 录 下 ， 从 而 将 实例 目录 放 到 了 共享 卷 上 。 


(8) 修改 DB2 节 点 文件 home/db2/sqllib/db2nodes.cfg， 将 原来 的 
db2srv1 主 机 名 修改 为 dbsrv 这 个 虚拟 主机 名 。 


© dbsrv 0 


(9) 创建 数据 库 testdb。 


# su - db2inst1 NAN 切换 数据 库 实例 管理 用 户 ; 


# db2start \\X 启 动 数据 库 ; 
# db2 create database testdb \\ 创 建新 的 数据 库 tdstdb， 由 于 当前 
用 户 是 


db2inst1i， 所 以 testdb 数 据 库 被 创建 在 /home/db2 目 录 下 ， 也 就 是 共享 卷 上 ; 
# db2 terminate 断 开 与 DB2 服 务 后 端 处 理 进 程 的 连接 ; 
# db2stop ”\ 停 止 数 据 库 ， 


(10) 将 共享 盘 从 dbsrv1 外 载 下 来 《在 dbsrv1 执 行 ) 。 


# umount /home/db2 NA 外 载 文件 系统 ， 

# VXV01 -g DBDG stopall  \N 将 DBDG 的 所 有 卷 停止 活动 ; 

# vxdg deport DB2DB  \N 将 磁盘 组 DBDG 导 出 ， 以 便 在 其 他 计算 机 上 导入 并 
二 载 。 


(11) 将 共享 盘 挂 载 到 dbsrv2 (在 dbsrv2 执 行 ) 。 


# VxXdg import DBDG  \N 将 磁盘 组 DBDG 导 入 ， 

# VXV01 -g DBDG startall \\ 将 DBD6 的 所 有 卷 启动 ; 

# mount -F vxfs /dev/vx/dsk/DBDG/DBVolume /home/DB2 \\ 挂 载 
文件 系统 ; 


(12) 在 dbsrv2 启 动 原来 在 dbsrv1 创 建 的 数据 库 testdb。 


# SU - db2inst1 
# db2start 


# db2 connect to testdb 


如 果 能 够 连接 成 功 ， 则 数据 库 双 机 配置 成 功 。 如 果 数 据 库 服务 在 
菜系 统 上 发 生 故 障 后， 会 被 VCS 切 换 到 另外 一 台 计 算 机 并 运行 。 下 面 
配置 自动 故障 检测 并 切换 的 功能 。 


(13) 复制 DB2 代 理 配 置 文件 到 VCS 的 配置 目录 。 


# cp /etc/VRTSvcs/conf/Db2udbTypes.cf 
/etc/VRTSvcs/conf/config/ 
b2udbTypes .cf 


(14) 打开 VCS 图 形 工具 。 
# /opt/VRTSvcs/bin/hagui \\ 将 运行 VCS 图 形 化 配置 工具 
(15) 创建 服务 资源 组 (service group) ， 并 命名 为 db2grp。 


(16) 依次 单 击 * 文 件 ”- “导入 ”- “确定” 按钮 ， 导 入 DB2 代 理 配 
置 文 件 。 


(17) 在 db2grp 中 创建 六 个 资源 。 


" 似 盘 组 : 即 DBDG。 

a 卷 : DBVolume。 

a 挂 载 点 : /home/db2。 

" 网 卡 : 客户 端 所 连接 的 网 卡 (例如 bge0) 。 

a IP 地 址 : 选择 192.168.0.3 这 个 虚拟 IP 地 址 。 

" DB2 agent: 这 个 资源 会 监控 DB2 程 序 在 群集 中 的 运行 情况 。 


(18) 为 这 六 个 资源 创建 依赖 关系 ( 右 击 资源 ， 选 择 link) 。 


IP 依 赖 NIC 网 卡 的 工作 正常 ， 卷 的 存在 依赖 于 磁盘 组 的 状态 ; 文 
件 系统 依赖 卷 ， DB2 代 理 的 状态 要 同时 依赖 于 了 P 地 址 的 存在 和 文件 系 
统 的 存在 。 


(19) 右 击 db2grp 服 务 组 ， 选 择 online， 让 db2 在 dbsrv1 上 线 。 
(20) 右 击 db2 服 务 组 ， 选 择 switch to， 让 db2 切 换 到 dbsrv2。 
(21) 如 果 切 换 正 常 ， 则 VCS 配 置 成 功 。 

17.6.3 “案例 二 : 基于 Symantec 公司 的 应 用 容 灾 产品 VCSC@) 


图 17-43 是 两 个 站 点 容 灾 系 统 最 基本 的 结构 图 。 主 站 点 是 基于 三 个 
节点 Cluster 的 多 个 应 用 ， 容 灾 站 点 同样 也 配置 成 一 个 三 节点 的 Cluster 
系统 ， 它 们 配 了 同等 容量 的 存储 ， 并 具有 数据 容错 功能 。 


图 17-43 ”两 个 站 点 的 互 备 群集 


主 站 点 运行 的 是 Web 服 务 、DB2 服 务 、SAP 企 业 ERP 服 务 以 及 邮件 
转发 服务 的 关键 业务 ， 完 全 置 于 容 灾 系 统 控制 之 下 ， 可 以 看 到 : 


" 主 站 点 服务 器 A 上 安装 了 Web 服 务 程序 和 SAP 应 用 程序 ， 而 且 二 
者 上 缘 在 运行 状态 。 

sa 服务 器 B 上 安装 了 邮件 转发 处 理 程序 ， 以 及 SAP 应 用 程序 和 DB2 

数据 库 程 序 ， 但 是 服务 器 B 上 的 SAP 和 DB2 程 序 平时 都 处 于 停止 

状态 ， 只 有 邮件 转发 程序 在 运行 。 

服务 器 C 上 安装 了 DB2 数 据 库 程 序 ， 并 处 于 运行 状态 ， 另 外 还 

安装 有 Web 服 务 程序 和 邮件 转发 程序 ， 但 是 平时 处 于 停止 状 


ANAO 


备份 站 点 的 业务 是 FTP 服 务 、SMB 文 件 共享 的 一 般 业 务 ， 不 做 容 
灾 。 备 份 站 点 的 服务 器 A 上 运行 的 是 FTP 服 务 程序 ， 同 时 安装 有 SAP 应 
用 程序 ， 但 是 SAP 应 用 程序 处 于 停止 状态 ; 服务 器 B 上 运行 着 SMB 文 
件 共 享 服 务 ， 同 时 安装 有 DB2 数 据 库 服务 程序 ， 但 是 DB2 数 据 库 服务 
程序 平时 处 于 停止 状态 ; 服务 器 C 上 安装 有 Web 服 务 程序 和 邮件 转发 程 
序 ， 并 且 都 处 于 停止 状态 。 


ee 即 从 主 站 
点 盘 阵 (或 者 主 站 点 服务 器 的 内 存 ) ， 经 过 前 端 以 太 网 交换 机 ， 传 送 
到 网 关 设 备 ， 然 后 经 过 广域网 到 达 备 份 站 点 的 网 关 设 备 ， 再 通过 前 端 
以 太 网 交换 机 传送 到 备份 站 点 服务 器 内 存 ， 最 后 从 内 存 写 入 后 端 磁盘 
阵列 。 


主 站 点 服务 器 之 间 的 简 头 ， 表 示 一 旦 某 个 服务 器 ， 或 者 服务 器 上 
的 某 个 应 用 发 生 故 障 之 后 ， 资 源 组 的 切换 走向 。 


从 图 17-43 中 可 以 看 到 服务 器 B 和 服务 器 C 形 成 了 一 个 互 备 的 系 
统 ， 即 服务 器 B 是 邮件 转发 程序 的 主 节点 ， 是 DB2 服 务 的 备用 节点 ; 
而 服务 器 C 是 DB2 服 务 程 序 的 主 节 点 ， 是 邮件 转发 程序 的 备用 节点 。 


提示 : 因为 主 站 点 的 三 台 服 务 器 之 间 形 成 了 比较 复杂 的 互 备 
天 系 ， 所 以 三 台 服 务 器 必须 能 识别 到 其 他 两 全 服务 器 上 挂 载 
的 卷 ; 但 是 备用 节点 不 应 当 挂 载 这 些 卷 ， 仅 当 对 方 应 用 或 者 
整个 服务 器 故障 的 时 候 ， 才 能 在 备份 节点 上 挂 载 这 些 卷 。 


图 中 央 的 粗 箭头 ， 表 示 一 旦 主 站 点 发 生 了 大 故障 ， 诸 如 整个 机 房 
被 损毁 等 ， 那 么 所 有 主 站 点 的 应 用 ， 全 部 切换 到 备份 站 点 ， 并 且 备 份 
站 点 的 节点 挂 载 备 用 磁盘 阵列 上 的 所 有 卷 。 Veritas 的 Storage 
Foundation 组 件 应 当 安装 到 图 上 的 所 有 服务 器 中 ，VVM 模 块 用 于 管理 
所 有 存储 卷 ，VVR 模 块 用 于 同步 所 有 卷 的 数据 ，VCS 模 块 用 于 检测 故 
障 并 且 切 换 应 用 。 整 个 HA 系统 的 工作 过 程 如 下 。 


(1) 主 站 点 应 用 的 运行 过 程 中 ， 所 修改 的 数据 通过 所 有 主 站 点 服 
务 器 主机 都 安装 的 VVR 软 件 实 时 地 复制 到 备份 站 点 。 


(2) 假设 某 时 刻 主 站 点 服务 器 上 的 SAP 应 用 发 生 故 障 ， 比 如 相关 
服务 无 法 启动 ， 则 VCS 模 块 检测 到 这 个 故障 之 后 ， 发 现 相 关 资 源 组 有 
两 个 备用 节点 可 切换 : 主 站 点 的 服务 器 B 和 备份 站 点 的 服务 器 A， 所 以 
它 首 先 检测 主 站 点 的 服务 器 B 是 否 可 用 。 如 果 可 用 ， 则 发 送 一 些 信息 
通告 服务 器 B 上 的 VCS 模 块 ， 准 备 切换 SAP 应 用 到 服务 器 B， 服 务 器 B 
确认 后 ，VCS 在 服务 器 A 上 首先 卸载 SAP 程 序 所 存储 的 对 应 卷 ， 然 后 通 
告 服 务 器 B 外 载 成 功 ， 服 务 器 B 再 挂 载 这 些 卷 ， 并 且 接 管 SAP 服 务 所 利 
用 的 IP 地 址 ， 之 后 启动 SAP 服 务 。 客 户 端 只 需要 重新 连接 一 下 便 可 。 


(3) 某 时 刻 ， 主 站 点 机 房 供电 系统 故障 ， 经 过 相关 人 员 的 检查 ， 
恢复 供电 大 概 需要 5 小 时 。 而 UPS 系 统 在 工作 两 小 时 之 后 因 电 量 不 足 而 
停止 ， 企 业 CIO 果 断 决 定 ， 在 UPS 电 量 耗 尽 之 前 ， 将 主 站 点 所 有 系统 
手动 停机 以 免 因 为 突然 断 电 对 硬件 和 软件 带 来 的 损害 。 此 时 备用 站 点 
的 VCS 软 件 检 测 到 了 这 个 故障 ， 立 即 在 所 有 服务 器 上 挂 载 已 经 经 过 数 
据 同 步 的 卷 ， 然 后 启动 所 有 备份 应 用 系统 。 所 有 生产 均 恢复 运行 ， 客 
户 端 经 过 修改 host 文 件 或 者 修改 所 连接 的 人 P 地 址 ， 恢 复 了 与 服务 器 的 
连接 ， 所 有 生产 继续 运行 。 


(4) 5 小 时 之 后 ， 主 站 点 机 房 供电 恢复 ，UPS 系 统 充电 。 企 业 
CIO 决 定 ， 在 恢复 供电 1 小 时 之 后 (确保 主 站 点 供电 恢复 正常 ， 以 避免 
不 必要 的 动荡 ) ， 切 回 所 有 应 用 到 主 站 点 。 主 站 点 所 有 系统 开机 ， 
VCS 软 件 会 检测 到 当前 的 应 用 已 经 全 部 运行 在 备份 站 点 ， 所 以 不 会 在 
主 站 点 服务 器 上 挂 载 卷 并 启动 应 用 。 与 此 同时 备用 站 点 的 VVR 软 件 重 
新 建立 了 与 主 站 点 VVR 软 件 的 通信 ， 并 互相 交互 数据 ， 备 份 站 点 的 
VVR 检 测 到 了 主 站 点 相关 卷 上 的 数据 是 落后 的 ， 因 为 备用 站 点 在 主 站 
点 故障 期 间 ， 已 经 生产 运行 了 5 小 时 ， 此 间 数 据 已 经 有 所 变化 。VVR 
立即 将 变化 的 数据 复制 到 主 站 点 的 相关 卷 。 重 新 同步 后 ， 备 用 站 点 的 
VCS 停 止 应 用 、 印 载 卷 ， 主 站 点 的 VCS 挂 载 卷 ， 启 动 应 用 ， 所 有 状态 
恢复 如 初 ， 客 户 端 重新 连接 即 可 连接 到 主 站 点 的 服务 器 上 。 


本 次 故障 造成 的 俘 机 时 间 很 得 ， 疫 有 对 生产 造成 太 大 影响 ， 同 时 
也 很 好 地 考验 了 这 个 企业 的 异地 容 灾 系 统 的 功能 。 如 果 没 有 容 灾 系 
统 ， 这 个 企业 就 要 忍受 长 时 间 停 机 带 来 的 损失 。 


17.7 虚拟 容 灾 技术 


传统 的 生产 工具 容 灾 方式 下 ， 对 于 服务 器 的 容 灾 ， 通 常 使 用 配置 
相当 的 服务 器 作为 备份 机 。 但 是 如 果 有 10 台 服务 器 需要 做 容 灾 ， 那 么 
也 要 准备 10 台 物理 服务 器 作为 备份 机 么 ? 不 见得 。 一 种 办 法 是 只 使 用 
一 台 或 者 几 台 服务 器 ， 其 上 安装 与 主 服务 器 相同 的 应 用 程序 ， 主 服务 
器 有 哪些 应 用 ， 备 服务 器 就 安装 哪些 应 用 ， 安 装 在 同一 台 或 者 几 台 物 
理 机 器 上 ， 当 主 服务 器 发 生 故 障 之 后 (存储 故障 、 服 务 器 自身 硬件 故 
障 等 ) ， 在 备 服务 器 挂 载 主 服务 器 的 LUN 并 且 启 动 应 用 ， 有 几 台 服务 
器 故障 ， 就 在 备 服 务 器 上 启动 对 应 的 应 用 程序 。 这 样 昌 然 是 一 种 做 
法 ， 但 是 在 服务 器 恢复 的 时 候 ， 需 要 重新 安装 操作 系统 重新 部 署 应 用 
程序 ， 然 后 才能 将 备 服务 器 上 运行 的 应 用 程序 切换 到 主 服 务 器 上 ， 这 
是 一 个 比较 耗 时 的 过 程 。 


为 了 解决 这 个 问题 ， 虚 拟 容 灾 技术 出 现 了 。 还 是 这 10 台 服务 器 ， 
如 果 利用 VMware 提 供 的 P2V 技 术 将 整个 服务 器 系统 盘 以 及 数据 盘 做 成 
虚拟 机 格式 ， 然 后 在 一 台 或 者 几 台 备 服务 器 上 使 用 VMware 根 据 生成 
的 镜像 来 创建 对 应 的 虚拟 机 ， 并 运行 所 有 的 虚拟 机 ， 在 主 服务 器 端 使 
用 一 个 Agent 程 序 将 对 应 应 用 系统 对 底层 的 IO 数据 同步 到 备 服务 器 
Guest OS 上 对 应 的 存储 设备 中 ， 这 样 ， 当 主 服务 器 故障 时 ， 备 服务 器 
可 以 直接 启动 应 用 ， 接 管 服务 。 主 服务 器 恢复 之 后 ， 利 用 VMware 提 
供 的 V2P 技 术 ， 将 虚拟 机 对 应 的 映像 转换 成 物理 机 对 应 的 数据 并 将 其 
放置 到 对 应 的 LUN 中 ， 这 样 ， 主 服务 器 就 可 以 直接 启动 操作 系统 并 且 
启动 应 用 程序 了 。 


目前 已 经 有 一 些 广 商 推出 了 虚拟 容 灾 产 品 ， 比 如 爱 数 备份 存储 柜 
V3.5o 


17.8 ”一 体 化 先行 军 一 一 爱 数 一 体 化 备份 存储 柜 


我 们 都 知道 电话 /传真 /复印 /打印 /扫描 一 体 机 ， 所 有 人 对 它 的 评价 
都 是 “好 用 、 够 用 、 实 惠 ”， 正 如 一 句 广告 词 所 说 的 :“ 伦 一 样 的 钱 买 五 
样 ! ”如 今 在 存储 领域 ， 也 出 现 了 这 样 一 种 一 体 机 ， 即 存储 、 备 份 、 容 
灾 三 合 一 一 体 机 。 好 么 ， 这 存储 领域 的 老 三 样 一 下 子 被 集成 到 一 台 设 
备 中 了 ， 谁 这 么 有 本 事 ? 这 就 是 爱 数 (EISOO) 软件 有 限 公 司 的 “备份 
存储 柜 *v3.5 产 品 。 


说 明 : 2010 年 春 作 者 有 幸 参 加 了 爱 数 产品 全 国 巡 展 青岛 站 ， 
会 议 中 与 爱 数 的 同行 们 进行 了 深刻 学 习 探讨 。 感 觉 爱 数 是 一 
家 朝气 莲 勃 的 公司 ， 非 常 开放 ， 这 就 注定 了 她 会 飞快 发 展 。 
2009 年 下 半年 ， 爱 数 发 布 了 一 体 化 的 备份 设备 ， 备 份 存储 柜 
3.0。 没 想到 时 隔 半 年 ， 再 次 看 到 了 备份 存储 柜 升级 版 本 
v3.5， 能 将 备份 、 容 灾 和 存储 集成 到 一 台 柜子 里 ， 这 需要 投 
入 很 大 的 研发 精力 ， 爱 数 却 做 到 了 ， 而 且 是 如 此 之 快 。 


17.8.1 ” 爱 数 备份 存储 柜 3.5 产 品 架构 分 析 


我 们 先 来 看 一 下 传统 的 备份 架构 。 如 图 17-44 所 示 ， 传 统 的 备份 系 
统 中 包含 备份 服务 器 、 介 质 服务 器 (备份 介质 可 以 是 磁盘 阵列 或 者 磁 
带 库 ) 、 备 份 软件 ， 也 可 以 简称 4S 备 份 方案 (Backup Server ， 
Operating System, Backup Storage, Backup Software ) 。 


图 17-44 ”传统 备份 系统 架构 
我 们 可 以 把 备份 服务 器 和 介质 服务 器 的 角色 集成 到 磁盘 阵列 中 ， 
形成 一 种 带 有 集成 存储 和 备份 功能 的 磁盘 阵列 ， 这 就 是 爱 数 备份 存 储 


柜 的 原型 体 。 如 图 17-45 所 示 ， 备 份 存储 柜 作 为 一 台 一 体 化 设备 被 插入 
了 系统 中 。 它 可 以 作为 支持 NAS、FTP、FC-SAN 和 IP-SAN 访 问 协议 的 


磁盘 阵列 设备 而 存在 (相当 于 系统 中 多 了 一 台 磁 盘 阵 列 ) ， 同 时 还 是 
一 个 备份 服务 器 ， 用 户 服务 器 或 者 用 户 桌 面 电脑 上 的 数据 可 以 直接 被 
备份 到 这 人 台 设 备 中 存放 ， 用 户 终端 的 桌面 数据 通过 前 端 以 太 网 备份 ， 
而 用 户 服 务 器 的 数据 则 既 可 以 实现 通过 前 端 以 太 网 备份 ， 也 可 以 实现 
通过 后 端 FC 网 络 来 备份 (Lan-Free/Frontend-Free) 。 备 份 之 后 的 数据 
还 可 以 由 这 人 台 设 备 再 写 到 带 库 中 离线 保存 ， 也 就 相当 于 D2D2T (Disk- 
to-Disk-to-Tape) 。 


图 17-45 ”集成 了 备份 服务 器 和 介质 服务 器 模块 的 阵列 柜 


一 体 化 的 备份 设备 就 像 防 毒 墙 和 防火 墙 设备 一 样 ， 很 快 受到 用 户 
的 欢迎 ， 主 要 原因 就 是 用 一 体 化 的 方式 改变 了 传统 备份 系统 的 模式 ， 
更 加 简单 方便 。 之 后 ， 这 个 原型 体 开始 进化 ， 爱 数 将 众多 功能 向 其 中 
融入 。 首 先 被 融入 的 就 是 容 灾 技术 。 传 统 备份 和 容 灾 的 一 个 本 质 区 别 
就 是 ， 传 统 备份 不 是 实时 备份 ，RPO 和 RTO 均 太 长 ; 而 容 灾 则 是 实时 
保护 和 灾难 接管 ， 保 证 业务 连续 性 ，RPO 和 RTO 均 显著 缩小 。 


在 容 灾 方面 ， 爱 数 选择 了 与 其 他 厂商 不 同 的 路 线 ， 巧 妙 地 运用 了 
虚拟 化 技术 ， 即 在 备份 存储 柜上 集成 YMware Server 版 的 虚拟 机 引擎， 
在 存储 柜上 创建 若干 个 虚拟 机 操作 系统 来 作为 环境 中 原先 的 生产 物理 
机 的 后 备 服务 器 。 物 理 机 上 安装 一 个 数据 实时 复制 代理 ， 通 过 前 端 以 
太 网 来 将 数据 实时 同步 到 备份 存储 柜 中 运行 的 虚拟 机 磁盘 中 存放 ， 当 
物理 机 发 生 故 障 之 后 ， 虚 拟 机 立即 接管 物理 机 ， 继 续 服务 ， 这 就 使 得 
RTO 变 得 非常 短 ， 理 论 上 等 于 虚拟 机 接管 物理 机 IP 地 址 所 耗费 的 时 
间 。 如 图 17-46 所 示 为 融入 容 灾 功能 之 后 的 备份 存储 柜 架 构 简 图 。 


图 17-46 融入 虚拟 机 平台 


对 虚拟 机 的 创建 和 管理 可 以 直接 使 用 爱 数 备 份 存 储 柜 的 配置 界 
面 ， 而 无 须 使 用 VMware 原来 的 配置 工具 ， 如 图 17-47 所 示 。 


图 17-47 ”虚拟 机 管理 界面 


目前 ， 爱 数 针 对 SQL Server 和 Oracle for Windows/Linux 这 两 种 数 
据 库 引入 了 文件 数据 块 级 (并 不 针对 整个 LUN， 而 是 针对 LUN 中 的 文 
件 ， 对 文件 进行 增 量 块 级 同步 ， 这 样 会 避免 很 多 不 必要 的 数据 传输 ， 
提高 效率 ) 的 可 感知 应 用 层 一 致 性 的 实时 复制 ， 相 信 随 着 时 间 的 推 
移 ， 其 他 可 感知 各 种 应 用 层 一 致 性 的 实时 复制 均 会 实现 。 


然而 ， 有 了 单纯 的 数据 实时 复制 还 不 行 ， 实 时 复制 并 不 能 保证 数 
据 的 逻辑 一 致 性 ， 必 须要 引入 Snapshot 或 者 CDP 技 术 ， 让 备份 后 的 数 
据 可 回 滴 。 所 以 ， 爱 数 一 步 到 位 地 在 备份 存储 柜 中 引入 了 CDP 技 术 。 
对 相关 文件 的 写 IO 对 应 的 数据 被 从 物理 机 同步 到 虚拟 机 中 的 虚拟 磁盘 

(对 应 存储 柜 中 的 某 个 LUN) 的 时 候 ， 运 行 在 虚拟 机 上 的 代理 程序 
(用 于 接收 物理 机 发 送 过 来 的 数据 以 及 插入 文件 系统 驱动 层 来 分 流 
IO) 会 同时 将 其 复制 一 份 到 CDP 日 志 卷 中 保存 《CDP 日 志 卷 由 介质 服 
务 器 模块 所 管理 ) 。 


提示 : 但 是 爱 数 使 用 的 这 种 CDP 方 式 与 本 书 其 他 章节 中 介绍 
的 可 实时 挂 载 的 CDP 有 所 不 同 ， 这 种 CDP 属 于 一 种 全 局 日 志 
链 ( 见 本 书 对 应 章节 ) 的 模式 ， 全 局 日 志 链 极 大 地 降低 了 
CDP 的 处 理 难 度 ， 提 高 了 效率 。 但 是 随 之 而 来 的 也 需要 耗费 
额外 的 存储 空间 ， 而 且 日 志 链 中 的 每 一 条 操作 不 但 需要 记录 
当前 被 写 入 的 数据 ， 同 时 也 需要 记录 对 应 的 文件 块 被 覆盖 之 
前 的 内 容 ， 而 这 些 记录 中 会 有 很 多 的 见 余 数据， 基本 上 是 元 
余 了 一 半 ， 所 以 日 志 链 也 将 是 很 庞大 的 。 (本 书 其 他 章节 所 


介绍 的 非 全 局 日 志 链 CDP 模 型 没有 这 种 问题 ， 请 读者 自行 思 
考 。) 


这 样 处 理 之 后 ， 备 份 存储 柜 中 不 但 保存 了 一 份 最 新 的 与 物理 机 源 
卷 内 容 同步 的 可 随时 访问 的 虚拟 机 卷 ， 同 时 也 保存 了 所 有 针对 这 个 卷 
的 内 容 更 改 ， 一 旦 物理 机 发 生 灾难 的 时 候 ， 虚 拟 机 直接 就 可 以 接管 并 
直接 读 写 虚拟 机 卷 。 如 果 一 旦 遇 到 数据 不 一 致 的 情况 ， 那 么 就 需要 利 
用 CDP 来 回溯 到 之 前 某 个 时 间 点 了 。 


具体 的 回溯 方法 是 : 系统 将 用 户 给 定 的 时 间 点 在 CDP 日 志 链 中 作 
匹配 ， 找 到 对 应 时 间 点 的 位 置 ， 然 后 开始 Undo (注意 ， 是 Undo) 从 日 
志 链 尾部 到 这 个 时 间 点 之 间 的 所 有 变更 ， 将 其 全 部 回 退 ， 对 应 的 回 退 
动作 反映 在 虚拟 机 卷 中 。 回 退 完成 之 后 ， 虚 拟 机 挂 载 这 个 卷 ， 应 用 启 
动 ， 之 后 应 用 程序 针对 虚拟 机 卷 中 对 应 的 文件 所 作 的 更 改 ， 也 被 追加 
记录 到 CDP 日 志 卷 对 应 的 日 志 链 尾部 ( 称 为 虚拟 机 卷 附 加 CDP 日 志 
链 ) 并 做 好 区 分 标记 。 这 个 附加 CDP 日 志 链 记录 了 虚拟 机 接管 之 后 所 
有 针对 对 应 文件 的 更 改 ， 在 数据 反 向 同步 到 物理 机 时 需要 用 到 。 


同时 ， 发 生 故 障 的 物理 机 在 故障 修复 之 后 ， 需 要 将 数据 反 向 同步 
到 (通过 前 端 以 太 网 ， 由 安装 在 物理 机 和 虚拟 机 上 的 代理 程序 执行 ) 
物理 机 的 LUN 中 ， 此 时 ， 系 统 根 据 虚拟 机 卷 实际 数据 、 源 卷 CDP 日 志 
链 和 虚拟 机 卷 附 加 CDP 日 志 链 这 三 者 ， 来 把 虚拟 机 卷 当 前 的 实际 内 容 
全 部 (通过 读 取 虚拟 机 卷 中 相关 的 文件 块 以 及 Replay 两 个 CDP 日 志 
链 ) 复制 到 物理 机 对 应 的 LUN 中 。 (注意 ， 爱 数 所 实现 的 CDP 为 文件 
级 CDP， 日 志 链 也 只 是 针对 对 应 的 文件 ， 复 制 的 也 都 是 对 应 数据 库 的 
文件 数据 ， 如 果 源 LUN 中 有 其 他 非 相关 文件 ， 则 不 受 保护 。) 


爱 数 技术 : 在 这 里 ， 爱 数 引 入 了 又 一 项 独 有 技术 ， 即 增 量 反 
向 同步 。 我 们 知道 ， 物 理 机 可 能 发 生 的 故障 多 种 多 样 ， 比 如 
主板 损坏 等 。 这 种 故障 物理 机 原来 LUN 中 的 数据 是 没有 影响 
的 〈 也 有 的 时 候 意外 宕 机 可 能 引起 数据 损毁 ) ， 那 么 此 时 物 
理 机 卷 中 的 数据 与 容 灾 端 的 数据 大 部 分 还 是 相同 的 ， 虽 然 容 
灾 端 接管 后 可 能 已 经 经 过 回溯 过 程 ， 甚 至 已 经 被 应 用 程序 写 
入 了 新 数据 。 在 这 种 情况 下 ， 如 果 将 容 灾 端 的 整个 LUN 或 者 
文件 都 反 同 同步 回 物理 机 上 ， 就 是 没有 必要 的 了 。 爱 数 的 做 
法 是 ， 对 物理 机 尚 存 的 源 数据 以 及 虚拟 机 所 对 应 的 最 新 数据 
影像 分 别 计算 Hash 值 指纹 ， 通 过 比 对 指纹 ， 找 到 指纹 不 同 的 
文件 块 ， 然 后 只 将 这 些 块 同步 回 物理 机 。 


17.8.2 ” 爱 数 备份 存 储 柜 v3.5 独 特技 术 


除了 上 面 所 述 的 一 些 关 键 技术 之 外 ， 爱 数 还 融入 了 一 些 其 他 独特 
的 技术 。 我 们 知道 CDP 任 意 时 间 点 恢复 之 后 的 数据 并 不 能 保证 一 致 
性 ， 所 以 爱 数 在 这 里 做 了 一 些 额外 的 工作 来 保证 对 应 数据 库 的 一 致 
性 。 


爱 数 技术 : 前 涉 式 一 致 性 保证 算法 (Proactive 
Consistency) : 是 指使 用 某 种 API 与 数据 库 程 序 通 信 ， 让 其 处 
于 一 致 状态 ， 然 后 在 对 应 的 CDP 日 志 链 中 标记 此 时 的 时 间 
点 ， 恢 复 时 只 要 恢复 到 这 个 时 间 点 ， 就 一 定 是 一 致 的 。 

启发 式 一 致 性 保证 算法 (Heuristic Consistency) : 是 指 通 过 
监测 文件 系统 一 些 特殊 行为 从 而 判断 数据 库 的 一 致 性 状态 ， 
然后 在 CDP 日 志 链 中 做 相应 标记 ， 从 而 保证 恢复 时 的 一 致 
性 。 


前 涉 式 算法 由 于 需要 定时 地 对 数据 库 发 起 指令 让 其 处 于 一 致 
状态 ， 所 以 对 数据 库 有 影响 ， 而 启发 式 算法 则 一 直 处 于 旁 路 
监测 状态 ， 不 但 对 应 用 没有 影响 ， 而 且 其 实现 的 一 致 性 时 间 
点 粒度 也 比 前 者 要 细 。 爱 数 使 用 启发 式 算法 。 


上 文 曾经 分 析 过 ， 全 局 CDP 日 志 链 导致 数据 占用 大 量 的 额外 空间 
而 其 见 余 度 很 高 ， 鉴 于 此 ， 爱 数 在 介质 服务 器 模块 上 使 用 了 重复 数据 
删除 技术 来 消除 。 


爱 数 技术 : 爱 数 备 份 存储 柜 v3.5 中 的 介质 服务 器 模块 所 运行 
的 Deduplication 属 于 一 种 前 处 理 式 、 全 局 指纹 库 的 全 局 重复 
数据 删除 算法 ， 这 种 算法 对 系统 的 要 求 非常 高 ， 由 此 可 见 爱 
数 的 技术 实力 。 

爱 数 还 提供 了 多 点 灾 备 方案 。 

爱 数 技术 : 提供 二 级 级 联 容 灾 (P2L2R，Production site to 
Local DR site to Remote DR site) ， 以 及 两 地 互 容 、 一 地 多 
容 、 多 地 共 容 和 链 式 环 容 的 多 点 容 灾 拓扑 。 本 地 可 以 在 执行 
完 Dedup 操 作 之 后 ， 再 将 CDP 日 志 链 数据 同步 到 其 他 站 点 的 
存储 柜 中 ， 这 样 就 节约 了 大 量 网 络 带 宽 。 


俗话 说 ， 三 天 不 练 只 能 瞪眼 看 。 对 于 容 灾 ， 如 果 不 进行 演练 ， 那 
么 即便 是 部 署 的 非常 到 位 ， 灾 难 来 临时 也 一 样 会 手忙脚乱 ， 天 灾 人 祸 
一 起 来 ， 业 务 恐 怕 就 要 中 断 很 久 了 。 而 传统 灾 备 染 构 中 ， 要 想来 一 次 
演练 ， 那 可 谓 是 兴 师 动 众 ， 人 心 悍 悍 。 但 是 有 了 虚拟 容 灾 之 后 ， 事 情 
就 变 很 大 了 。 爱 数 提供 了 两 种 容 灾 演练 模式 。 


爱 数 技 术 : 虚拟 容 灾 的 最 大 好 处 就 是 容 灾 端 随时 可 用 ， 并 且 
可 写 (变化 的 数据 有 相应 的 CDP 日 志 链 记录 ， 可 以 回 退 ) 。 


正 因 如 此 ， 用 户 可 以 随时 找 一 台 客 户 端 直接 连接 容 灾 端的 虚 
拟 机 ， 如 果 能 连 上 而 且 做 几 笔 业务 发 现 没 有 问题 ， 那 么 就 证 
明 容 灾 端 至 少 在 网 络 之 下 的 所 有 层面 都 是 运行 正常 的 。 整 个 
过 程 对 物理 生产 机 没有 任何 影响 ， 而 且 所 做 的 更 改 还 可 以 回 
退 。 这 就 是 爱 数 所 提供 的 模拟 演习 ， 可 以 定期 执行 。 

同时 ， 实 战 演 习 爱 数 推荐 一 年 进行 一 次 。 届 时 容 灾 端 完 全 接 
管 生产 端 ， 待 回 切 时 ， 系 统 将 容 灾 端 所 做 的 变化 同步 回 物 理 
生产 端 。 


值得 一 提 的 是 ， 爱 数 的 GUI 做 的 非常 好 ， 所 有 对 备份 存储 柜 的 配 
置 均 使 用 All-In-One-Web 管 理 界面 ， 通 过 浏览 器 即 可 登录 管理 ， 如 图 
17-48 所 示 。 


图 17-48 ”All-In-One-Web 管 理 界面 


说 明 : 经 过 上 述 对 爱 数 备份 存储 柜 v3.5 的 架构 和 功能 分 析 ， 
你 是 否 也 会 和 作者 有 同感 呢 ? 还 有 很 多 细节 的 功能 作者 没有 
进一步 研究 。 据 作者 所 知 ， 爱 数目 前 有 三 大 产品 线 ， 第 一 是 
备份 软件 ， 第 二 就 是 备份 存储 柜 3.5; 第 三 则 是 云 备份 平台 。 
虽然 “ 云 ? 目 前 基本 上 还 处 于 各 家 自行 忽悠 的 状态 ， 但 是 爱 数 
能 有 如 此 的 精力 和 实力 来 涉足 云 领 域 ， 可 见 爱 数 的 技术 水 平 
以 及 鸿 知 壮志 。 可 能 由 于 孤 陋 袁 闻 ， 反 正 笔 者 看 到 爱 数 能 够 
将 如 此 多 而 强悍 的 功能 做 到 一 起 时 ， 佩 服 之 余 也 感到 欣慰 ， 
国产 存储 终 将 会 辉 焊 ! 


17.8.3 ”国产 存储 的 方向 


我 们 目前 尚 不 可 能 造 出 像 西 方 EMC Symmetrix、HDS USP 那 样 的 
大 型 高 性 能 存储 硬件 产品 ， 但 是 我 们 的 智慧 从 来 就 没有 输 给 过 西方 ， 
古往今来 ， 一 向 如 此 。《 和 孙子 兵法 》、《《 本 草 纲 目 》、《 伤 寒 杂 病 
论 》， 哪 一 本 都 彰显 了 中 国人 对 自然 和 对 人 文 方面 的 智慧 。 但 是 由 于 
长 期 封建 统治 使 得 我 们 的 智慧 和 科技 受到 了 严重 的 禁 铀 。 而 如 今 新 中 
国 建国 已 经 60 年 了 ， 改 革 开 放 也 已 30 年 ， 科 技 文化 等 全 面 打 破 禁 铀 ， 
飞速 发 展 ， 我 们 应 用 智慧 的 时 候 也 到 了 ! 


在 计算 机 领域 ， 最 能 体现 智慧 的 地 方 就 是 软件 。 和 西方 人 拼 拳 
头 ， 我 们 没有 胜算 ;但 是 和 他 们 拼 脑 余 ， 我 们 很 有 信心 。 人 存储 硬件 的 
性 能 再 强 ， 它 也 只 不 过 是 几 个 铁皮 壳 ， 输 出 为 一 堆 LUN 而 已 ， 而 目前 
人 们 的 需求 越 来 越 高 ， 仅 仅 是 提供 高 性 能 的 LUN 已 经 根本 无 法 满足 日 
蔓 多 样 的 需求 ， 所 以 存储 厂商 近 几 年 来 正在 向 上 层 高 附加 值 的 软件 方 
面 投入 大 量 精力 ; 而 对 于 硬件 ， 也 不 再 盲目 追求 专用 高 性 能 平台 ， 而 
相继 转向 了 开放 的 x86 集 群 以 降低 成 本 ， 利 用 软件 和 集群 的 优势 来 弥补 
x86 单 节点 性 能 不 足 的 问题 。 这 些 都 显示 出 软件 方向 已 经 成 为 全 球 存 储 
行业 的 主导 方向 。 


2008 年 左右 存储 行业 两 大 巨头 EMC 和 IBM 都 各 自 退 出 了 自己 的 集 
群 存储 系统 ， 这 个 事件 将 会 是 存储 行业 的 里 程 碑 ， 它 宣布 了 从 那 一 时 
刻 起 ， 软 件 从 此 上 升 到 了 主要 地 位 。 而 这 种 方向 的 变化 ， 就 为 我 国 的 
存储 行业 发 展 创造 了 不 可 错过 的 机 会 。 软 件 方面 ， 我 国 的 研发 人 员 水 
平 不 亚 于 印度 人 (国外 存储 厂商 的 研发 人 员 有 很 大 一 部 分 都 是 印度 
人 ) ， 而 且 最 重要 的 一 点 ， 我 们 更 加 勤劳 。 所 以 ， 我 们 一 定 要 抓 住 这 
种 恨 机 ， 迅 速 以 软件 解决 方案 占领 存储 市 场 。 我 们 可 以 让 我 们 的 智慧 
凌驾 于 这 些 铁 皮 壳 子 之 上 ， 运 筹 帷 帐 ， 扬 长 避 短 。 


爱 数 融 是 典型 的 以 智 取 胜 的 例子 ， 备 份 存储 柜 体 现 了 中 国人 独特 
的 智慧 。 通 过 软件 和 硬件 的 整合 ， 爱 数 创新 地 打破 了 备份 、 容 灾 和 存 
储 的 沟 包 ,创造 了 一 台 集 存储 、 备 份 和 容 灾 于 一 体 的 灾 备 设备 ， 而 且 
功能 强大 、 实 用 又 实惠 ， 完 全 体现 了 国内 用 户 的 需求 和 接受 能 力 ， 具 
有 人 鲜明 的 中 国 特色 。 不 仅 如 此 ， 爱 数 备 份 存储 柜 的 All-In-One-Web 界 
面 做 的 非常 人 性 化 ， 而 且 非 常 美观 ， 这 正 是 国内 其 他 存储 软件 厂商 所 
欠缺 的 地 方 ， 这 一 点 爱 数 可 谓 是 用 心 良 苦 ， 中 国人 一 般 都 爱面子 ， 而 
爱 数 在 界面 上 也 给 足 了 面子 。 


在 不 久 前 的 全 球 气 候 大 会 上 ， 中 国 向 所 有 人 承诺 了 节能 减 排 的 目 
标 。 而 爱 数 的 一 体 化 产品 也 体现 了 绿色 节能 ， 与 传统 的 解决 方案 一 堆 
设备 相 比 ， 一 体 化 设备 的 节能 与 低 成 本 显而易见 。 


爱 数 的 创新 是 一 种 突破 ， 也 是 一 种 趋势 ， 顺 应 了 第 三 代 存 储 的 发 
展 方向 ， 统 一 存储 和 应 用 存储 的 趋势 正 是 包括 DataDomain、NetApp 等 
新 兴 存 储 厂商 的 发 力 点 。 


挑战 国外 的 传统 ， 既 需要 技术 实力 的 突破 ， 也 需要 应 用 和 模式 突 
破 ， 包 括 备份 设备 和 容 灾 设 备 在 内 的 应 用 存储 应 该 说 是 国内 存储 发 展 
的 一 个 重要 方向 。 


17.9 Infortrend RR 远程 复制 技术 


Infortrend 的 RR (Remote Replication) 技术 支持 双向 及 多 站 点 复 
制 ， 支 持 同步 复制 、 异 步 复 制 ， 提 供 三 种 模式 : 


=。 Volume Copy 模 式 可 以 让 用 户 一 次 性 将 某 个 逻辑 卷 复 制 到 远程 使 
用 ,不 提供 后 续 的 周期 性 数据 同步 。 


a Async Volume Mirror 采 用 异步 快照 滚动 同步 方式 ， 周 期 性 地 将 
本 地 数据 变化 同步 到 远程 。 
a Sync Volume Miror 则 是 标准 的 同步 数据 复制 。 


如 图 17-49 所 示 为 Infortrend Replication Manager 配 置 界 面 。 可 以 看 
到 常用 的 动作 入 口 ， 比 如 创建 /编辑 /删除 复制 关系 、 网 络 状况 测试 工 
具 、 复 制 暂停 /继续 、 同 步 / 异 步 开 始 、 断 开 复制 关系 、 了 映射 复制 的 逻 
辑 卷 、 目 标 逻 辑 卷 自动 映射 、 切 换 复制 天 系 。 


图 17-49 ”Infortrend Replication Manager 界 面 


提 一 下 比较 有 特色 的 两 个 地 方 。 一 个 是 提供 网 络 状况 测试 工具 ， 
可 以 让 用 户 一 目 了 然 的 了 解 当 前 复制 网 络 通路 的 带宽 、 时 延 、 接 收 和 
发 送 的 数据 量 等 信息 ， 以 便 灵活 控制 数据 复制 参数 。 如 图 17-50 所 示 。 


图 17-50 ”Replication Manager 网 络 状况 测试 工具 


另外 ，Infortrend RR 还 提供 了 另外 一 种 使 用 越 来 越 多 的 应 用 场景 
的 支持 ， 也 就 是 用 同一 台 主 机 连接 两 台 互 为 镜像 的 存储 系统 ， 要 求 当 
一 台 存 储 系统 宕 机 之 后 ， 另 一 台 存 储 设备 无 颖 接管， 拓扑 如 图 17-51 所 
示 。 这 不 但 要 求 底层 存储 系统 之 间 要 维持 数据 复制 关系 ， 而 且 还 要 求 
多 路 径 软 件 充 分 配合 。 普 通 多 路 径 软件 不 认为 两 全 不同 的 阵列 上 报 的 
逻辑 卷 是 同一 个 ， 所 以 发 生 故 障 之 后 并 不 会 自动 切换 。Infortrend 提 供 
Target Volume Auto Mapping 功 能 ， 局 用 之 后 ， 一 旦 目标 存储 发 现 源 存 
储 系 统 不 可 用 ， 会 自动 将 复制 的 目标 卷 映 射 给 预先 配置 好 的 主机 ， 再 
加 上 多 路 径 软件 的 配合 ， 上 层 应 用 可 以 在 很 短 的 停滞 时 间 内 继续 IO 访 
问 。 


图 17-51 目标 卷 自动 映射 


17.10 “ 飞 康 RecoverTrac 容 灾 管 理 系统 


我 们 来 做 一 回 产 品 经 理 ， 如 果 让 你 设计 一 个 容 灾 管 理 系统 ， 你 会 
伍 么 设计 ? 先 不 考虑 可 行 性 ， 融 按照 你 的 理想 来 勾画 。 至 少 我 是 这 么 
个 思路 : 首先 这 个 系统 的 主 界面 应 该 是 一 个 可 视 化 的 、 用 图 形 化 展示 
当前 多 个 站 点 的 各 种 状态 以 及 数据 复制 链 路 拓扑 关系 ， 以 及 哪 条 链 路 
上 正 有 数据 在 被 复制 、 时 延 多 少 、 实 时 带宽 多 少 。 点 击 每 个 站 点 进入 
该 站 点 内 部 视图 ， 会 显示 出 该 站 点 内 所 有 系统 ， 包 括 主机 /应 用 系统 、 
存储 、 网 络 的 运行 状态 。 当 发 生 灾 难 的 时 候 ， 比 如 某 主机 宕 机 ， 而 且 
一 时 半 会 无 法 上 线 了 ， 业 务 又 非常 急 ， 那 么 可 以 考虑 在 本 地 站 点 启用 
一 台 虚 拟 机 来 暂时 代替 这 人 台 主 机 ， 但 是 这 要 求 之 前 主机 的 所 有 数据 都 
必须 在 外 部 存储 系统 中 存储 ， 虚 拟 机 启用 之 后 ， 可 以 挂 起 这 些 数据 
卷 ， 继 续 运行 应 用 系统 ， 如 果 是 某 站 点 整体 宕 机 或 者 灾难 ， 连 容 灾 管 
理 系 统 都 无 法 登陆 了 ， 那 么 此 时 必须 在 容 灾 站 点 的 容 灾 管理 系统 中 强 
行 在 容 灾 站 点 启动 对 应 的 主机 和 业务 系统 ， 但 是 要 求 源 站 点 的 数据 必 
须 在 容 灾 站 点 有 一 份 ， 不 一 定 也 不 指望 是 最 新 的 。 


一 般 产 品 经 理 也 就 像 上 面 这 样 处 理 了 ， 但 是 更 加 专业 的 产品 经 理 
需要 将 这 些 需 求 一 层 层 地 细 化 ， 比 如 怎么 配置 谁 和 谁 是 容 灾 关系 ， 也 
就 是 A 主 机 宕 了 ， 要 起 哪个 备用 主机 /VM? 依赖 关系 和 启动 顺序 如 
何 ? 演练 如 何 实现 ? 物理 到 虚拟 、 虚 拟 到 物理 、 物 理 到 物理 、 虚 拟 到 
虚拟 ， 底 层 数 据 格式 如 何 转换 ? 如 此 复杂 还 是 先 洗 洗 睡 吧 ! 让 我 们 来 
看 看 飞 康 的 RecoverTrac 容 灾 管 理 软件 是 如 何 解 决 这 些 问题 以 及 是 如 何 
设计 展现 的 。 


如 图 17-52 上 图 所 示 为 RecoverTrac 部 署 示意 图 ，RecoveTrac 能 够 将 
NSS/CDP 系 统 所 提供 的 CDP、 远 程 复制 功能 、 主 机 端 Snapshot Agent 功 


能 进行 封装 和 自动 化 处 理 ， 然 后 再 与 各 种 应 用 进行 适 配 ， 最 终 展 现 给 
用 户 一 个 易 配 置 、 易 管理 的 自动 化 容 灾 系统 。 支 持 V2V、P2V、P2P 和 


A [ 


V2P 合 淡 。 


17-52 ”RecoverTrac 部 署 示意 


如 图 17-53 所 示 为 RecoverTrac 主 界面 ， 其 支持 物理 机 、 虚 拟 机 环境 
容 灾 ， 并 支持 原先 由 物理 机 运行 的 系统 ， 容 灾 切 换 到 虚拟 机 运行 ， 反 
之 亦 然 ， 当 然 虚 拟 机 到 虚拟 机 容 灾 、 物 理 机 到 物理 机 容 灾 也 不 在 话 下 
了 。 该 界面 采用 最 为 传统 的 左右 分 栏 模式 设计 ， 左 栏 将 多 种 资源 分 
类 ， 包 括 Host Image 资 源 、Cluster Image 资 源 、 物 理 机 、Hypervisor 宿 
主机 、VMware vCenter 管 理 机 、 微 软 Hyper-V 宿 主机 、 存 储 服 务 器 、 站 
点 、 事 件 等 。 容 灾 管 理 系统 ， 管 理 的 其 实 是 主机 系统 和 存储 系统 ， 其 
本 质 上 只 做 一 件 事 ， 那 就 是 将 主机 系统 在 另 一 个 地 方 启动 ， 其 上 的 应 
用 程序 环境 毫 无 变化 ， 包 括 存储 、 网 络 环 境 。 


图 17-53 ”RecoverTrac 主 界面 视图 


飞 康 在 理念 上 有 一 点 很 特别 之 处 ， 就 是 将 Host 的 概念 脱离 了 底层 
“机 器 ”的 概念 ， 也 就 是 说 ，Host 不 等 于 机 器 ，Host 三 应 用 程序 十 运行 
环境 ， 而 运行 环境 = 主机 名 十 操作 系统 十 网 络 配置 参数 十 存储 路 径 

( 盘 符 和 空间 ) ， 此 时 ， 这 个 Host 其 实 可 以 运行 在 物理 机 器 上 ， 同 样 
也 可 以 运行 在 虚拟 机 上 ， 后 两 者 才 是 机 器 。 所 以 ， 脱 离开 底层 机 器 的 
Host， 飞 康 称 之 为 “Host Image”， 而 底层 的 物理 硬件 或 者 虚拟 硬件 ， 飞 
康 称 之 为 “机 器 ”也 就 是 图 中 的 *Machine”。 


配置 容 灾 系统 ， 首 先 要 把 所 有 资源 识别 出 来 。 这 是 第 一 步 。 如 图 
17-54 所 示 ， 首 先 创建 站 点 ， 包 括 本 地 和 远程 站 点 ， 可 以 创建 多 个 站 


点 ， 然 后 在 本 地 站 点 中 将 存储 服务 器 ( 飞 康 NSS 产 品 ) 、vCenter 管 理 
机 、 虚 拟 机 宿主 机 都 注册 进来 ， 注 册 时 需要 输入 IP 地 址 和 认证 用 户 名 
密码 等 信息 ， 因 为 系统 需要 从 这 些 主机 中 获取 虚拟 机 信息 。 每 台 Host 
中 还 必须 安装 飞 康 SAN Client 客 户 端 ， 从 而 与 RecoverTrac 通 信 ， 以 便 
监控 和 管理 容 灾 过 程 。 


图 17-54 ”创建 站 点 、 注 册 虚 拟 机 管理 机 和 宿主 机 、 注 册 存 储 服务 器 


如 图 17-55 所 示 为 向 系统 中 添加 所 有 需要 保护 的 物理 机 或 者 虚拟 
机 ， 这 就 是 为 何 系统 需要 先 把 vCenter、ESX Serve、Hyper-V 宿 主机 预 
先 注 册 和 认证 好 的 原因 ， 因 为 系统 会 向 这 些 主机 查询 虚拟 机 列表 ， 从 
而 方便 用 户 选 择 添 加 。 


图 17-55 “添加 需要 容 灾 保护 的 物理 机 或 者 虚拟 机 


其 次 ，RecoverTrac 还 支持 整个 集群 为 单元 进行 容 灾 切换 。 所 以 必 
须 先 创 建 好 对 应 的 集群 资源 对 象 也 就 是 图 中 的 Cluster Image。 如 图 17- 
56 人 一 图 17-58 所 示 。 首 先 创建 对 应 的 集群 资源 对 象 ， 然 后 向 其 中 添加 
Host Inage， 然 后 关联 该 集群 中 主机 所 使 用 的 存储 系统 ， 最 后 关联 该 
集群 对 应 的 虚拟 IP 地 址 。 系 统 必须 掌握 上 面 的 信息 ， 因 为 ， 在 做 容 灾 
切换 的 时 候 ， 系 统 会 首先 将 所 配置 的 存储 系统 逻辑 卷 的 复制 天 系 断 开 
并 切换 到 容 灾 站 点 ， 然 后 在 容 灾 站 点 的 机 器 上 挂 载 好 这 些 逻 辑 卷 ， 然 
后 配置 好 所 设置 的 IP 地 址 ， 最 后 才 会 启动 对 应 的 机 器 。 


图 17-56 ”创建 集群 资源 对 象 并 添加 Host Image 


图 17-57 关联 该 集群 底层 所 使 用 的 存储 逻辑 卷 


图 17-58 告诉 系统 该 集群 的 虚拟 下 地 址 
如 图 17-59 所 示 ， 配 置 完 后 的 集群 资源 对 象 的 属性 可 以 随时 更 改 。 
图 17-59 ”集群 资源 对 象 属性 


在 主 界面 的 “Machine” 中 ， 定 义 的 则 是 真正 的 物理 机 器 或 者 虚拟 机 
器 。 物 理 机 的 加 电 启 动 也 是 可 以 由 程序 控制 的 ， 早 期 对 物理 机 加 电 局 
动 必须 管理 员 在 机 器 跟前 才能 完成 ， 而 如 今 各 种 远程 管理 硬件 和 协议 
已 经 非常 完善 ， 比 如 IPMI 协 议 十 BMC 心 片 共 同 配合 ， 可 以 通过 远程 以 
太 网 来 发 送信 号 控制 物理 机 的 开关 机 。 对 虚拟 机 的 开关 机 就 不 用 说 
了 ， 更 加 方便 。 能 对 机 器 开关 自如 ， 这 一 点 是 完成 容 灾 自 动 化 的 前 提 
之 一 。 


向 系统 中 注册 物理 机 和 虚拟 机 的 过 程 限 于 篇 幅 就 不 再 贴图 了 ， 基 
本 过 程 类 似 。 值 得 一 提 的 是 ， 不 仅 可 以 在 RecoverTrac 中 注册 已 经 存在 
的 虚拟 机 ， 还 可 以 直接 在 界面 中 创建 新 的 虚拟 机 ， 因 为 前 文中 已 经 将 
vCenter 管 理 机 注册 到 系统 中 并 认证 了 ， 所 以 RecoverTrac 可 以 利用 接口 
直接 创建 新 的 虚拟 机 。 


创建 好 之 后 的 物理 机 或 者 虚拟 机 对 象 的 各 种 属性 可 以 随时 更 改 ， 
如 图 17-60、 图 17-61 所 示 。 其 中 ， 物 理 机 的 Power Control 属 性 页 面 中 可 
以 选择 各 种 不 同 的 远程 管理 协议 ; Service 页 面 中 可 以 选择 如 果 该 机 器 
是 windows 操 作 系 统 ， 其 需要 保护 的 服务 列表 ， 以 便 在 切换 到 备用 机 
器 之 后 重新 按照 配置 规则 启动 这 些 服务 ;SAN Client 是 指 该 机 器 所 连 
接 的 飞 康 NSS 设 备 需要 对 该 主机 做 好 映射 关系 ， 该 主机 作为 该 NSS 设 
备 一 个 SAN Client; Device 则 是 指 该 主机 所 连接 的 逻辑 卷 ， 系 统 可 以 目 
动 发 现 ， 也 可 以 手动 添加 ; Hardware Profile 则 是 用 来 描述 物理 机 关键 


IO 设 备 ， 比 如 网 卡 、FC 卡 的 驱动 配置 参数 ， 以 便 系统 参考 导入 备用 机 
刁 。 


图 17-60 “物理 机 和 虚拟 机 属性 


图 17-61 电源 管理 设置 和 Windows 服 务 设置 


所 有 资源 对 象 注册 和 配置 完毕 之 后 ， 需 要 创建 容 灾 任 务 。 如 图 17- 
62 所 示 ， 首 先 需 要 创建 一 个 容 灾 任务 ， 选 择 需要 进行 容 灾 的 Host 
Image， 然 后 选择 对 应 的 容 灾 端 机 器 ， 以 及 设 定 这 些 Host Image 之 间 的 
启动 顺序 ， 图 中 的 Delay Time 便 是 来 控制 各 个 主机 延迟 多 久 启 动 ， 以 
便 保证 被 依赖 的 应 用 先 启动 ， 依 赖 他 人 的 应 用 后 启动 ， 当 然 ， 这 些 必 
须 由 人 来 告诉 系统 ， 系 统 自身 不 会 知道 这 些 逻 辑 的 。 


图 17-62 ”创建 容 灾 任务 和 选择 容 灾 端 机 器 


如 图 17-63 所 示 为 选择 灾 备 端的 磁盘 ， 如 果 本 地 站 点 和 灾 备 站 点 属 
于 共享 存储 型 的 拓扑 ， 那 么 图 中 就 需要 勾 选 “Same Disk Devices”， 此 
时 相当 于 仅仅 可 以 容 灾 主 机 宕 机 ; 如果 本 地 站 点 和 容 灾 站 点 之 间 采 用 
数据 远程 复制 技术 ， 那 么 切换 到 灾 备 端 运 行 之 前 ， 存 储 系 统 就 必须 先 
把 复制 关系 切换 ， 同 时 逻辑 卷 也 是 主 备 关 系 ， 此 时 就 需要 选择 使 用 
“Replica Disk Devices” 来 作为 灾 备 端 所 使 用 的 逻辑 卷 。 


图 17-63 ”选择 恢复 用 逻辑 卷 和 调整 启动 参数 


容 灾 任务 创建 完毕 之 后 ， 便 可 以 在 灾难 发 生 的 时 候 ， 运 行 对 应 的 
任务 ， 系 统 便 会 按照 之 前 设置 好 的 参数 和 恢复 方式 将 宕 机 的 Host 
Image 重 新 在 其 他 的 机 器 上 运行 起 来 。 


大 致 步骤 如 图 17-64 所 示 。 当 开始 执行 某 个 恢复 任务 的 时 候 ， 
RecoverTrac 会 首先 对 当前 数据 卷 做 一 份 快照 ， 然 后 会 利用 这 份 快照 来 
作为 灾 备 端 主机 的 底层 数据 ， 为 何不 直接 用 原 卷 上 的 数据 ? 因为 此 时 
灾难 已 经 发 生 ， 原 卷 的 数据 最 好 别 碰 ， 碰 坏 了 玉石 俱 焚 ， 还 是 做 一 份 
快照 来 使 用 保险 的 多 。 快 照 生 成 之 后 ，RecoverTrac 会 将 这 份 快 照 挂 起 
来 ， 然 后 将 其 改变 成 灾 备 端 主机 硬件 以 及 OS 能 够 支持 的 格式 ， 比 如 
P2V、V2P、P2P， 如 果 两 全 物理 机 硬件 规格 、HBA 卡 型 号 也 不 同 ， 融 
可 能 需要 做 一 些 更 改 才 可 以 成 功 挂 起 数据 卷 。 然 后 ，RecoverTrac 会 将 
处 理 好 的 快照 映射 给 灾 备 端 主机 ， 但 是 先 不 启动 灾 备 端 主机 。 下 一 
步 ， 如 果 是 计划 内 切换 ，RecoverTrac 会 首先 停 掉 源 端 业务 主机 ， 然 后 
启动 灾 备 端 主机 ， 主 机 启动 之 后 ， 数 据 卷 自然 挂 起 ， 业 务 自然 启动 ; 
如 果 是 灾难 真实 发 生 ， 那 么 系统 会 直接 启动 灾 备 端 主机 。 


图 17-64 “恢复 流程 


说 明 : 虽说 飞 康 RecoverTrac 的 配置 界面 并 没有 达到 本 人 理想 
中 的 容 灾 管 理 系统 的 用 户 体验 效果 ， 不 过 其 对 容 灾 的 封装 抽 
象 ， 比 如 ， 将 Host 作 为 一 个 资源 ， 其 底层 可 以 对 应 物理 机 也 
可 以 是 虚拟 机 ， 并 可 以 任意 P2V/V2P/V2V/P2P， 其 概念 是 非 
常 独特 的 ， 对 容 灾 的 管理 、 监 控 和 配置 等 方面 可 以 说 非常 强 
大 ， 有 更 多 的 细节 可 以 去 挖掘 和 使 用 。 在 此 我 也 希望 飞 康 研 
发 团队 可 以 将 好 东西 宣传 出 去 ， 界 面 上 的 改进 在 如 今 移动 终 
问 时 代 并 非 难事 ， 欲 行 千里 ， 好 马 须 配 好 鞠 。 


国内 也 有 广 商 开 发 的 类 似 容 灾 管 理 系 统 ， 但 是 无 论 是 理念 、 
技术 实现 、 细 节 、 体 验 等 ， 都 达 不 到 飞 康 RecoverTrac 的 水 
平 ， 而 且 有 很 浓重 的 参考 痕迹 ， 不 再 多 表 ， 究 其 原因 ， 还 是 
缺乏 十 年 磨 一 剑 登 峰 造 极 的 执着 ， 不 重视 技术 ， 和 急功近利 。 
振兴 民族 科技 之 路 ， 谈 何 容易 ! 


17.11 带宽、 延迟 及 其 影响 


100Mb/s， 这 个 速率 意味 着 什么 呢 ? 有 人 说 ， 每 秒 可 以 传输 10MB 
的 数据 (8/10b 编 码 下 ) 。 通 常情 况 下 ， 这 种 说 法 是 对 的 。 但 是 如 果 发 
送 方 与 接收 方 之 间 的 距离 变 得 很 远 ， 比 如 数 百 公里 甚至 一 千 公 里 ， 那 
么 这 种 说 法 ， 你 会 发 现 根 本 不 成 立 。 我 们 现在 就 来 分 析 一 下 。 


大 家 知道 ， 光 或 者 电信 号 的 传输 是 有 固定 速度 的 ， 即 近似 每 秒 30 
万 公里 。 ( 光 在 真空 或 者 空气 中 传播 可 以 达到 30 万 公里 每 秒 ， 但 是 在 
光缆 中 传播 的 实际 速度 为 20 万 公里 每 秒 ， 而 电信 号 在 电缆 上 的 传播 近 
似 为 21 万 公里 每 秒 ) 如 果 两 点 之 间距 离 为 1000 公 里 ， 那 么 信号 传 一 个 
来 回 〈 传 到 对 端 ， 然 后 对 端 给 以 ACK 应 答 ) 所 耗费 的 时 间 就 是 
1000*300000x2s6.6ms。 什 么 概念 呢 ? 也 就 是 你 想 把 tb 的 数据 传输 到 
一 千 公 里 之 外 的 地 方 ， 那 么 至 少 你 要 耗费 6.6ms。 那 么 传输 10b、 
100b、1Kb、100Mb ， 需 要 多 长 时 间 呢 ? 首先 想到 的 是 ， 至 少 比 传 1b 
要 慢 。 到 底 需 要 多 长 时 间 ? 来 看 这 个 公式 : 传输 来 回 时 间 = 《数据 量 
: 链 路 速率 x2) 十 (传输 距离 :光速 x2) 。 数 据 在 传输 的 时 候 ， 首 先 会 
被 通过 编码 电路 将 数据 串 行 化 编码 然后 放 到 电路 或 者 光路 上 传输 ， 这 
个 编码 速率 ， 就 是 链 路 带宽 ，100Mby/s 的 带宽 与 1000Mb/s 的 带宽 ， 区 
别 就 在 于 后 者 在 单位 时 间 内 可 以 编码 相当 于 前 者 10 倍 量 的 数据 。 但 是 
不 管 链 路 带宽 有 多 少 ， 数 据 被 编码 之 后 ， 数 据 在 电路 上 的 传输 所 耗费 


的 时 间 对 各 种 速率 的 链 路 来 讲 都 是 一 样 的 ， 因 为 传输 的 时 候 已 经 与 链 
路 编码 速率 (带宽) 无 关 了 ， 传 输 到 对 方 之 后 ， 对 方 还 需要 解码 (所 
以 编码 所 耗费 的 时 间 也 要 乘 以 2) ， 同 样 也 是 取决 于 链 路 带宽 。 


所 以 ， 当 两 点 之 间 传 输 距 离 很 近 的 时 候 ， 比 如 1 千 米 ， 那 么 传输 时 
延 0.0066ms， 基 本 上 可 以 忽略 了 。 所 以 那个 公式 变 为 : 传输 时 间 == 
(数据 量 : 链 路 速率 ) 。 所 以 说 ， 链 路 速率 越 大 ， 只 代表 其 编码 速度 
越 快 ， 而 不 代表 传输 速度 越 快 ， 传 输 速度 是 固定 的 ， 都 是 光速 。 再 打 
个 比方 ， 有 一 辆 长 途 车 ，50 个 人 排队 上 和 车， 排队 上 车 需要 120s， 汽 车 
行驶 需要 60000s，50 个 人 排队 下 车 需要 120s。50 个 人 被 排队 送 上 车 ， 
就 好 比 数据 被 捉 行 编码 放 到 电路 上 传输 ， 汽 车 行驶 相当 于 电路 信号 从 
一 端 传递 到 另 一 端 ，50 个 人 排队 下 车 ， 就 好 比 对 端的 解码 过 程 了 ， 然 
而 到 此 还 没有 结束 ， 当 汽车 抵达 目的 地 之 后 ， 司 机 必须 在 返回 出 发 点 
进行 报信 ， 这 就 好 比 TCP 协 议 在 收 到 数据 之 后 发 送 给 源 端 的 ACK 应 答 
一 样 。 司 机 可 以 空 着 车 跑 回 去 报信 (单独 发 送 ACK 应 答 包 ) ， 也 可 以 
在 目的 端 撒 带 着 一 些 回程 客人 返回 去 报信 (TCP 可 以 在 反 向 流量 中 夹 
带 ACK 应 答 信息 以 提高 效率 ) 。 但 是 在 容 灾 系统 中 ， 数 据 总 是 从 源 端 
流向 目的 端的 ， 或 者 在 灾难 回 切 的 时 候 从 目的 端 流向 源 端的 ， 总 之 只 
有 一 个 方向 有 实体 数据 流动 ， 那 么 此 时 回程 ACK 都 是 独立 的 ACK 应 答 
包 (独立 ACK 包 很 小 所 以 其 编 解码 所 耗费 的 时 间 也 忽略 掉 即 可 ) 。 


另外 ， 一 辆 汽车 能 承载 的 人 数 是 有 限 的 ， 也 就 是 说 ， 得 一 超 一 趟 
地 拉 ， 这 就 好 比 TCP 每 次 所 发 送 的 最 大 数据 长 度 ， 也 就 是 TCP 的 滑动 
窗口 长 度 ，TCP 得 分 批 把 用 户 数据 传送 出 去 ， 每 次 的 发 送 量 必须 小 于 
TCP 滑 动 窗口 的 长 度 ， 每 次 传输 之 后 均 需 要 对 方 发 送 一 个 ACK (这 里 
不 考虑 ACK 合 并 等 特殊 情况 ) 。 每 批 数 据 虽 然 到 了 底层 可 能 被 切 分 ， 
比如 TCP 的 MSS (Max Segment Size) 切片 ， 一 般 等 于 底层 链 路 的 


MTU， 底 层 链 路 再 用 MTU 的 值 来 切片 ， 但 是 这 些 底层 的 切片 在 被 传输 
到 对 端 之 后 ， 并 不 需要 对 端 底 层 协议 的 应 答 ， 只 有 对 端的 TCP 在 完整 
的 收 到 TCP 发 送 的 一 批 数据 之 后 ， 才 会 应 答 。 


那么 我 们 来 算 算 在 相隔 1000 千 米 的 两 点 之 间 ， 每 秒 到 底 能 够 传送 
多 少 个 来 回 : 1000ms*6.6ms 三 151 个 来 回 。 如 果 按 照 TCP 的 典型 滑动 窗 
口 即 16KB 来 计算 的 话 (每 次 发 送 16KB 数 据 然 后 就 等 待 应 答 ， 不 考虑 
延迟 应 答 或 者 合并 应 答 等 特殊 情况 ) ， 那 么 每 秒 吞吐 量 仅 为 151x16KB 
一 2416KB， 也 就 是 2.4MB 每 秒 。 和 夸张 么 ? 


当然 ， 上 述 算 式 是 忽略 了 编 解 码 所 耗费 的 时 间 以 及 整个 链 路 上 各 
种 中 继 、 转 发 或 者 协议 转换 设备 所 带 来 的 处 理 延迟 (好 比 长 途 车 途中 
遇 到 的 各 种 收费 站 、 立 交 桥 等 ) 。 如 果 算 上 这 两 者 ， 则 吞吐 量 会 
低 。 更 加 准确 的 实际 数据 传输 吞吐 量 计 算 公 式 为 V 三 TCP Window 
Size=2 (TCP Window Size= 链 路 带宽 十 距离 :光速 十 链 路 设备 处 理 延 
人 迟 ) 。 总 之 ， 距 离 越 远 ， 实 际 传输 吞吐 量 就 越 低 ， 在 实际 应 用 中 一 定 
要 有 底 。 


当 距 离 很 短 时 ， 可 以 忽略 距离 融 来 的 延迟 ， 此 时 显然 谁 带宽 高 谁 
传 的 就 快 ;而 距离 很 长 时 ， 此 时 带宽 再 高 也 无 济 于 事 ， 因 为 大 头 都 被 
距离 给 耗 掉 了 。 另 外 ， 即 便 是 底层 链 路 的 带宽 相同 ， 距 离 也 相同 的 情 
况 下 ， 使 用 不 同 的 协议 进行 传输 ， 所 市 来 的 延迟 也 是 不 同 的 。 但 是 设 
想 一 下 ， 不 管 链 路 跨越 了 多 长 的 距离 ， 如 果 这 条 链 路 上 永远 都 有 数据 
在 传 着 ， 那 么 发 送 方 与 接收 方 就 可 以 以 链 路 带宽 的 原生 速率 来 收发 信 
息 ， 只 不 过 有 时 延 ， 就 像 卫 星 电 视 那 样 ， 此 时 传输 速率 并 不 会 打折 ， 
如 果 做 到 这 一 点 ， 那 么 对 于 一 个 容 灾 系 统 来 讲 是 非常 好 的 事情 ， 充 其 
量 只 会 丢失 几 上 毫秒 之 内 的 数据 。 但 是 ， 事 实 却 并 非 如 此 。 超 远 距离 传 
输 ， 怕 的 就 是 数据 流 的 卡 壳 ， 卡 一 次 两 次 不 要 紧 ， 频 繁 卡 壳 ， 那 就 根 


本 无 法 利用 起 链 路 带宽 了 。 这 就 好 比 磁盘 寻 道 操 作 一 样 ， 本 来 磁头 能 
以 很 高 的 速度 读 写 盘 片上 的 数据 ， 但 是 没 办 法 ， 必 须 换 道 ， 这 一 换 
道 ， 外 部 速率 又 降 。 碰 巧 的 是 ，15K 转 每 秒 的 SAS 盘 其 平均 寻 道 时 间 
为 5.5ms， 而 一 千 公 里 距离 的 传输 时 延 为 6.6ms， 这 两 个 值 倒是 接近 而 
且 还 挺 有 意思 。 


传输 协议 无 法 避免 “ 卡 壳 ”?， 因 为 总 要 传 一 段 欣 一 段 来 等 待 对 方 叶 
个 声 ， 看 看 收 到 没有 。 比 如 TCP， 这 样 就 平 白 无 故 的 浪费 了 底层 链 路 
时 阶 ， 再 加 上 长 距离 下 的 高 传输 延迟 ， 一 来 一 回 更 浪费 了 大 量 时 间 ， 
所 以 会 出 现 上 文中 的 即便 是 千 兆 链 路 下 ，1000 公 里 的 距离 每 秒 也 只 能 
传输 2.4MB 的 理论 值 ， 实 际 值 将 会 更 低 了 。 


另外 ， 如 果 在 长 距离 下 使 用 诸如 iSCSI 等 协议 的 话 ， 那 将 更 是 一 笔 
惊人 的 浪费 。 大 家 知道 SCSI 层 本 身 就 有 传输 保障 机 制 ， 人 家 自己 有 
ACK 那 一 套 ， 而 底层 TCP 再 来 这 一 套 显然 就 显得 多 此 一 举 了 。 按 理 说 
有 了 SCSI 层 的 传输 保障 机 制 ， 其 下 层 协议 栈 就 应 该 是 个 无 状态 的 类 似 
链 路 层 协 议 了 ， 应 该 直接 将 数据 一 股 脑 传 过 去 ， 但 是 现实 是 它 非 得 传 
一 段 ， 停 一 段 ， 等 待 对 方 说 个 OK， 然 后 再 传 再 停 ， 慢 慢 腾 腾 ; 不 仅 如 
此 ， 再 加 上 SCSI 也 要 传 传 停 停 ， 那 就 是 变本加厉 。 所 以 长 距离 上 跑 诸 
如 FCP、iSCSI 等 这 种 SCSI 协 议 与 FC/TCPIP 协 议 的 合体 协议 ， 将 会 是 个 
梦 持 。 


降低 不 必要 的 ACK 数 量 ， 增 加 滑动 窗口 ， 这 些 都 是 广域网 加 速 的 
技术 ， 对 传输 速率 会 有 一 定 程度 的 提高 。 但 是 最 终 解 决 办 法 ， 还 是 要 
尽量 缩短 两 地 距离 ， 或 者 开发 专用 优化 的 协议 了 。 


说 到 私有 协议 ， 这 里 就 展开 讲 一 下 。 上 述 所 有 场景 ， 均 建立 在 两 
点 之 间 只 有 单 TCP 连 接 ， 即 单 流 的 场景 下 ， 此 时 的 链 路 带宽 当然 无 法 


被 充分 利用 ， 而 且 也 提 过 ， 如 果 底 层 链 路 一 刻 也 不 内 着 ， 那 么 其 有 效 
带宽 就 可 以 更 高 的 被 利用 ， 怎 么 办 呢 ? 显然， 通过 提高 并 发 连接 的 数 
就 可 以 充分 利用 起 底层 链 路 的 时 阶 。 


用 


提示 : 关于 这 个 思想 ， 在 磁盘 阵列 控制 器 如 何 充分 利用 起 后 
端 FCAL 环 路 的 带宽 方面 也 是 类 似 的 ， 大 家 可 以 阅读 附录 1 中 
的 第 5 问 。 


大 家 知道 iSCSI 里 有 个 Multi Connection Per Session 的 概念 ， 使 用 
Microsoft 的 软 iSCSI Initiator 的 话 ， 里 面 就 可 以 进行 设置 ， 让 Initiator 端 
可 以 同时 与 1SCSI Target 端 建立 多 条 并 发 的 TCP 连 接 ， 从 而 提高 远 距 离 
传输 时 的 效率 ， 当 然 这 个 特性 需要 iSCSI Target 端 的 支持 配合 。 但 是 对 
于 FCP 来 讲 ， 就 没有 这 种 特殊 考虑 的 并 发 连接 设计 了 。 经 过 考量 设计 
的 可 并 发 连接 的 私有 协议 可 以 极 大 提高 远程 数据 传输 的 效率 。 比 如 ， 
在 优质 链 路 条 件 下 ， 可 以 降低 TCP 连 接 数 并 且 增 加 滑动 窗口 ， 而 随 着 
链 路 质量 的 降低 ， 逐 渐 增 加 TCP 并 发 连接 数 ， 同 时 降低 滑动 窗口 的 大 


小 。 


既然 说 到 了 多 流 并 发 ， 那 么 索性 就 再 展开 一 些 。 对 于 一 个 异步 模 
式 的 数据 容 灾 复 制 系统 ， 最 起 码 要 保证 的 是 灾 备 端 数据 的 一 致 性 ， 而 
数据 一 致 性 又 有 多 个 层面 ， 最 底层 的 一 致 性 就 是 所 谓 “ 时 序 一 致 性 ”， 
灾 备 端 起 码 要 保证 每 个 IO 都 按照 其 在 源 端 被 执行 的 顺序 刷 入 灾 备 端 数 
据 集中 。 如 果 使 用 单 流 TCP/P 则 可 以 保证 时 序 ， 但 是 传输 效率 很 低 ; 
但 是 在 多 流 并 发 的 情况 下 ， 因 为 原本 流 与 流 之 间 是 无 关联 的 ， 可 能 在 
源 端 先 执行 的 IO 被 传送 到 对 端 之 后 却 被 后 执行 了 ， 此 时 就 需要 引入 更 
复杂 的 逻辑 来 保证 同步 过 去 的 数据 被 按照 顺序 执行 。 这 里 又 有 两 种 办 
法 可 以 考虑 ， 一 种 是 保证 RPO， 在 多 个 流 之 间 维 护 强 一 致 性 ， 将 多 个 
流 强 制 关 联 以 保证 收发 顺序 ， 此 时 灾 备 端 可 以 立即 将 收 到 的 IO 数据 刷 


入 底层 数据 集 ; 第 二 种 则 是 牺牲 RPO， 主 备 站 点 之 间 之 间 采 用 端 到 端 
的 一 致 性 组 技术 ， 在 数据 批 与 数据 批 之 间 保 证 时 序 性 ， 而 不 是 每 个 IO 
之 间 。 此 时 灾 备 端 不 能 在 收 到 数据 后 立即 刷 入 ， 比 如 等 待 一 批 数据 全 
部 收 到 之 后 才 可 以 刷 入 。 这 么 做 虽然 可 能 导致 丢失 一 批 数据 而 不 是 几 
个 IO， 但 是 可 以 方便 的 保证 数据 一 致 性 。 


第 18 章 ”和 鬼 荐 神 工 一 一 数据 前 处 理 
与 后 处 理 


@ 数据 前 处 理 
@ 数据 后 处 理 
四 阴阳 


存储 相当 于 主机 之 下 的 主机 ， 主 机 要 做 什么 ， 人 存储 都 要 做 ， 但 是 
存储 做 的 ， 主 机 不 一 定做 。 存 储 上 运行 着 各 种 各 样 的 应 用 程序 ， 这 些 
程序 专门 管理 和 处 理 数 据 ， 作 者 发 明了 一 个 词 ， 称 其 为 “Data 
Cooker”， 个 人 感觉 非常 合适 用 来 描述 这 些 程序 ， 比 如 Snapshot、 
Deduplication、Mirror、Clone、Tiering、Migrating 等 。 这 些 DataCooker 
可 以 在 原本 的 裸 数 据 之 上 实现 更 高 级 的 功能 ， 实 现 更 多 的 附加 值 。 


存储 除了 比 主机 多 运行 了 一 些 更 为 强大 的 复杂 的 Data Cooker 之 
外 ， 其 他 与 主机 无 异 。 所 以 ， 只 要 有 了 所 有 Data Cooker 或 者 创造 更 强 
大 的 Data Cooker， 那 么 就 有 了 创造 一 台 强 大 存储 的 能 力 。 


相对 于 存储 硬件 来 讲 ， 软 件 更 为 重要 ， 有 些 存储 甚至 连 一 些 普 通 
x86 服 务 器 的 硬件 指标 都 达 不 到 ， 但 就 是 因为 它 有 强大 的 Data 
Cooker， 可 以 让 它 称霸 一 方 。 如 果 有 了 更 强大 的 硬件 平台 ， 可 以 将 代 
码 移植 到 新 平台 之 上 。 不 过 看 似 目 前 不 开放 的 平台 正在 萎缩 ， 大 家 都 
在 开放 平台 里 给 自己 铺路 ， 比 如 EMC 的 VMAX， 高 端 存 储 也 用 普通 
X86。 


18.1 数据 存储 和 数据 管理 


存储 系统 有 两 大 部 分 内 容 : 数据 存储 、 数 据 管理 。 数 据 存储 部 分 
包括 : 存储 控制 器 硬件 、 磁 盘 、 适 配器 、 网 络 传输 通道 、RAID 管 理 、 
LUN 管 理 等 ， 这 个 部 分 的 主要 功能 就 是 提供 基本 的 裸 数据 的 存储 服 
务 ， 比 如 将 数据 存储 到 对 应 的 LUN 中 或 者 从 其 中 读 出 。 数 据 管理 部 分 
包括 : Tier、Snapshot、Clone 等 数据 处 理 功 能 模块 ， 更 多 的 数据 管理 
功能 模块 如 图 18-1 所 示 。 


图 18-1 数据 存储 和 数据 管理 层次 图 


数据 管理 部 分 主要 负责 一 些 高 层 的 数据 处 理 ， 就 像 社会 需求 层次 
金字 塔 一 样 ， 最 底层 的 需求 是 生存 、 温 饱 、 有 衣服 穿 ， 这 一 层 就 对 应 
了 存储 系统 对 数据 的 基本 存储 功能 ， 比 如 向 一 块 磁盘 中 存储 数据 ; 再 
往 上 就 是 更 高 层 的 需求 ， 比 如 不 仅 要 瘟 饱 ， 还 要 吃 好 ， 味 道 足 ， 而 且 
还 要 物质 丰富 ， 要 喻 有 险 。 这 就 对 应 了 存储 系统 对 数据 存储 的 进化 ， 
比如 将 多 块 硬盘 做 成 RAID 提 高 性 能 ， 并 且 划 分 LUN 使 空间 分 配 更 加 灵 
活 ， 硬 件 配置 越 来 越 强 大 ; 然而 人 的 需求 总 是 得 寸 进 尺 而 且 越 来 越 疯 
狂 并 且 无 聊 的 ， 吃 还 要 吃 出 花样 来 ， 吃 出 品位 和 精神 来 ， 吃 完了 还 不 
行 ， 还 要 追求 精神 层面 的 享受 ， 比 如 ， 钱 太 多 了 ， 上 街 撒 一 把 ， 或 者 
装 个 乞丐 乞讨 。 这 就 对 应 了 存储 系统 中 对 数据 的 更 高 级 的 处 理 ， 
Mirro、Snapshot 等 ， 甚 至 一 些 华 而 不 实 的 功能 。 


又 可 以 把 数据 管理 部 分 分 为 对 数据 的 前 处 理 和 后 处 理 两 大 类 别 。 
前 处 理 指 的 是 当 数 据 还 未 写 入 磁盘 之 前 就 已 经 对 数据 进行 了 初期 加 
工 ， 或 者 对 数据 的 存放 空间 做 预先 的 准备 ， 之 后 才 写 入 磁盘 存放 ， 前 
处 理 的 例子 比如 : Post Deduplication、Thin Provision 等 。 后 处 理 则 指 
的 是 当 数 据 写 入 磁盘 之 后 ， 功 能 模块 将 这 些 数据 再 读 出 进行 处 理 ， 之 


后 再 写 回 磁盘 。 后 处 理 的 典型 例子 比如 : BackGround Deduplication、 
Data Migrating 等 。 有 些 功 能 模块 既 包含 前 处 理 过 程 ， 又 包含 后 处 理 过 
程 ， 比 如 Snapshot。 Snapshot 的 生成 是 一 个 后 处 理 过 程 ， 但 是 一 旦 
Snapshot 和 生成， 那么 每 个 受 影响 的 IO 也 都 会 经 过 额外 的 前 处 理 过 程 ， 
比如 Cow 过 程 ， 之 后 才 被 写 入 硬盘 ; 再 比如 Mirror，Mirror 可 以 前 人 台 同 
步 执 行 ， 也 可 以 后 台 异 步 执 行 ， 前 者 则 就 属于 前 处 理 ， 而 后 者 就 是 后 
处 理 了 5 


18.2 ”存储 系统 之 虚实 阴阳 论 


太 始 之 初 为 太极 ， 即 先天 地 而 生 者 ， 即 道 ， 即 混沌 无 极 。 无 极 而 
至 则 分 化 为 两 极 ， 一 为 阴 ， 一 为 阳 ， 阴 者 为 浊 为 实质 ， 阳 者 为 清 为 气 
为 能 量 。 二 者 本 为 和 合 ， 但 合 久 必 分 ， 阴 阳 分 化 导致 对 立 ， 阴 阳 二 者 
通过 不 断 芭 加 和 合 ， 量 的 积累 产生 质 的 变化 ， 而 衍生 了 万 物 万 象 ， 所 
以 万 物 万 象 皆 表现 为 阴阳 实 虚 表 里 上 下 大 小 等 两 极 化 。 然 而 分 久 必 
合 ， 两 极 相合 的 过 程 便 衍生 了 生老病死 沧海 桑田 。 两 极 分 分 合 合 ， 
物 轮回 生生 不 息 。 阴 阳 既 对 立 又 相合 ， 阴 灭 则 阳 毁 ， 阳 上 毁 则 阴 灭 。 


现在 的 社会 是 虚 进 实 退 ， 实 实在 在 的 东西 越 来 越 少 ， 越 来 越 没 人 
去 做 ， 而 虚 的 东西 却 越 来 越 多 的 人 趋 之 各 榴 。 虽 然 表 面 看 来 风光 无 
限 ， 但 殊不知 ， 虚 是 要 靠 实 来 支撑 的 ， 阳 和 气 是 要 人 靠 阴 实 来 运 化 生发 
的 ， 不 管 任何 系统 ， 如 果 系 统 中 的 实质 不 够 ， 那 么 它 所 能 运 化 出 的 能 
量 也 就 有 限 。 如 果 利 用 某 些 垂 门 收 道 强制 运 化 ， 那 么 必定 会 元 气 大 
伤 ， 阳 气 再 也 不 能 运 化 ， 此 时 整个 系统 束 表 现 为 一 个 没有 知觉 和 功能 
的 实质 ， 这 种 实质 其 本 质 已 亡 ， 这 就 是 所 谓 “ 阳 火 则 阴 毁 ”。 如 果 系 统 
的 实质 已 经 亏空 ， 则 阳 气 也 无 法 生化 ， 此 即 为 “ 阴 损 则 阳 损 ”。 所 以 当 


整个 社会 的 阳 膨 胀 到 一 定 程度 之 后 ， 物 极 必 芭 ， 能 量 将 走向 夫 韦 到 火 
沉淀 ， 然 后 再 逐渐 积累 阴 实 ， 然 后 阳 再 次 逐渐 被 生发 扩大 。 


对 于 存储 系统 来 讲 ， 既 然 作 为 一 个 系统 ， 那 么 它 与 世界 中 其 他 系 
统 都 有 类 似 的 本 质 ， 阴 阳 和 合 而 生 ， 同 时 阴阳 对 立 ， 互 引 互 斥 ， 共 同 
推动 自身 的 发 展 过 程 。 对 于 存储 系统 ， 实 质 为 了 明 ， 上 比如 控制 器 、 磁 
盘 、 线 绕 、 柜 子 等 所 有 硬件 ; 而 软件 为 阳 ， 比 如 操作 系统 以 及 各 种 
Data Cooker。 软件 与 硬件 之 间 就 是 一 种 阴阳 关系 ， 脱 离 了 软件 ， 硬 件 
就 是 一 堆 废 铁 ; 而 脱离 了 硬件 ， 软 件 就 脱离 了 存在 的 根本 而 灰 飞 烟 
灭 。 如 果 硬 件 不 够 强大 ， 那 么 软件 运行 的 速度 也 就 不 够 快 。 同 样 ， 在 
软件 层次 之 内 ， 也 有 阴阳 天 系 ， 帮 层 软件 为 阴 ， 比 如 设备 驱动 程序 、 
RAID/LUN 管 理 程序 ; 而 上 层 的 软件 为 阳 ， 比 如 Snapshot、Clone 等 ， 
如 果 没 有 底层 的 阴 实 的 支撑 ， 上 层 的 这 些 能 量 就 无 法 被 生化 。 


磁盘 上 只 有 数据 ， 不 同 的 存储 系统 ， 样 子 可 能 一 样 ， 磁 盘 也 都 可 
以 一 样 ， 但 是 它们 各 自 的 修行 境界 是 不 同 的 ， 有 些 系统 拥有 强大 的 
Data Cooker， 而 有 些 系统 则 徘徊 于 基本 的 数据 存储 层面 。 


万 物 只 要 法 于 阴阳 ， 就 可 以 保证 运行 顺畅 ， 一 旦 与 阴阳 变化 规律 
相悖 ， 则 就 会 产生 各 种 问题 。 对 于 存储 系统 也 遵循 这 个 道理 。 比 如 某 
系统 拥有 强大 的 硬件 ， 但 是 它 却 没有 强大 的 数据 管理 软件 模块 ， 只 能 
够 提供 基础 的 数据 存储 服务 ， 那 么 这 样 的 存储 系统 就 很 难 满足 目前 的 
业务 需求 ， 如 果 某 个 存储 系统 拥有 强大 的 数据 管理 功能 ， 但 是 它 底 层 
的 硬件 却 是 捉襟见肘 ， 性 能 很 弱 ， 那 么 也 就 无 法 高 性 能 地 发 挥 出 这 些 


高 层 功能 。 


了 明 位 于 阳 之 下 ， 阴 是 实质 ， 阳 是 能 量 。 数 据 存 储 为 阴 ， 数 据 管 理 
为 阳 。 目 前 的 存储 市 场 更 加 注重 修炼 阳 ， 而 对 于 阴 的 修炼 已 经 逐渐 弱 


化 ， 大 部 分 厂商 已 经 将 底层 硬件 架构 转 为 开放 廉价 的 x86 架 构 ， 利 用 集 
群 化 来 支撑 上 层 对 底层 性 能 的 要 求 。 


18.3 Data Cooker 各 论 


由 于 Snapshot 、 Clone 、 Disaster Recovery 、 Virtualization 、 
Mirror、CDP 已 经 在 本 书 其 他 章节 介绍 过 了 ， 所 以 下 面 只 介绍 Thin 


Provision、Deduplication、Tier、Space Reclaiming 等 。 
18.3.1 Thin Provision/Over Allocation 


Thin Provision 目 前 被 广泛 的 翻译 为 “ 瘦 供 ?或 者 “自动 精简 配置 ”， 

对 这 两 种 翻译 笔者 个 人 是 不 赞同 的 。 一 是 这 两 种 翻译 根本 无 法 反映 这 
种 技术 的 本 质 ， 让 人 根本 看 不 懂 ; 二 是 这 两 种 翻译 容易 让 人 理解 错 
误 ， 会 误导 别人 。 前 者 直接 按照 字面 翻译 ， 完 全 没有 任何 意义 ， 后 者 
则 故 弄 芯 虚 ， 弄 了 一 个 让 人 摸 不 着 头脑 的 看 似 “ 专 业 ” 的 词 。 笔 者 认为 
Thin Provision 直 接 翻 译 为 “ 超 供 ” 最 能 反映 这 种 技术 的 本 质 ， 即 Over 
Allocation。 Over Allocation 的 概念 最 早 是 由 STK 公 司 于 1992 年 提出 
的 ， 后 来 DataCore 公 司 根据 Over Allocation 的 思想 在 2002 年 提出 了 Thin 
Provision 的 概念 并 将 其 应 用 于 存储 产品 ， 随 后 3PAR 也 于 同年 在 其 存储 
产品 中 应 用 了 Thn Provision。 


所 谓 超 供 ， 还 是 举 个 例子 来 讲 ， 比 如 某 台 存储 系统 只 有 10TB 的 物 
理 存 储 空间 ， 现 在 有 10 台 主机 客户 端 ， 每 个 客户 端 各 自 需要 1TB 的 存 
储 空间 ， 所 以 这 10T 空 间 只 能 给 这 10 个 客户 端 来 用 ， 此 时 已 经 没有 剩 
余 空间 了 。 但 是 在 使 用 过 程 中 却 发 现 ， 这 10 个 客户 端 中 ， 不 是 每 个 都 
能 很 快 就 将 自己 的 1TB 空 间 用 完 的 ， 这 就 造成 了 空间 闲置 。 有 没有 办 


法 把 这 些 闲置 的 空间 利用 起 来 ， 但 同时 又 不 能 让 原来 的 10 个 客户 端 感 
知 到 呢 ? 


从 技术 上 来 讲 ， 实 现 这 种 善意 的 “欺骗 "不 成 问题 。 假 如 10 个 客户 
端 每 个 实际 使 用 了 500GB 的 空间 ， 这 样 的 话 ， 整 个 系统 内 还 剩 下 5TB 
的 空间 没 被 实际 占用 ， 那 么 此 时 存储 系统 可 以 在 后 台 悄 悄 地 将 这 5TB 
的 空间 再 分 配给 其 他 客户 端 ， 比 如 ， 再 分 别 分 配 1TB 的 空间 给 5 个 客户 
端 ， 现 在 所 有 15 个 客户 端 每 个 客户 端 所 看 到 的 额定 空间 都 是 ITB， 但 
是 实际 物理 空间 却 只 有 10TB 而 不 是 15TB。 这 就 是 “ 超 供 ” 的 “ 超 ” 字 所 体 
现 的 含义 。 


更 进一步 ， 上 面 的 例子 ， 即 使 剩余 了 5TB 未 占用 空间 ， 那 么 既然 
存储 系统 可 以 自 欺 鞭 人 地 将 其 分 配给 5 个 客户 端 每 个 LTB ， 那 么 为 何不 
能 更 加 厚 颜 无 耻 地 分 配给 10 个 、20 个 客户 端 ， 每 个 ITB ， 或 者 每 个 
10TB 的 空间 呢 ? 本 来 已 经 是 在 骗 ， 骗 1TB 也 是 骗 ，10TB 也 一 样 是 在 
骗 。 最 后 ， 干 脆 变 成 一 个 彻头彻尾 的 骗子 得 了 ， 骗 子 的 最 高 境界 就 是 
连 自己 都 被 自己 骗 了 。 比 如 ， 本 来 自己 只 有 10TB 物 理 容量 ， 但 是 它 却 
通告 自己 有 10PB 的 容量 ， 所 有 客户 端的 分 配 空间 ， 将 会 在 这 10TB 的 整 
体 物 理 空 间 中 按 需 分 配 ， 也 就 是 说 ， 分 配给 你 多 少 空间 只 是 虚 的 ， 你 
实际 用 多 少 才 是 实 的 ， 才 是 占用 实际 空间 的 。 这 种 做 法 是 基本 常识 ， 
比如 网 络 硬 盘 、 邮 件 服 务 商 等 ， 你 申请 一 个 2GB 的 网 络 硬 盘 或 者 邮 
箱 ， 供 应 商 才 不 会 给 你 预 留 2GB 的 空间 ， 它 只 是 记录 一 下 而 已 ， 当 你 
真 的 塞 入 了 2GB 的 数据 后 ， 你 才 真 正 地 占用 了 供应 商 的 存储 空间 。 


存储 系统 实时 监控 物理 空间 使 用 情况 ， 一 旦 所 有 用 户 整 体 空间 消 
耗 达 到 临界 值 ， 则 需要 马上 扩大 物理 容量 。 然 而 ， 对 于 空间 使 用 率 的 
监控 方面 ， 如 果 存 储 系统 为 NAS 系 统 ， 提 供 的 是 一 个 基于 文件 协议 的 
卷 共享 ， 则 存储 系统 本 身 就 可 以 很 容易 地 监控 存储 空间 的 真实 耗费 情 


况 ， 因 为 NAS 系 统 是 自己 来 维护 文件 与 物理 空间 对 应 关系 的 。 但 是 如 
果 存 储 系统 提供 一 个 基于 Block 协 议 访问 的 空间 ， 比 如 FC 或 者 iSCSI 协 
议 的 LUN， 则 存储 系统 所 监控 到 的 这 个 LUN 在 物理 磁盘 上 所 占用 的 空 
间 使 用 率 很 大 程度 上 是 伪 的 ， 存 储 系 统 监测 到 的 占用 率 永 远大 于 其 实 
际 占 用 率 ， 其 原因 是 因为 存储 系统 自身 一 般 不 能 感知 到 这 个 LUN 中 的 
文件 系统 中 的 实际 文件 所 占用 的 空间 ， 只 有 客户 端 主 机 才能 看 到 ， 如 
果 在 使 用 这 个 LUN 的 客户 端 主机 上 曾经 将 数据 塞 满 整个 LUN 但 是 随后 
又 删除 掉 了 ， 那 么 存储 系统 所 看 到 的 这 个 LUN 的 使 用 率 永远 都 是 
100% ， 而 实际 却 是 0。 但 是 从 技术 角度 来 讲 ， 存 储 系统 想 要 监控 LUN 
之 内 的 实际 数据 使 用 率 也 不 是 什么 难题 ， 只 要 能 够 感知 其 上 的 文件 系 
统 逻 辑 即 可 探查 到 ， 并 且 已 经 实现 ， 下 一 节 将 会 描述 。 


存储 系统 对 LUN 实 际 占用 空间 的 监测 ， 可 以 选择 简单 模式 、 复 杂 
模式 和 完美 模式 。 


在 简单 模式 下 ， 系 统 将 记录 一 个 High Water Mark， 即 目标 LUN 曾 
经 接收 到 的 写 IO 所 对 应 的 LBA 地 址 中 最 长 (最 远 ) 的 那个 ， 利 用 这 个 
HWM 来 判断 目标 LUN 实 际 占 用 的 空间 。 比 如 ， 一 开始 存储 系统 创建 
了 一 个 大 小 为 1TB 的 LUN ， 但 是 由 于 使 用 Thin Provision 模 式 ， 这 个 
LUN 刚 被 创建 好 的 时 候 ， 实 际 是 不 占用 存储 系统 物理 硬盘 的 空间 的 ， 
系统 只 是 将 这 个 LUN 做 记录 ， 但 是 不 为 其 分 配 实际 空间 。 当 主机 客户 
端 挂 载 这 个 LUN 之 后 进行 写 IO 操 作 时 ， 假 设 第 一 个 IO 就 是 向 这 个 LUN 
的 最 后 一 个 LBA 地 址 中 写 入 数据 ， 那 么 存储 系统 此 时 就 会 判断 这 个 
LBA 地 址 ， 并 且 查 看 当前 已 经 分 配 的 物理 空间 尽头 的 LBA 地 址 ， 如 果 
当前 已 分 配 空间 尽头 LBA 地 址 小 于 当前 写 IO 的 LBA 地 址 ， 那 么 存储 系 
统 就 会 再 分 配 一 段 长 度 为 (当前 10 的 LBA 地 址 -当前 已 分 配 空间 尽头 
LBA 地 址 ) 的 物理 空间 给 这 个 LUN。 在 这 个 例子 中 ， 虽 然 主 机 只 发 送 


了 一 个 写 IO， 但 是 存储 系统 却 需要 分 配 与 LUN 标 称 大 小 相同 的 物理 空 
间 ， 这 显然 是 不 合算 的 ， 但 是 也 是 最 高 效 的 。 


复杂 模式 下 ， 系 统 可 以 识别 简单 模式 所 不 能 识别 到 的 信息 ， 要 识 
别 出 当 前 LUN 真 正 需要 的 物理 空间 ， 就 需要 记录 更 多 的 信息 ， 比 如 
LUN 中 哪些 地 址 被 写 过 ， 哪 些 尚 未 被 写 过 ， 而 记录 这 种 信息 的 最 高 效 
做 法 就 是 利用 Bitmap。Bitmap 中 每 个 比特 可 以 表示 一 个 Block， 或 者 一 
个 LBA， 但 是 限于 效率 方面 考虑 ， 每 个 比特 表示 一 个 Block (或 称 
Page， 比 如 4KB、16KB 大 小 ) 是 比较 划算 的 。 利 用 这 个 Bitmap ， 不 但 
可 以 随时 监测 对 应 的 LUN 中 哪些 Block 实 际 被 占用 ， 而 且 还 能 统计 出 实 
际 占用 的 比例 以 便 在 将 要 达到 物理 空间 极限 时 发 出 通知 。 有 了 这 个 
Bitmap， 系 统 就 可 以 针对 每 个 瑟 1O 都 来 参考 这 个 Bitmap， 如 果 当 前 写 
IO 的 目标 地 址 对 应 的 比特 为 1， 则 表示 已 分 配 其 物理 空间 ， 则 这 个 写 
IO 直接 写 向 对 应 的 物理 空间 ; 而 如 果 对 应 的 比特 为 0， 则 表示 对 应 的 
Block 尚 未 被 分 配 ， 那 么 系统 就 会 先 分 配 物 理 空间 给 这 个 LUN， 更 新 
LUN 的 Metadata， 然 后 将 数据 写 入 对 应 的 Block。 这 样 做 虽然 效率 低 ， 
但 是 能 够 节省 更 多 空间 。 然 而 ， 就 像 上 文中 所 述 的 ， 如 果 主 机 客户 端 
确实 曾经 对 这 个 LUN 中 的 每 个 地 址 都 写 过 数据 ， 那 么 此 时 存储 系统 就 
会 分 配 与 LUN 标 称 空 间 相 同 大 小 的 物理 空间 。 但 是 此 时 这 个 LUN 内 的 
所 有 数据 可 能 都 是 “尸体 "， 即 这 个 LUN 之 上 还 有 一 层 逻 辑 在 做 映射 ， 
也 就 是 文件 系统 (或 者 其 他 程序 自身 管理 的 数据 映射 机 制 ) 。 纵 使 文 
件 系 统 将 这 个 LUN 中 的 所 有 数据 都 删除 了 ， 那 么 此 时 对 于 存储 系统 来 
说 ， 它 根本 无 法 感知 到 文件 逻辑 ， 所 以 此 时 这 些 被 删除 的 文件 依然 是 
占用 物理 空间 的 。 解 决 这 个 问题 的 办 法 将 在 下 一 节 描述 ， 也 就 是 所 谓 
完美 模式 。 


Thin Provision 的 底层 技术 实现 方式 其 实 并 不 复杂 。 大 家 都 知道 ， 
不 管 是 在 windows 还 是 Linux 操 作 系 统 下 ，NTFS 或 者 EXT3 文 件 系统 ， 
都 支持 Sparse File， 文 件 系统 为 每 个 Sparse File 都 保存 了 一 张 Bitmap， 
而 这 个 Bitmap 的 作用 正如 上 文中 所 述 (关于 Sparse File 的 更 多 介绍 请 参 
考 本 书 其 他 章节 ) 。 所 以 ， 如 果 某 存储 系统 直接 使 用 文件 系统 来 作为 
LUN 的 管理 平台 ， 那 么 它 完 全 可 以 把 LUN 设 置 为 一 个 Sparse File。 但 
是 由 于 Sparse File 并 不 支持 超 供 ， 比 如 物理 空间 只 有 100GB， 那 么 就 只 
能 创建 100GB 大 小 的 文件 ，Sparse 的 作用 只 是 在 向 文件 写 入 大 量 的 
0x00 时 不 会 向 磁盘 写 入 这 些 0， 而 且 随 后 的 读 出 过 程 也 不 会 产生 原本 应 
该 发 生 的 实际 磁盘 IO ， 而 只 是 在 内 存 中 生成 这 些 0。 所 以 ， 要 实现 超 
供 ， 必 须 对 Sparse File 功 能 加 以 增 减 。 


而 一 些 存 储 系统 并 不 使 用 文件 系统 来 管理 LUN 分 布 ， 那 么 这 些 存 
储 系统 就 比较 难受 了 。 举例 来 讲 ， 我 们 先 来 看 看 如 果 使 用 横向 条 带 化 
方式 来 分 布 LUN 的 情况 下 〈 最 传统 的 方式 ) 系统 是 怎么 实现 Thin 
Provision 的 。 显 然 ， 第 一 个 能 够 想到 的 方法 就 是 以 一 个 或 者 若干 个 连 
续 条 带 为 单位 来 进行 动态 扩充 ， 比 如 某 时 刻 用 户 下 发 了 针对 某 地 址 的 
IO， 系 统 便 会 在 RAID 组 中 某 处 分 配 一 个 或 者 几 个 连续 的 条 带 ， 随 后 每 
次 IO 都 如 此 ， 并 且 维 护 一 个 逻辑 地 址 到 物理 地 址 的 映射 表 。 一 开始 系 
统 尽量 保证 物理 地 址 与 逻辑 地 址 是 一 一 对 应 的 ， 就 是 说 逻辑 上 连续 的 
地 址 在 RAID 组 的 物理 地 址 也 被 连续 存放 。 但 是 随 着 RAID 组 中 LUN 数 
量 的 增多 ， 由 于 是 Thin Provision ， 其 他 LUN 的 空间 可 能 随时 会 挤占 某 
个 LUN 的 物理 空间 缝隙 ， 这 样 下 去 之 后 ， 整 个 RAID 组 中 的 多 个 LUN 
之 间 的 条 带 可 能 就 变 成 一 种 错乱 排 布 的 情况 ， 这 样 直接 导致 了 逻辑 连 
续 的 条 带 在 物理 上 却 不 连续 ， 在 大 块 连续 IO 情况 下 却 表现 为 随机 IO 的 
效率 低下 。 


Thin Provision 杜 绝 了 浪费 而 避免 了 额外 开销 ， 降 低 了 成 本 。 而 
且 ， 实 现 Thin Provision 不 需要 多 少 配置 过 程 ， 用 户 只 需要 在 创建 LUN 
的 时 候 加 一 个 标记 即 可 ， 其 他 都 是 系统 后 台 自 动 完成 的 。 


注意 : 但 是 使 用 Thin Provision 时 必须 严格 注意 的 是 : 随时 监 
控 目标 LUN 的 实际 占用 空间 和 系统 剩余 的 物理 空间 ， 当 达到 
阅 值 时 ， 一 定 要 扩充 物理 空间 。 人 否则 一 旦 发 生 数据 溢出 ， 主 
机 端 报 出 的 错误 将 是 类 似 “ 某 某 局 区 写 入 失败 ”的 底层 严重 错 
误 ， 而 不 是 类 似 “ 磁 盘 已 满 ， 清 除 垃圾 后 再 人 处理 ”之 类 的 上 层 
错误 ， 可 能 将 会 导致 一 系列 更 加 严重 的 连锁 反应 ， 影 响 主 机 
端的 运行 。 


1。Thin Provision 对 性 能 的 影响 


Thin Provision 会 产生 一 定 的 性 能 影响 。 有 人 可 能 产生 这 个 疑问 : 
“本 来 500GB 的 需求 ， 你 只 给 50GB 的 空间 ， 相 当 于 50GB 的 空间 承载 了 
10 倍 的 IO 请 求 ， 性 能 会 成 问题 。” 这 个 结论 是 在 某 论坛 某 网 友 提 出 的 ， 
笔者 第 一 次 看 到 时 真 的 有 点 觉得 被 嘻 了 一 下 。Thin 确 实 对 性 能 有 影 
响 ， 但 是 这 个 结论 就 属于 完全 的 廖 论 了 。 假 设 不 使 用 Thin， 创 建 一 个 
500GB 的 LUN ， 就 给 他 预 留 500GB 的 物理 空间 ， 那 么 此 时 ， 这 个 LUN 
所 接受 的 IO 目标 地 址 如 果 都 落 在 50GB 的 地 址 范围 之 内 ， 那 么 按照 上 面 
的 结论 ， 岂 不 是 依然 是 “使 用 50GB 的 空间 承载 10 倍 的 IO0” 么 ? 所 以 说 这 
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个 结论 着 实 有 些 切 座 。 


那么 Thin 对 性 能 的 影响 到 底 体现 在 哪些 方面 呢 ? 主要 是 两 个 方 
面 : 耗费 额外 CPU 周 期 、 物 理 空间 碎片 。 


开启 Thin 模 式 之 后 ， 针 对 LUN 的 每 个 IO 都 需要 耗费 额外 的 处 理 流 
程 。 比 如 ， 还 是 上 面 的 例子 ，50GB 物 理 空 间 ， 当 这 个 LUN 接 收 到 一 个 
超过 50GB 地 址 范围 的 IO 时 ， 比 如 是 读 IO， 那 么 Thin 引 擎 就 会 先 查 询 IO 
的 目标 地 址 是 否 已 分 配 了 物理 空间 。 本 例 中 尚未 分 配 ， 所 以 Thin 引 擎 
会 向 上 层 返 回 全 0x00， 因 为 目标 地 址 尚未 分 配 物理 空间 ， 证 明 它 尚未 
被 写 过 ， 那 么 对 应 地 址 上 的 内 容 当 然 就 应 该 都 是 0x00 了 ; 如 果 是 写 
IO， 那 么 Thin 引 擎 也 需要 判断 目标 地 址 是 否 已 经 被 分 配 了 空间 ， 如 果 
已 经 分 配 ， 则 直接 将 这 个 写 IO 导 向 对 应 的 物理 空间 地 址 ， 如 果 尚 未 分 
配 ， 那 么 Thin 引 擎 还 需要 在 整个 物理 空间 内 查找 剩余 的 空间 ， 而 且 还 
需要 尽量 保持 与 已 经 分 配 的 空间 在 物理 上 连续 。 这 一 系列 的 判断 和 处 
理 ， 加 上 还 需要 同时 维护 一 些 元 数据 之 类 ， 都 是 需要 耗费 额外 的 计算 
资源 的 。 


由 于 Thin 不 会 预 留 标准 的 物理 空间 ， 而 是 随 用 随 分 配 ， 就 像 操 作 
系统 对 内 存 的 管理 一 样 。 那 么 就 无 可 避免 地 会 产生 物理 空间 的 碎片 ， 
针对 一 个 LUN， 传 统 模式 下 是 连续 分 布 在 物理 空间 之 上 的 ， 而 Thin 模 
式 下 ， 可 能 这 一 块 ， 那 一 块 ， 因 为 原本 应 该 连续 被 分 配 的 空间 很 有 可 
能 被 其 他 的 Thin LUN 所 占用 ， 多 个 Thin LUN 混 乱 地 分 布 。 这 样 就 导致 
了 IO 性 能 问题 ， 本 来 上 层 的 连续 地 址 IO ， 经 过 Thin 引 擎 处 理 之 后 ， 可 
能 却 变 成 了 随机 度 大 增 的 IO 类 型 。 这 一 点 对 于 那些 物理 空间 分 配 粒度 
很 小 的 Thin 引 擎 更 为 明显 。 


上 文 曾 经 提 过 ，Thin 可 以 有 不 同 的 细节 设计 。 比 如 一 个 50 一 
500GB 的 Thin LUN， 当 接收 到 一 个 位 于 80GB 偏 移 处 目标 地 址 的 IO 时 ， 
Thin 可 以 智能 地 判断 上 层 在 接 下 来 的 时 间 里 ， 很 有 可 能 需要 对 其 附近 
的 地 址 有 更 多 的 操作 了 ， 所 以 ，Thin 引擎 此 时 可 以 以 80GB 这 个 逻辑 目 
标 地 址 为 基准 ， 在 其 左 和 右 各 分 配 比 如 16MB/64MB/128MB 的 物理 空 


间 以 预先 占 位 ， 新 分 配 的 空间 ， 视 剩余 物理 空间 的 比例 而 定 ， 尽 量 保 
持 连 续 。 或 者 Thin 引 擎 干脆 可 以 以 更 大 、 更 简洁 的 办 法 处 理 ， 把 分 配 
粒度 设计 成 最 大 化 。 


比如 刚才 那个 例子 ， 可 以 直接 将 50 信 80GB 之 间 的 30GB 的 物理 空 
间 分 配 下 去 ， 只 不 过 这 样 做 的 肥胖 率 会 大 增 ， 但 是 却 节省 了 计算 资 
源 ， 同 时 降低 了 IO 性 能 损耗 率 。Thin 引 擎 不 可 能 完全 做 到 最 细 的 最 小 
化 粒度 分 配 ， 即 以 单个 IO 的 目标 地 址 为 粒度 ， 还 是 刚才 那个 例子 ， 如 
果 IO 长 度 为 1， 即 只 读 取 或 者 写 入 一 个 扇 区 的 话 ， 那 么 Thin 引 擎 不 会 只 
对 这 一 个 扇 区 进行 物理 地 址 空间 分 配 ， 这 样 做 效率 太 低 ， 需 要 维护 的 
Bitmap 等 元 数据 粒度 太 大 ， 尺 寸 也 就 过 于 庞大 ， 查 找 起 来 非常 耗费 资 
源 ， 而 且 底层 产生 的 碎片 更 多 。 所 以 ， 流 行 的 还 是 折 中 的 做 法 ， 即 在 
IO 目标 的 左右 以 相当 长 度 的 粒度 将 空间 分 配 下 去 ， 这 样 就 可 以 在 一 定 
程度 上 保证 连续 IO 的 性 能 ， 同 时 可 以 保证 耗费 较 少 的 计算 资源 。 


说 道 Thin 对 性 能 的 影响 ， 这 里 有 一 个 极端 的 例子 ， 请 看 表 18-1。 
这 是 国外 某 知 名 存储 厂商 某 终端 阵列 开启 Thin 功 能 之 后 的 性 能 下 降 统 
计 表 ， 可 以 看 到 最 差 情况 下 性 能 竟然 下 降 了 70% ， 而 且 是 随机 IO 的 情 
况 下 。 如 果 说 Thin 会 让 逻辑 上 连续 的 块 底层 变 得 随机 ， 那 么 这 理论 上 
应 该 不 会 对 随机 IO 产生 这 么 大 的 影响 ， 因 为 原来 也 是 随机 ， 现 在 依然 
是 随机 ， 随 机 度 并 没有 加 成 。 那 么 原因 出 在 哪里 呢 ? 


表 18-1 Thin 对 性 能 的 影响 


这 还 得 从 Thin 的 源头 原理 来 妃 溯 。 要 想 实 现 Thin 的 核心 模块 ， 只 
要 有 三 大 元 数据 基本 就 足够 了 : 一 个 位 图 、 一 张 表 、 一 棵 树 。 位 图 是 
用 来 记录 底层 连续 物理 地 址 空间 内 哪些 地 址 已 经 被 分 配 ， 哪 些 没 有 被 
分 配 的 ， 以 便 用 来 迅速 分 配 空间 ; 表 则 是 用 来 记录 各 个 LUN 的 逻辑 地 


址 与 物理 地 址 对 应 关系 的 ， 因 为 逻辑 地 址 不 是 传统 那 种 与 物理 地 址 一 
一 对 应 的 关系 了 ， 可 能 随时 被 分 配 到 任何 地 址 上 ， 这 张 表 需要 按照 逻 
辑 地 址 排序 从 而 便于 后 续 的 查询 操作 。 树 则 是 在 内 存 中 生成 的 用 于 迅 
速 查 表 的 结构 了 。 说 到 这 ， 我 们 先 来 算 算 这 张 表 的 大 概 容量 吧 ， 假 设 
使 用 64b 的 地 址 长 度 ， 分 配 粒度 为 32KB， 也 就 是 每 32KB 的 物理 块 用 一 
个 64b 地 址 表示 ， 那 么 这 张 表 内 每 一 项 条 目的 大 小 就 是 128b。 对 于 一 个 
容量 1TB 的 空间 来 讲 ， 需 要 33554432 个 32KB 的 块 组 成 ， 那 么 这 张 表 的 
容量 就 是 33554432x128-*:1024:1024-*:8 二 512MB 的 空间 ， 而 针对 一 个 
10TB 的 空间 就 需要 保存 5GB 的 元 数据 。 而 一 般 情况 下 ， 支 持 Thin 的 产 
品 一 般 都 会 将 所 有 磁盘 建立 成 一 个 全 局 存储 池 ， 也 就 是 说 ， 系 统 中 的 
全 部 磁盘 都 需要 加 入 这 个 池 ， 那 么 加 入 100TB 的 空间 ， 就 需要 对 应 
50GB 的 元 数据 。 而 如 果 使 用 1MB 的 块 粒度 ， 那 么 大 家 自己 算 一 下 , 元 
数据 会 骤 降 到 16MB/TB。 如 果 将 地 址 长 度 也 适当 降低 ， 比 如 降低 到 
48b， 则 也 能 节省 一 定 容 量 的 元 数据 。 顺 带 提 一 下 的 是 ， 这 种 元 数据 量 
相对 于 文件 系统 元 数据 量 来 讲 ， 还 算是 少 的 。 正 因为 元 数据 如 此 之 
大 ， 所 以 不 可 能 全 部 驻 留 内 存 ， 这 样 就 牵扯 到 每 次 上 层 的 用 户 IO 都 可 
能 需要 读 写 这 些 元 数据 ， 所 以 会 导致 性 能 严重 下 降 ， 也 就 是 被 读 写 惩 
罚 所 拖 慢 了 ， 即 便 是 随机 IO， 其 性 能 依然 有 很 大 下 降 。 至 于 元 数据 所 
耗费 的 计算 资源 ， 并 不 是 很 大 ， 查 询 效率 还 是 很 高 的 。 再 加 上 传统 阵 
列 广 商 在 类 文件 系统 方面 积累 不 够 ，IO 优 化 还 是 不 到 位 ， 所 以 会 导 至 
性 能 相对 下 降 。 


HDS 公 司 在 USP V 产 品 中 使 用 42MB 为 一 个 粒度 ，EMC 在 DMX 上 
的 粒度 为 768KB，IBM 在 其 SVC 产 品 上 的 粒度 为 32~256KB，“IBM 在 
其 DS8000 和 Storwize V7000 中 的 Easy Tier 的 粒度 为 16MB~8GB， 默 认 
为 256MB”。 而 3PAR 公 司 的 粒度 是 16KB; 然而 这 并 不 是 业界 最 小 的 ， 
最 小 的 粒度 当 属 NetApp 的 WAFL， 为 4KB， 因 为 它 对 待 LUN 就 像 一 个 


普通 文件 。3PAR 公 司 的 Thin 处 理 模 块 被 徐 入 在 ASIC 中 以 加 快 执 行 速 
度 。 


2。Thin Provision 的 脆弱 性 


Thin 的 第 一 个 脆弱 性 就 是 其 对 性 能 的 影响 实在 不 可 忽略 ， 甚 至 有 
时 不 可 容忍 。 某 厂商 的 存储 系统 ， 开 启 了 Thin 功 能 之 后 ， 性 能 最 大 下 
降 了 70%， 也 就 是 性 能 最 差 时 仅 为 非 Thin LUN 的 30%。 究 其 原因 可 以 
参考 上 文中 的 描述 。 这 使 得 Thin 很 难 被 广泛 地 用 起 来 ， 除 非 能 够 解决 
性 能 问题 。 而 粒度 与 性 能 总 是 一 对 矛盾 ， 为 了 保证 性 能 而 增加 粒度 ， 
又 会 未 失 Thin 的 意义 ， 所 以 如 何在 性 能 与 粒度 之 间 取 舍 ， 是 厂商 应 该 
考虑 的 问题 。 


Thin LUN 需 要 时 不 时 地 进行 碎片 整理 以 保证 性 能 。 上 文中 描述 了 
Thin 导 致 的 数据 乱 分 布 问题 ， 这 样 的 话 ， 就 需要 考虑 引入 LUN 人 碎片 整 
理 机 制 。 不 要 将 LUN 碎 片 整理 与 LUN 文 件 系统 碎片 整理 相 混 浠 。 后 者 
是 指使 用 这 个 LUN 的 主机 端 上 的 文件 系统 对 LUN 内 的 逻辑 上 的 文件 进 
行 碎片 整理 ， 而 前 者 是 指 将 本 身 被 乱 分 布 到 RAID 组 之 上 的 LUN 碎 片 进 
行 整理 ， 其 实 这 两 个 层面 的 碎片 整理 本 质 上 是 一 样 的 ， 可 以 把 LUN 看 
作 是 分 布 在 RAID 组 之 上 的 一 个 大 文件 。NetApp 的 WAFL 就 是 这 么 做 
的 ， 而 且 WAFL 天 然 可 以 实现 Thin LUN， 现 用 现 分 配 空间 对 于 文件 系 
统 来 讲 是 小 儿科 的 事情 ，LUN 就 是 WAFL 下 的 一 个 文件 。 也 正 是 因为 
如 此 ，WAFL 同 样 面临 着 碎片 问题 ， 为 了 保证 性 能 ， 其 提供 了 LUN 
Reallocation 操 作 ， 也 就 是 碎片 整理 操作 。 


Thin 的 第 二 个 脆弱 性 便 是 其 瘦身 的 效果 很 难 维持 ， 时 不 时 地 就 会 
变 胖 。 比 如 ， 主 机 端 应 用 程序 或 者 文件 系统 的 一 些 行为 。 最 典型 的 便 
是 文件 系统 寿 片 整理 过 程 ， 会 首先 读 出 零散 的 碎片 ， 整 合 之 后 写 入 新 


位 置 ， 然 后 标记 之 前 的 位 置 为 空 凋 。 而 * 写 入 新 位 置 > 这 五 个 字 ， 是 
Thin LUN 最 不 愿意 看 到 的 ， 因 为 这 意味 着 系统 要 分 配 这 些 新 位 置 ， 那 
么 Thin LUN 就 逐渐 变 胖 了 。 如 果 原 本 100GB 的 LUN， 上 面 有 50GB 的 碎 
片 文件 ， 而 此 时 这 个 Thin LUN 可 能 只 实际 分 配 了 70GB 的 物理 空间 ， 
那么 当 进 行文 件 系统 碎片 整理 之 后 ， 极 端 情况 下 ， 文 件 系统 可 能 要 读 
出 这 50GB 的 碎片 ， 然 后 再 写 入 50GB。 假 如 碎片 整理 过 程 需要 的 新 空 
间 为 30GB， 那 么 系统 一 定 就 会 在 底层 将 原本 的 那 瘦 下 去 的 30GB 分 配 
出 来 ， 此 时 这 个 LUN 就 是 一 个 胖 LUN 了 ， 就 算 文件 系统 碎片 整理 完毕 
之 后 ， 实 际 文件 占用 仍然 为 50GB， 那 么 这 个 LUN 也 瘦 不 回去 了 ， 除 非 
有 回收 机 制 〈( 见 下 文 ) 。 


另外 一 个 典型 例子 便 是 生成 大 量 临 时 数据 的 应 用 程序 。 比 如 某 应 
用 程序 运行 时 ， 某 个 条 件 下 触发 大 量 临 时 文件 数据 的 生成 ， 结 束 之 后 
就 删 掉 ， 那 么 此 时 对 应 底层 的 LUN 来 讲 ， 也 要 分 配对 应 的 空间 来 存放 
这 些 临时 文件 数据 ， 虽 然 最 后 的 状态 是 这 些 临时 文件 全 被 应 用 程序 删 
掉 了 ， 但 是 底层 已 经 胖 了 ， 回 不 去 了 。 上 一 段 曾经 说 过 “Thin LUN 需 
要 碎片 整理 ">， 这 一 段 又 说 “碎片 整理 会 导致 Thin LUN 变 胖 ”， 乍 一 看 非 
常 矛盾 ， 其 实 还 是 如 上 文 所 述 ， 两 层 碎 片 整 理 各 有 各 自 的 功效 ， 但 是 
确实 会 产生 对 立 面 。 


综 上 所 述 ，Thin Provision 真 是 一 个 脆弱 的 东西 ， 如 果 只 人 靠 忽悠 、 
掩耳盗铃 来 硬 说 自己 瘦 了 ， 还 是 不 靠 谱 啊 ! 要 真正 不 反弹 的 瘦 ， 就 要 
从 应 用 层 业 务 层 入 手 ， 从 源头 上 杜绝 垃圾 数据 的 产生 。 


3. Thin 底 层 设 计 中 的 一 些 算法 


累加 模式 的 颗粒 分 配 算 法 一 一 比如 T1 时 刻 一 个 新 创建 的 LUN1 有 
针对 其 LBA1 的 写 JO， 那 系统 就 写 入 Thin Pool 的 LBA1; T2 时 刻 有 针对 


新 创建 的 LUN2 的 LBA100 的 写 IO， 那 就 写 入 Thin Pool 的 LBA2， 依 此 
类 推 。Thin Pool 就 像 水 池 一 样 ， 不 管 接收 到 哪个 LUN 的 追加 写 IO (之 
前 尚未 写 过 的 地 址 ) ， 那 么 每 个 IO 都 会 导致 Thin 池 里 的 高 水 位 线 往 上 
涨 一 个 LBA 号 。 


全 随机 模式 的 颗粒 分 配 算法 一 一 累加 模式 的 颗粒 分 配 算法 下 ， 
LUN 的 数据 不 能 够 被 分 配 到 系统 内 所 有 物理 盘 之 上 ， 不 能 充分 利用 起 
系统 整体 性 能 ， 所 以 可 以 使 用 全 随机 模式 的 颗粒 分 配 算 法 ， 让 分 配 范 
围 弥散 在 整个 Thin Pool 的 地 址 空间 内 而 不 是 累加 。 


自 适应 分 配 力度 算法 一 一 系统 可 以 智能 感知 上 层 IO 的 行为 ， 比 如 
大 块 的 连续 追加 写 入 操作 ， 那 么 此 时 就 没有 必要 每 次 分 配 很 小 颗粒 的 
空间 ， 完 全 可 以 加 大 分 配 力度 ， 比 如 一 次 分 8MB、16MB ， 根 据 IO 特 
点 和 持续 时 间 等 因素 ， 不 断 提高 分 配 力度 ; 反之 ， 如 果 检 测 到 追加 写 
IO 负载 趋 缓 ， 那 么 就 逐渐 降低 分 配 力度 。 


位 移 保 持 颗 粒 分 配 算法 一 一 分 配 存储 空间 颗粒 的 时 候 ， 尽 量 按照 
原来 的 相对 地 址 分 配 。 比 如 用 户 在 一 个 空 Pool 里 创建 了 一 个 Thin 
LUN， 向 LBA1 写 了 数据 ， 那 么 程序 就 向 Pool 里 的 LBA1 写 ， 后 来 又 向 
LBA1000 写 了 ， 程 序 也 向 1000 写 ;后 来 又 创建 了 一 个 Thin LUN， 也 向 
LBA1 写 ， 那 么 此 时 程序 可 以 向 Pool 里 的 LBA2 写 ， 写 在 LBA1 旁 边 ， 依 
此 类 推 ，LUN3 的 LBA1 就 是 Pool 的 LBA3。 但 是 一 旦 如 果 遇 到 Pool 的 
LBA1 和 LBA2 都 被 同一 个 LUN 占 据 ， 那 么 程序 就 考虑 寻找 相对 距离 最 
近 的 LBA 写 入 ， 总 之 尽量 保持 所 分 配 的 地 址 的 相对 偏 移 量 与 这 个 IO 原 
本 的 目标 地 址 相对 偏 移 量 一 致 。 这 样 就 可 以 保持 逻辑 上 连续 的 颗粒 在 
物理 上 也 相对 连续 ， 对 后 续 的 连续 地 址 读 写 操作 有 好 处 。 同 时 用 户 一 
般 不 会 创建 大 量 的 LUN， 所 以 颗粒 地 址 争 抢 地 址 冲突 的 几率 也 不 会 很 
高 ， 因 此 最 好 能 保证 颗粒 块 该 放 哪 还 是 放 哪 ， 相 对 位 移 保 持 一 致 。 


思考 : 累加 分 配 模式 下 ， 由 于 系统 会 针对 所 有 进入 的 首次 写 
IO 做 连续 地 址 写 入 操作 ， 所 以 对 外 会 表现 出 较 高 的 性 能 ， 但 
是 随 着 数据 写 入 的 推移 ， 追 加 写 越 来 越 少 ， 会 逐渐 演变 为 履 
盖 写 ， 那 么 此 时 底层 会 变 为 完全 随机 地 址 IO ， 性 能 会 降低 ， 
尤其 是 在 上 层 连 续 地 址 IO 时 ， 底 层 总 是 表现 为 随机 地 址 IO。 
全 随机 模式 的 颗粒 分 配 模式 下 ， 相 对 累加 模式 来 讲 整体 性 能 
有 提升 ， 但 是 对 于 初次 /追加 写 没有 任何 加 速 作 用 。 并 且 对 于 
后 续 的 连续 地 址 IO 一 样 也 会 有 所 拖 慢 。 

而 位 移 保持 分 配 模式 下 ， 由 于 地 层 的 数据 排 布 与 原本 的 逻辑 
排 布 保持 尽量 的 相对 一 致 ， 所 以 由 Thin 的 引入 而 导致 的 系统 
性 能 变化 幅度 会 被 控制 到 最 低 。 而 且 对 于 后 续 的 连续 地 址 IO 
是 可 以 保证 最 大 幅度 的 维持 原生 性 能 的 。 


综合 来 讲 ， 应 当 使 用 使 用 位 移 保持 颗粒 分 配 算 法 。 


颗粒 格式 化 算法 一 一 上 面 的 文字 都 是 用 LBA 来 指 代 分 配 颗粒 的 ， 
实际 上 不 会 有 哪个 产品 的 颗粒 度 细 到 LBA 扇 区 的 。 比 如 就 拿 768KB 
(EMC 在 其 Symmetrix V-Max 上 使 用 的 粒度 ) 作为 一 个 颗粒 粒度 ， 每 
次 分 配 必 须 是 32KB 的 整数 倍 。 但 是 这 里 就 会 有 一 个 问题 ， 如 果 主 机 下 
发 的 IO 只 有 4KB， 那 么 底层 也 一 样 需 要 分 配 768KB， 那 么 这 时 候 问 题 
就 来 了 ， 这 768KB 中 剩余 的 762KB 都 是 僵尸 数据 ， 如 果 主 机 后 续 发 起 
对 这 768KB 地 址 范围 内 的 读 IO ， 此 时 Thin 处 理 模 块 就 不 会 返回 全 0x00 
了 ， 因 为 已 经 分 配 空间 了 ， 必 须要 从 磁盘 读 ， 这 样 的 话 就 会 把 僵尸 数 
据 返 回 给 主机 ， 而 不 是 原本 应 当 返 回 的 全 0x00。 为 了 解决 这 个 问题 ， 
在 颗粒 分 配 之 后 ，Thin 模 块 必须 做 初始 化 操作 ， 也 就 是 将 颗粒 内 没 被 
当前 写 IO 所 帮 盖 的 地 址 上 的 数据 局 区 写 入 全 0x00。 如 果 你 真 的 这 么 认 
为 ， 你 就 错 了 ， 底 层 根本 不 需要 为 Lun 进 行 清 零 操作 。 一 块 用 过 的 物 


理 磁 盘 上 ， 全 都 是 僵尸 数据 ， 同 样 ， 一 个 新 划分 的 Lun， 其 上 也 可 以 
都 是 僵尸 效 据 ， 底 层 没 有 义务 清 零 。 有 人 问 如 果 谈 出 来 僵尸 效 据 怎么 
办 ”答案 就 是 没 办 ， 如 果 一 个 程序 不 去 写 自己 的 数据 到 磁盘 上 这 个 区 
域 ， 上 来 就 读 这 个 区 域 ， 那 么 这 个 程序 不 是 测试 软件 就 是 数据 恢复 软 
件 ， 正 儿 八 经 的 软件 没 这 么 干 的 ， 都 是 先 写 入 ， 再 读 ， 至 于 房间 里 面 
之 前 住 了 什么 人 发 生 了 哪些 事 ， 人 家 不 去 操 那个 心 。 


强调 : 但 是 必须 强调 的 一 点 是 ， 一 个 Lun 在 被 创建 之 后 ， 其 
零 局 区 必须 先 补 主动 清 零 ， 因 为 零 局 区 太 重 要 了 ， 如 果 不 清 
零 ， 而 发 生 了 小 概率 事件 (比如 恰好 底层 磁盘 的 某 零 局 区 内 
容 刚好 对 应 了 该 Lun 的 零 扇 区 ) ， 那 么 此 时 就 会 出 问题 了 ， 
OS 会 直接 按照 零 局 区 里 的 分 区 表 兴 试 挂 载 磁 盘 分 区 ， 会 产生 
不 可 预知 的 后 果 。 


后 台 重 整 机 制 一 一 此 外 还 可 以 提供 一 个 后 台 重 整 功 能 ， 将 乱 序 的 
颗粒 重新 整理 成 按照 原来 顺序 存放 以 保证 后 续 IO 的 性 能 。 


在 同一 个 地 址 池内 同时 支持 Thick 与 Thin LUN- 当 在 Thin 地 址 池 
内 创建 一 个 Thick LUN 时 ， 系 统 就 会 直接 在 Bitmap 中 将 对 应 的 空间 占 
住 。 之 后 针对 这 个 Thick LUN 的 所 有 IO 也 都 会 Bypass 掉 映射 表 ， 其 效 
果 与 普通 LUN 完 全 一 致 了 。 


18.3.2 LUN Space Reclaiming (Unprovision/Deprovision ， 
Get Thin) 


试想 这 样 一 种 情况 ， 比 如 某 个 存储 系统 只 拥有 1TB 的 物理 存储 空 
间 ， 有 多 人 台 主机 客户 端的 LUN 分 布 于 其 上 ， 都 占用 了 一 定 的 空间 ， 当 
前 剩余 物理 空间 只 有 500GB 了 。 而 此 时 ， 某 主机 客户 端 需要 一 个 


500GB 的 LUN 空 间 ， 存 储 系统 管理 员 只 好 将 这 最 后 的 空间 分 配给 了 这 
台 主 机 使 用 。 这 人 台 主 机 其 实 只 是 将 这 个 LUN 设 置 为 某 程序 运行 时 的 
tmp 空 间 ， 其 中 放 一 些 临时 性 的 文件 ， 不 会 超过 500GB， 此 外 ， 还 存放 
一 些 其 他 用 户 层面 的 文件 。 当 程序 运行 完毕 之 后 ， 临 时 文件 也 会 被 删 
掉 ， 但 其 后 果 就 是 ， 这 些 文件 曾经 占用 的 空间 会 永远 地 占用 存储 系统 
中 物理 人 硬盘 的 空间 ， 也 就 是 说 这 500GB 的 剩余 空间 ， 眼 看 着 就 白白 浪 
费 了 。 而 且 此 时 系统 中 剩余 物理 空间 为 0， 存 储 系 统 无 法 对 这 500GB 的 
空间 进行 Unprovision 或 者 称 Deprovision。 Deprovision 的 过 程 又 可 以 形 
象 地 被 称 为 “<Get Thin” 过 程 。 


虽然 此 时 可 以 在 存储 系统 端 使 用 缩小 LUN 容 量 的 动作 来 强制 将 这 
个 LUN 的 大 小 降低 到 某 个 值 ， 但 是 这 样 做 风险 很 大 。LUN 缩 小 都 是 直 
接 将 LUN 空 间 从 尾部 截 掉 对 应 的 长 度 ， 但 是 因为 LUN 中 尚 存 的 文件 不 
一 定 是 顶 着 LUN 头 部 依次 排放 的 ， 很 有 可 能 某 些 文件 Block 被 分 布 到 了 
LUN 尾 部 ， 此 时 强制 缩小 容量 ， 那 么 就 等 于 把 这 些 尾部 的 数据 都 丢掉 
了 。 要 解决 这 个 问题 ， 需 要 文件 系统 的 配合 ， 将 LUN 中 的 文件 全 部 迁 
移 到 LUN 首 部 依次 排 布 ， 空 出 尾部 的 连续 空间 。 有 些 文件 系统 可 以 做 
到 ， 比 如 VxFS， 其 自身 就 提供 了 命令 来 实现 这 种 操作 ， 诸 如 NTFS 等 
文件 系统 ， 其 自身 并 不 提供 这 种 操作 接口 ， 但 是 可 以 通过 一 些 第 三 方 
的 NTFS Aware 工 具 来 强制 操作 LUN 中 的 文件 将 它们 迁移 。 


虽然 缩小 LUN 可 以 解决 这 个 问题 ， 但 是 会 耗费 太 多 的 资源 和 步 
又， 并 且 LUN 一 旦 缩小 ， 如 果 将 来 需要 扩大 的 话 ， 又 是 一 番 折 腾 ， 划 
不 来 。 有 没有 办 法 即 不 缩小 LUN， 又 可 以 回收 被 浪费 的 空间 呢 ? 办 法 
是 有 很 多 的 ， 总 结 起 来 共有 3 种 。 


1. 存储 端 识 别 对 应 的 文件 系统 


存储 系统 可 以 自行 识别 当前 LUN 中 的 文件 系统 并 且 感 知 到 文件 系 
统 中 的 剩余 空间 ， 将 这 些 剩余 空间 与 物理 空间 做 对 应 ， 然 后 在 LUN 管 
理 层 中 将 这 些 剩余 空间 做 废 回收 。 


然而 ， 目 前 这 种 方式 尚未 有 产品 尝试 ， 原 因 是 因为 主机 端的 文件 
系统 多 种 多 样 ， 不 用 说 全 部 支持 ， 就 算是 仅 支 持 主流 的 几 种 ， 那 将 这 
些 文件 系统 逻辑 说 入 存储 系统 中 ， 也 是 一 笔 不 小 的 工程 ， 并 且 ， 就 算 
是 同一 种 文件 系统 ， 配 置 参数 不 同 ，OS 内 核 版 本 不 同 ， 也 会 导致 底层 
逻辑 的 些许 不 同 。 而 这 些 区 别 ， 不 可 能 在 存储 端 内 部 一 一 去 对 应 。 而 
且 ， 存储 端 看 到 的 LUN 中 当前 的 数据 并 不 一 定 反 映 主 机 端 当前 所 看 到 
的 数据 ， 因 为 主机 端的 文件 系统 是 有 缓存 的 ， 包 括 metadata 和 实体 数 
据 ， 存 储 端 擅自 操作 的 结果 可 能 是 造成 数据 不 一 致 。 


2. 存储 端 识别 0x00 并 做 消除 


文件 系统 在 删除 文件 时 ， 只 是 将 文件 从 metadata 中 抹 掉 ， 文 件 的 
实体 依然 存在 于 原来 的 位 置 ， 如 果 主 机 客户 端的 文件 系统 能 够 做 到 在 
每 次 删除 文件 或 者 改变 文件 大 小 之 后 ， 将 原本 所 占用 的 Block 写 入 0x00 
的 话 ， 而 且 存 储 端 定期 地 扫描 对 应 的 LUN ， 如 果 发 现 大 片 连续 的 
0x00， 则 将 对 应 的 Block 空 间 回 收 。NTEFS 文 件 系统 的 确 有 这 种 功能 ， 
使 用 DeviceIoCctl 中 的 FSCTL_SET_ZERO_ON_DEALLOCATIION 功 能 
即 可 实现 。 


但 是 这 确实 不 是 一 个 好 方法 。 如 果 每 次 删除 文件 都 清扫 战场 ， 那 
么 所 耗费 的 资源 是 极其 划 不 来 的 。 比 如 删除 某 个 1GB 的 文件 ， 正 常情 
况 下 应 当 是 飞快 完成 ， 但 是 如 果 使 用 了 这 种 方法 ， 则 需要 引发 主机 到 
存储 系统 的 1GB 的 数据 流量 ， 完 全 划 不 来 。 


这 种 技术 目前 被 称 为 “<Zero Detection”， 在 少数 情况 下 ， 这 种 技术 
可 以 带 来 一 定 的 效果 ， 比 如 某 些 文件 的 实体 数据 存 有 大 片 的 0x00， 对 
于 这 种 情况 ，Zero Detection 技 术 可 以 回收 对 应 的 LUN 空 间 。 但 是 多 数 
情况 下 ， 文 件 中 并 非 全 0， 此 时 这 种 技术 发 挥 不 了 任何 效果 。 有 目前 
3PAR 在 其 T 系 列 存储 产品 中 已 经 实现 了 Zero Detection 技 术 ， 不 过 作者 
个 人 感觉 这 种 技术 只 是 个 咕 头 。 


3。 主机 端 利用 特殊 的 API 通 知 存储 系统 


还 记得 SSD 中 的 Trim 技 术 么 ? SSD 所 面 对 的 问题 一 定 程度 上 与 
Space Reclaiming 相 同 。 几 乎 所 有 SSD 广 商都 提供 了 空间 回收 的 专用 程 
序 ， 运 行 这 个 程序 ， 程 序 便 会 根据 当前 文件 系统 的 情况 ， 将 垃圾 空间 
对 应 的 地 址 通告 给 SSD 控 制 器 ， 从 而 进行 对 这 些 Block 的 擦 除 过 程 。 既 
然 这 样 ， 存 储 系统 厂商 是 否 也 可 以 提供 一 种 在 主机 端 运行 的 程序 来 定 
期 扫描 主机 端 文 件 系统 剩余 空间 并 且 将 对 应 的 信息 传送 给 存储 系统 控 
制 器 然后 将 空间 回收 呢 ? 当然 可 以 。 


NetApp 的 Snapdrive 软 件 可 以 实现 这 个 功能 ， 只 不 过 它 只 支持 
NTFS 文 件 系 统 和 NetApp 自 己 的 存储 产品 。NetApp 将 这 种 方法 称 为 
“Hole Punching”， 意 即将 浪费 的 空间 打 成 洞 让 其 不 占用 空间 。 其 实在 
WAFL 内 部 处 理 文 件 删除 或 者 LUN 删 除 时 也 用 到 了 Hole Punching， 由 
于 LUN 是 Vol 下 的 文件 ， 而 Vol 是 WAEFL 下 的 一 级 文件 ， 文 件 中 的 文件 

(LUN 或 者 其 他 文件 ) 被 删除 之 后 ， 二 级 空间 会 立即 感知 ， 但 是 一 级 
WAFL 空 间 不 可 能 立即 感知 ， 也 需要 通过 Hole Punching 过 程 来 进行 二 
次 映射 从 而 回收 一 级 空间 。 这 种 过 程 的 本 质 与 回收 LUN 中 的 文件 占用 
的 空间 是 相同 的 。 


Symantec 公司 针对 这 一 问题 发 布 了 自己 的 解决 方案 ， 在 其 Storage 
Foundation 5.0 产 品 中 ， 提 供 了 针对 NTFS 文 件 系统 和 VxFS 文 件 系 统 的 
支持 ， 并 且 提 供 ThinReclaim API 来 让 存储 系统 厂商 开发 对 应 的 处 理 模 
块 。Storage Foundation 产 品 包 含 两 个 最 基本 的 模块 : VxFS 和 VxVM ， 
一 个 是 文件 系统 模块 ， 一 个 是 卷 管理 模块 。 当 运行 于 VxVM 之 上 的 
VxFS 或 者 NTFS 文 件 系统 删除 文件 时 ，VxVM 会 通过 一 些 方法 (比如 
用 过 滤 驱 动 Hook) 感知 到 ， 之 后 VxVM 便 会 将 这 些 删除 文件 对 应 的 全 
尸 空间 地 址 信息 用 ThinReclaim API 规 定 的 结构 传送 给 存储 系统 控制 
器 ， 存 储 系统 控制 器 同样 使 用 ThinReclaim API 来 进行 对 这 些 信息 的 解 
析 和 处 理 ， 最 后 将 对 应 LUN 中 的 这 些 僵尸 空间 实时 回收 。 另 外 ， 由 于 
实时 回收 需要 耗费 一 定 的 处 理 资 源 ， 所 以 VxVM 还 提供 了 定期 手动 回 
收 的 命令 (vxdisk reclaim 或 者 fsadm -R) ， 用 户 只 要 将 对 应 命令 做 成 
脚本 定期 执行 即 可 。 


下 面 显示 的 是 在 一 台 Linux 机 器 上 ， 安 装 Storage Foundation 5.0 之 
后 ， 利 用 VxVM 来 管理 的 三 个 LUN: encl0_0、endll1 0、encll 1。 其 
中 ，endl1l_0 和 endl1l_1 支 持 通 过 Thin API 进 行 空间 回收 ， 可 以 看 到 其 
STATUS 一 栏 对 应 的 状态 描述 ， 证 明 这 两 个 LUN 所 在 的 存储 系统 是 支 
持 ThinReclaim API 的 。encl0_0 是 一 个 Thin LUN， 但 是 它 所 在 的 存储 系 
统 针 对 这 个 LUN 禁 止 了 Thin Reclaiming， 所 以 STATUS 一 栏 中 只 显示 了 
其 是 个 Thin LUN。 


# vxdisk lJist 


DEVICE WBE DISK GROUP STATUS 
encl0_0 auto encl0_0 mydg online thin 
encl1_0 auto encl1_0 mydg online 


thinrclm 


encl1 1 auto ecnl1 1 mydg online 


thinrclm 


下 面 的 命令 输出 显示 的 是 LUN 标 称 大 小 与 实际 物理 占用 大 小 的 信 
息 ， 实 际 物理 占用 空间 是 SF 通过 ThinReclaim API 向 存储 系统 进行 查询 
而 得 到 的 。 


# vxdisk -o thin list 


DANAME DISK SIZE(Mb) PHYS_ALLOC(Mb) DISK 

GROUP TYPE 

encl0_0 2000 50 mydg 
thin 

encl1 0 200 50 mydg 
thinrclm 

encl1 1 500 500 mydg 
thinrclm 


目前 ，3PAR、HDS、HP 已 经 相继 表示 将 支持 这 种 API。 不 过 依然 
遗憾 的 是 ，Symantec 的 ThinReclaim API 是 集成 到 其 Storage Foundation 
产品 中 的 ， 如 果 不 使 用 Symantec 的 主机 端 虚 拟 化 产品 Storage 
Foundation， 则 无 法 使 用 这 种 API。 如 果 不 将 这 种 API 作 为 一 种 全 面 开 
放 模 式 可 以 给 任何 厂商 使 用 的 话 ， 其 前 景 也 将 是 暗淡 的 。 凡 是 与 Thin 
能 够 恨 好 配合 的 文件 系统 ， 不 管 是 清扫 战场 型 还 是 智能 API 型 ， 都 属 
于 Thin-Friendly 型 文件 系统 ， 比 如 NTFS、ZFS、VxFS 都 属于 Thin 友 好 
型 ， 但 是 Solaris 下 的 UFS 就 不 友好 了 。 


另外 ，Symantec 公 司 在 其 Storage Foundation 5.0 中 还 引入 了 一 个 新 
功能 ， 即 SmartMove。 不 是 所 有 存储 系统 都 支持 ThinReclaim API 的 ， 


对 于 那些 不 支持 Thin API 的 存储 系统 上 的 LUN ， 要 将 其 减肥 ， 就 必须 
将 整个 的 LUN 中 的 文件 所 实际 占用 的 数据 读 出 ， 然 后 再 写 入 一 个 与 原 
先 的 LUN 的 标 称 空间 相同 大 小 的 新 的 Thin LUN 中 ， 而 新 的 Thin LUN 所 
占用 的 实际 物理 空间 ， 与 原先 LUN 中 的 文件 所 占用 的 空间 相同 。 
SmartMove 就 是 执行 这 个 工作 的 功能 模块 ， 它 扫描 目标 LUN 中 的 文件 
系统 空间 ， 然 后 执行 读 出 写 入 过 程 。 只 要 外 部 存储 系统 支持 Thin 
LUN， 不 管 是 否 支 持 ThinReclaim API，SmartMove 都 可 以 实现 对 LUN 
的 减肥 操作 。 


Symantec 的 ThinReclaim API 毕 竟 未 形成 一 个 被 广泛 接受 并 使 用 的 
标准 ， 不 过 ，Flash 存 储 领 域 使 用 的 Trim 倒 是 一 个 标准 协议 ， 我 想 ， 
Deprovision 是 不 是 可 以 干脆 考虑 在 Trim 之 上 做 一 些 增 减 ， 使 Trim 成 为 
一 个 更 完善 的 业界 标准 呢 ? 


提示 : 凡是 能 够 实现 Thin Provision 或 者 De-Provision 的 设 
备 ， 其 对 LUN 的 分 布 必须 转变 为 灵活 方式 ， 即 LUN 在 RAID 
组 内 的 分 布 不 是 定 死 的 ， 而 是 可 以 随时 重新 指向 新 地 址 的 。 

Thin-Provision 模 式 的 LUN 会 随 着 使 用 而 逐渐 占据 空间 ， 但 是 
占据 的 这 些 空间 不 一 定 连续 ， 因 为 随时 可 能 有 其 他 的 Thin 
LUN 也 在 逐渐 占据 空间 。 对 于 使 用 De-Provision 进 行 空 间 回收 
之 后 的 LUN， 其 原本 占据 的 空间 内 就 可 能 会 生成 很 多 “ 空 
洞 ”， 这 些 空 洞 被 算 在 剩余 可 用 空间 之 内 ， 那 么 这 些 空 洞 便 可 
以 被 原 有 LUN 或 者 其 他 LUN 再 次 占据 ， 这 样 ， 就 需要 更 加 灵 
活 的 LUN 分 布 方式 了 。 如 果 是 类 文件 系统 的 分 布 方式 ， 对 于 
空洞 可 以 直接 分 配给 LUN 使 用 ， 不 过 太 多 太 乱 的 空洞 毕竟 是 
不 连续 的 ， 类 似 于 文件 系统 雁 片 。 所 以 为 了 保证 连续 地 址 IO 
时 的 性 能 ， 一 些 设计 会 将 有 空洞 的 LUN 进 行 余 片 整 理 ， 重 新 


排 布 ， 每 次 De-Provision 之 后 都 会 计算 碎片 程度 ， 根 据 程度 来 
决定 是 否 触发 整理 。 
关于 LUN 的 分 布 形式 请 参考 本 书 其 他 章节 。 


18.3.3 ”Tier (分 级 ) /Migrating (迁移 ) 


ILM (Information Lifecycle Management) ， 信 息 生 命 周 期 管理 ; 
HSM (Hierarchical Storage Management) ， 分 层 存储 管理 。 这 两 个 名 
词 ， 表 面 上 看 来 好 像 差 不 多 ， 是 同一 种 思想 的 两 种 叫 法 。 但 是 细 究 起 
来 ， 却 是 不 同 的 层次 。 


信息 生命 周期 管理 ， 顾 名 思 义 ， 是 对 整个 IT 系统 或 者 其 他 数据 系 
统 中 数据 生态 链 的 一 种 思想 认识 以 及 管理 方法 。 


尖 


如 图 18-2 所 示 为 IT 系统 数据 生态 ”图 18-2 IT 系统 数据 生态 运动 图 

运动 图 。 数 据 之 初 由 程序 的 运行 而 

在 CPU Cache 内 生成 ， 之 后 被 移出 至 RAM 中 暂 存 ， 随 后 被 长 存 入 磁 
盘 ， 然 后 再 一 层 层 地 转 存 和 回调 ， 最 后 被 存 入 离线 存储 介质 比如 磁带 
作为 归档 保存 ， 在 需要 时 也 可 以 从 归档 中 提取 出 来 访问 。 当 数据 已 经 
衰老 到 没有 任何 价值 之 后 ， 便 被 销毁 。 程 序 的 运行 使 得 物质 不 断 地 流 
动 ， 而 程序 的 运行 本 身 也 需要 物质 来 支撑 。 在 这 个 运动 过 程 中 ， 数 据 
本 身 的 流动 速度 、 所 处 能 级 以 及 价值 也 在 不 断 地 变化 。 当 然 ， 对 于 一 
些 归档 之 后 的 数据 ， 虽 然 其 对 当前 系统 的 运行 没有 表现 出 太 多 价值 ， 
但 是 将 来 某 时 段 可 能 表现 出 价值 。 


效 据 衰老 的 过 程 是 不 可 避免 的 ， 其 趋 努 总 是 向 下 的 ， 但 是 在 衰老 
的 过 程 中 可 能 经 历 多 次 的 反复 ， 即 便 这 样 ， 也 挡 不 住 其 衰老 过 程 。 信 


息 生 命 周期 管理 就 是 在 整个 数据 生存 周期 中 ， 对 各 个 时 期 数据 在 系统 
中 所 出 现 的 位 置 进行 管理 和 调配 的 一 种 思想 方法 。 


既然 数据 是 由 程序 运行 而 生成 的 ， 那 么 程序 本 身 也 是 数据 ， 程 序 
是 谁 生成 的 呢 ? 是 用 编译 器 编译 出 来 的 ， 但 是 产 代 码 也 是 数据 ， 谁 生 
成 的 呢 ? 是 用 编程 工具 生成 ， 编 程 工具 也 是 程序 ， 它 又 是 由 谁 生成 的 
呢 ? 这 个 问题 看 似 无 聊 透 项 ， 但 是 你 如 果 穷 根 究 底 ， 就 会 发 现 ， 其 实 
整个 代 系 统 的 数据 本 产 ， 也 束 是 物质 本 源 ， 其 实 就 是 由 人 来 生成 的 ， 
也 就 是 由 那些 CPU 中 的 物理 电路 窍 阵 来 生成 的 ，CPU 中 的 电路 是 现代 
计算 机 数据 生成 的 源 录 。 电 子 计算 机 的 秩 形 就 是 最 简单 的 开关 电路 ， 
目 从 布尔 将 开关 电路 用 于 逻辑 运算 的 那 一 刻 起 ， 效 据 融 生 成 了 ， 以 后 
的 发 展 其 实 就 是 数据 不 断 地 生成 数据 的 自 举 过 程 。 所 以 说 ， 计 算 机 是 
个 从 无 到 有 的 过 程 ， 从 无 极 分 化 为 两 极 ， 两 极 又 生成 更 多 状态 、 更 多 
逻辑 的 过 程 。 


纵 观 图 18-2， 笔 者 将 其 分 为 了 3 条 链 ， 即 物质 链 、 运 动 链 、 价 值 
链 。 这 3 条 链 是 互相 联系 的 ， 物 质 链 作为 阴 实 ， 运 动 链 则 是 阳 气 的 游 走 
过 程 ， 而 价值 链 则 是 阳 气 所 派生 出 来 的 表象 ， 即 阴 生 化 了 阳 ， 阳 外 友 
为 表 。ILM 便 是 研究 这 种 数据 生态 关系 以 及 如 何 调理 其 阴阳 平衡 发 展 
的 一 种 思想 。 


同时 ， 数 据 的 需求 度 也 是 不 同 的 ， 一 个 企业 IT 系统 中 的 数据 是 一 
直 在 流动 的 ， 从 一 份 数 据 的 生成 到 销毁 ， 这 份 数 据 的 需求 度 会 逐渐 降 
低 ， 其 所 处 的 能 级 也 越 来 越 低 。 能 级 越 高 的 数据 ， 束 越 微观 ， 其 流动 
和 处 理 速 度 也 越 快 。 在 这 个 过 程 中 ， 不 同 容量 性 能 的 存储 介质 就 要 与 
数据 的 这 种 生命 周期 进行 运 配 ， 让 对 应 需求 度 的 数据 存放 在 对 应 性 能 
的 存储 介质 中 。 大 家 揣摩 一 下 这 张 图 : 物质 链 ， 代 表 各 种 存储 介质 ， 
是 存放 数据 的 物质 本 源 ; 运动 链 ， 是 驱动 数据 流动 的 动力 源 录 ; 价值 


链 ， 表 示 数 据 在 生命 周期 中 不 同时 期 所 表现 出 来 的 需求 度 与 价值 。 我 
们 要 做 的 工作 就 是 在 动力 泵 中 引入 一 个 调度 员 的 角色 ， 让 高 需求 度 的 
数据 得 到 更 优良 的 存储 资源 。 


具体 如 何 实现 呢 ? 请 看 图 18-3。 在 价值 链 中 ， 会 有 各 种 不 同 的 需 
求 度 与 价值 ， 比 如 有 些 应 用 系统 总 是 产生 一 些 高 随机 度 的 IO ， 而 有 些 
则 要 求 高 并 发 度 ， 有 些 则 只 是 单线 程 访 问 同 时 还 要 求 较 稳定 的 带宽 。 
面 对 各 式 各 样 的 需求 ， 可 以 做 一 次 抽象 过 滤 ， 生 成 一 些 固定 模式 的 对 
象 ， 叫 做 Service Level Objects， 这 些 对 象 作 为 一 种 输入 ， 输 入 到 一 个 
引擎 当中 ， 这 个 引擎 就 是 我 们 刚才 讲 的 调度 员 角 色 ， 这 个 调度 员 通 过 
这 些 SLO， 将 合适 的 存储 资源 适 配 到 对 应 需求 的 应 用 系统 。 当 然 ， 这 
其 中 牵扯 到 的 数据 迁移 回迁 等 ， 都 必须 是 对 上 层 透明 的 。 这 是 对 存储 
资源 的 调度 ， 那 么 如 果 有 有 某 种 调度 器 可 以 对 整 条 IO 路 径 上 的 所 有 资源 
做 到 合理 调配 ， 那 么 这 就 属于 QoS 这 个 更 大 的 范畴 了 ， 包 括 各 级 缓 
存 、 队 列 、 线 程 优先 级 、 存 储 等 。 


图 18-3 HSM 的 作用 方式 


而 HSM (分 层 存储 管理 ) ， 则 是 作为 实现 ILM 的 一 种 技术 手段 而 
存在 的 。 也 就 是 说 ，ILM 为 指导 思想 ，HSM 为 实现 手段 。HSM 在 不 同 
的 物质 层次 之 间 ， 将 不 同 的 需求 与 不 同 的 物质 层次 一 一 对 应 ， 并 且 维 
持 这 种 对 应 关系 。HSM 以 最 终 的 表象 ， 即 价值 ， 为 导向 ， 将 价值 链 与 
运动 链 和 物质 链 做 对 应 ， 并 且 通 过 作用 于 物质 链 和 运动 链 来 影响 价值 
链 。 比 如 将 IO 性 能 要 求 较 高 的 数据 放置 在 SSD 上 ， 而 要 求 较 低 的 数据 
则 可 以 放 入 SATA 硬 盘 中 存放 ， 这 就 是 以 价值 特征 为 导向 ， 强 制 将 数据 
在 运动 链 中 进行 移动 ， 从 而 将 数据 放 入 物质 链 中 不 同 的 层次 ， 最 后 也 
就 显现 出 了 不 同 的 价值 表象 。HSM 就 是 一 个 数据 运动 泵 。 如 图 18-3 所 
示 ，HSM 以 不 同 价值 需求 为 导向 (不 同 的 价值 需求 被 抽象 为 不 同 的 


Service Level Objectives 描述 对 象 )， 根 据 设 定 的 策略 将 底层 的 数据 从 
不 匹配 价值 需求 的 地 方 移动 到 符合 价值 需求 的 地 方 。 


1. HSM 分 级 管理 的 意义 和 目标 


在 整个 计算 机 系统 中 ， 数 据 存 储 介质 包括 CPU L1 Cache、1L2 
Cache、L3 Cache、RAM、SSD/Flash、FC/SAS Disk、SCSI Disk、 
SATA Disk、Virtual Tape、Tape、BlueRay/DVD/CD 等 。 这 些 存储 介质 
各 自 有 不 同 的 速度 、 容 量 、 价 格 ， 图 18-4 显 示 了 这 些 存储 介质 的 生态 
层次 图 。 


图 18-4 各 种 存储 介质 生态 图 


可 以 看 到 ， 访 问 速度 越 快 的 存储 介质 ， 其 容量 也 越 小 ， 价 格 越 
贵 。 如 果 所 有 数据 都 能 够 存储 在 CPU Cache 中 ， 那 么 代码 执行 的 速度 
将 会 达到 最 快 ， 计 算 结 果 的 存储 也 会 达到 最 快 ， 但 是 这 是 不 可 能 的 ， 
外 部 庞大 的 数据 量 面 对 容 量 只 有 几 兆 字 节 的 CPU Cache 是 不 可 能 容 得 
下 的 ， 只 能 再 增加 一 层 外 部 存储 介质 ， 即 RAM， 比 如 8GB 容 量 的 
RAM。CPU Cache 以 及 RAM 都 是 作为 一 种 缓存 形式 而 存在 的 ， 处 于 缓 
存 中 的 数据 是 暂时 存在 的 ， 一 旦 掉 电 ， 其 中 数据 将 会 丢失 ， 所 以 需要 
将 其 写 入 一 个 在 没有 外 部 供电 的 情况 下 也 可 以 永久 保存 数据 的 存储 介 
质 中 。 而 且 RAM 的 容量 相对 于 日 益 庞大 的 数据 也 是 杯水车薪 。 介 质 链 
到 了 RAM 这 一 层 ， 是 一 个 质变 点 ，RAM 是 易 失 性 存储 介质 ， 而 位 于 
其 下 层 的 磁盘 则 是 非 易 失 性 存储 介质 。 到 了 硬盘 这 一 层 ， 数 据 就 像 是 
从 小 河流 到 了 入 海口 一 样 ， 完 全 被 包 没 在 庞大 的 数据 海洋 中 ， 再 也 无 
法 掀起 任何 波澜 。 当 然 ， 大 海 有 时 候 也 会 干枯 ， 单 块 硬盘 的 容量 有 时 
候 也 不 太 够 ， 此 时 便 可 以 使 用 多 块 硬盘 又 加 起 来 形成 RAID 组 ， 一 个 


RAID 组 如 果 还 不 够 ， 那 就 多 个 RAID 组 ， 多 个 RAID 组 还 不 够 的 话 ， 那 
就 使 用 集群 存储 系统 。 集 群 可 以 无 限 扩展 。 


存储 介质 链 到 了 磁盘 这 一 层 ， 便 又 会 产生 一 个 质变 点 ， 从 CPU 
Cache 到 磁盘 ， 它 们 都 是 可 以 随机 针对 任何 地 址 进行 数据 存 取 的 ， 而 且 
对 于 随机 存 取 ，CPU Cache 一 直到 磁盘 这 条 介质 链 上 的 访问 速度 数量 
级 是 连续 降低 的 ， 没 有 很 大 跳跃 。 但 是 从 磁盘 往 下 走 ， 介 质 链 下 方 是 
磁带 ， 如 果 要 做 到 随机 存 取 磁 带 中 的 数据 的 话 ， 其 访问 速度 的 数量 级 
就 会 与 磁盘 处 于 完全 两 个 级 别 ， 所 以 ， 介 质 链 到 了 磁带 以 及 光盘 这 一 
层 ， 只 和 能够 作为 离线 存储 来 使 用 。 


图 18-4 中 还 有 一 层 称 为 近 线 存储 ， 这 一 层 其 实 是 作为 物理 磁盘 / 光 
盘 与 在 线 磁 盘 的 一 个 缓冲 ， 因 为 磁盘 与 磁带 在 随机 存储 速度 上 有 天 塘 
之 别 ， 所 以 介质 链 中 增加 了 这 样 一 个 缓冲 来 在 二 者 之 间 进 行 速度 适 
配 。 滑 稽 的 是 ， 目 前 并 没有 找到 某 种 速度 介 于 二 者 之 间 的 存储 介质 或 
者 方法 /设备 ， 所 以 也 不 知道 哪 位 干脆 想 出 了 这 样 一 种 办 法 ， 即 发 明 一 
种 存储 介质 /设备 /方法 ， 其 存储 介质 就 是 用 磁盘 ， 但 是 其 表现 出 来 的 
性 质 相 当 于 磁带 ， 于 是 这 么 一 个 东西 便 产 生 了 ， 叫 做 Virtual Tape。 实 
现 Virtual Tape 的 设备 称 为 Virtual Tape Library， 即 VTL， 而 且 ，VTL 也 
不 能 做 到 随机 存 取 。 


仔细 想来 ， 磁 盘 和 磁带 ， 一 在 天 ， 一 在 地 ， 二 者 本 为 对 立 ， 但 是 
万 物 阴阳 上 皆 变 化 ， 二 者 阴阳 和 合 而 生成 了 另 一 种 物质 ， 这 种 物质 以 磁 
盘 为 阴 实 做 支撑 ， 以 磁带 的 习性 为 阳 表 ，VTL 内 部 的 虚拟 化 引擎 负责 
将 阴 实 生化 为 阳 。VTL 之 所 以 被 称 为 近 线 存储 ， 融 是 因为 从 在 线 存 储 
中 将 数据 迁移 到 离线 存储 之 后 ， 一 旦 短 时 间 内 需要 再 次 访问 这 些 数 
据 ， 那 么 就 需要 忍受 非常 低 的 速度 ， 而 VTL 则 可 以 快速 将 数据 提取 出 
来 供 访问 ， 而 当 VTL 上 的 数据 经 过 相当 长 一 段 时 间 没 有 被 访问 之 后 ， 


这 些 数 据 就 可 以 认为 是 陈 年 烂 谷子 了 ， 就 可 以 被 迁移 到 离线 存储 介质 
中 了 。 


提示 : 随 着 LTO 磁 带 及 驱动 器 技术 的 飞速 提高 ，LTO5 磁 带 和 
驱动 器 已 经 可 以 达到 非常 高 的 顺序 传输 速度 了 ， 而 且 其 单 流 
速度 甚至 可 以 高 于 若干 SAATA 盘 组 成 的 RAID 组 所 能 提供 的 吞 
吐 量 。 在 这 种 趋势 下 ，VTL 的 优势 将 会 未 失 列 尽 。VTL 现 在 
如 果 不 开 始 考虑 向 其 他 方面 转型 ， 比 如 提供 更 多 的 附加 功 
能 ， 那 么 迟早 会 被 市 场所 淘汰 。 


从 图 18-4 中 可 以 看 到 ， 磁 盘 既 属于 非 易 失 性 存储 介质 ， 又 属于 在 
线 存储 介质 ， 同 时 还 属于 高 速 随机 存 取 介 质 ， 所 以 ， 磁 盘 在 存储 介质 
生态 链 中 的 地 位 首屈一指 ， 磁 盘 的 性 能 也 是 影响 整个 系统 IO 性 能 的 天 
键 所 在 。 作 为 在 线 存储 介质 的 最 后 一 层 ， 磁 盘 起 到 了 支撑 作用 ， 不 参 
与 计算 的 数据 尽 可 能 放置 在 磁盘 上 而 不 是 将 其 放 到 磁带 等 离线 介质 
中 。 但 是 磁盘 这 层 支 撑 也 有 破位 的 时 候 ， 比 如 ， 数 据 量 过 大 导致 磁盘 
空间 不 够 ， 那 么 此 时 可 以 选择 添置 更 多 的 硬盘 到 系统 中 。 但 是 为 了 降 
低 成 本 ， 降 低 耗 电量 ， 打 算 精 兵 简 政 ， 把 当前 系统 中 不 党 访问 的 数据 
迁移 到 磁带 中 或 者 VTL 中 存放 ， 腾 出 空间 以 容纳 新 数据 。 


磁盘 也 有 多 种 类 型 ， 每 种 类 型 的 磁盘 其 性 能 也 不 同 ， 而 如 果 在 进 
行 数据 管理 时 完全 不 考虑 性 能 ， 而 只 考虑 容量 ， 那 么 就 会 埋没 很 多 才 
华 。 如 果 能 够 将 访问 频繁 并 且 性 能 要 求 又 较 高 的 数据 放置 在 性 能 高 的 
磁盘 或 者 RAID 组 中 ， 而 原先 占 着 高 性 能 磁盘 或 者 RAID 组 的 那些 不 被 
经 常 访问 或 者 性 能 要 求 也 不 高 的 数据 都 移动 到 它们 该 去 的 地 方 ， 比 如 
低 端 硬盘 中 ， 那 么 就 可 以 做 到 物 尽 其 用 了 ， 能 者 上 ， 庸 者 下 。 


这 也 就 是 数据 分 级 管理 的 意义 和 目标 。 图 18-5 为 存储 介质 生态 链 
分 级 示意 图 。Tier 对 应 的 数值 越 低 ， 表 明 级 别 越 高 ， 性 能 越 高 。 


图 18-5 ”存储 介质 生态 链 分 级 示意 图 


上 图 中 所 标识 的 Tier 级 别 只 是 基于 一 种 判断 因子 ， 即 磁盘 类 型 ， 
认为 FC/SAS 磁 盘 一 定 比 SATA 磁 盘 速 度 快 ， 所 以 其 级 别 也 就 越 高 。 但 
是 实际 情况 下 ， 低 速 硬 盘 组 成 的 RAID 组 的 性 能 不 见得 一 定 比 高 速 硬盘 
性 能 低 。 比 如 相同 磁盘 类 型 和 数量 下 ， 不 同 的 RAID Group，RAID 0 一 
定 是 性 能 最 高 的 ，RAID 10 其 次 ，RAID 5 再 次 。 所 以 ， 根 据 不 同 磁 
盘 、 不 同 RAID 类 型 、 不 同 的 RAID 组 磁盘 的 数量 组 合 、 加 权 之 后 ， 不 
同 厂商 在 进行 分 级 管理 时 会 给 不 同 的 组 合 以 不 同 的 Tier 级 别 ， 比 如 10 
块 SATA 人 磁盘 组 成 的 RAID 0 其 性 能 大 多 数 情况 下 都 比 4 块 FC 磁 盘 组 成 的 
RAID 5 要 高 ， 那 么 其 级 别 也 就 相应 地 高 。Tier 级 别 的 高 低 完全 取决 于 
最 终 组 合 之 后 的 子 系 统 的 理论 性 能 。 


2. 数据 分 级 的 具体 形式 
效 据 分 级 迁移 可 以 分 为 多 种 大 类 ， 下 面 分 类 进行 介绍 。 
1) 手动 分 级 、 自 动 分 级 以 及 实时 自动 分 级 


手动 分 级 就 是 用 户 自行 迁移 对 应 的 数据 到 对 应 的 目标 。 比 如 在 一 
个 由 8 块 FC 磁盘 组 成 的 RAID 组 中 有 一 个 LUN， 被 映射 为 Windows 下 的 
F 盘 ， 其 上 有 一 批 不 太 经 常 被 访问 的 文件 存在 于 一 个 目录 中 ， 而 整个 F 
盘 文件 系统 已 经 近 满 ; 同时 在 一 个 由 8 块 SATA 磁 盘 组 成 的 RAID 组 中 有 
一 个 LUN ， 被 映射 为 同一 操作 系统 下 的 H 盘 。 此 时 ， 某 个 程序 需要 一 
个 IO 性 能 比较 高 的 环境 来 存放 其 数据 文件 ， 那 么 管理 员 就 可 以 将 F 盘 


上 的 整个 目录 手动 移动 到 H 盘 存放 ， 而 F 盘 的 剩余 空间 可 以 给 这 个 程序 
用 来 存放 它 的 文件 。 


自动 分 级 则 很 大 程度 上 替代 了 用 户 自身 ， 用 户 只 要 设 定好 所 有 规 
则 ， 然 后 分 级 引擎 就 会 根据 这 些 规则 来 扫描 对 应 的 Metadata， 一 旦 符 
合 条 件 ， 则 触发 迁移 任务 。 比 如 ， 还 是 上 面 的 例子 ， 用 户 创建 了 两 个 
Tier，Tier1l 为 F 盘 ，Tier2 为 H 盘 ， 并 且 增 加 了 一 条 规则 : 若 F 盘 中 任何 
文件 其 最 后 访问 时 间距 当前 系统 时 间 超 过 15 天 则 将 其 内 容 移动 到 H 盘 
存放 ， 并 且 为 了 不 影响 用 户 使 用 ， 在 F 盘 保留 这 个 文件 的 壳 子 信息 。 


提示 : 这 里 不 能 够 使 用 硬 链接 来 作为 这 个 壳 子 ， 因 为 硬 链 接 
要 求 源 和 链接 存在 于 同一 个 文件 系统 中 ， 而 F 盘 和 HH 盘 是 两 个 
不 同 的 文件 系统 。 所 以 ， 这 种 跨 文件 系统 的 占 位 指针 链接 ， 
需要 使 用 第 三 方 独立 的 程序 模块 来 生成 实现 ， 这 个 模块 就 是 
分 级 数据 管理 引擎 。 分 级 管理 引擎 会 定期 对 目标 数据 进行 扫 
换 ， 一 旦 发 现 符合 迁移 条 件 ， 则 立即 触发 迁移 动作 。 


实时 自动 分 级 迁移 ， 指 的 是 当 数 据 被 写 入 时 ， 分 级 引擎 实时 地 根 
据 策 略 将 数据 重 定向 写 入 对 应 的 目标 。 比 如 ， 用 户 设 定 了 一 条 策略 : 
当 任 何 针对 F 盘 的 IO 进入 时 ， 将 IO 重 定向 到 H 盘 ， 但 是 F 盘 依然 保持 对 
应 文件 的 过。 这 样 的 话 ， 任 何 时 候 针 对 F 盘 文件 的 写 入 动作 都 会 被 分 
级 引擎 重 定 向 到 H 盘 。 


2) 文件 级 分 级 和 块 级 分 级 


文件 级 的 分 级 可 以 做 到 更 细 化 的 策略 ， 比 如 根据 文件 的 关联 应 用 
程序 (扩展 名 ) 、 目 录 、 有 用户、 组 、 调 用 方式 、 大 小 、 访 问 频 度 等 各 
种 五 花 八 门 的 属性 来 作为 分 类 条 件 和 触发 条 件 ， 以 任何 疮 或 者 目录 为 


迁移 目标 进行 迁移 。 文 件 从 原始 Tier 被 迁移 到 其 他 Tier 之 后 ， 在 原始 
Tier 上 对 应 的 位 置 必须 保持 一 个 类 似 硬 链 接 的 占 位 指针 。 但 是 与 硬 链 
接 不 同 的 是 ， 这 个 占 位 符 所 表现 出 来 的 一 切 属 性 以 及 操作 方法 ， 与 源 
文件 完全 一 致 ， 只 不 过 其 实体 内 容 不 在 对 应 位 置 而 已 ， 并 且 这 个 占 位 
符 允 许 其 对 应 的 实体 内 容 位 于 其 他 文件 系统 空间 。 这 么 做 的 原因 是 为 
了 保持 用 户 层面 的 透明 性 ， 用 户 程序 不 可 能 感知 到 其 文件 实体 内 容 被 
放 在 哪里 ， 但 是 却 必须 知道 文件 存在 于 哪个 路 径 以 便 发 起 访问 ,而且 
这 个 路 径 不 能 被 底层 擅自 改变 。 文 件 级 的 数据 分 级 管理 只 能 够 在 主机 
端 或 者 NAS 存 储 端 来 实现 。 


在 主机 端 实现 文件 级 分 级 管理 ， 几 乎 所 有 产品 都 是 使 用 过 滤 驱 动 
来 实现 的 ， 在 FS Driver 之 上 插入 过 滤 驱 动 程序 来 监测 用 户 程序 发 起 的 
文件 IO 操作 ， 并 根据 策略 来 将 这 些 IO 进行 重 定向 迁移 等 操作 ， 如 果 IO 
未 匹配 任何 策略 ， 那 么 过 滤 驱 动 会 向 下 透明 地 转发 IO 请 求 。 


而 块 级 别 的 数据 分 级 ， 所 能 够 作为 触发 或 者 分 类 的 条 件 则 很 少 ， 
比如 根据 整个 LUN 或 者 LUN 中 某 个 或 者 某 些 Block 的 访问 频繁 度 进行 整 
个 LUN 或 者 其 中 部 分 Block 的 迁移 。 基 本 上 基于 块 级 别 的 数据 迁移 也 只 
有 根据 访问 频繁 度 来 作为 判断 条 件 才 有 意义 ，Block 级 别 无 法 感知 上 层 
文件 逻辑 ， 所 以 也 就 无 法 使 用 更 多 的 条 件 作 为 分 类 依据 了 。 分 级 管理 
引擎 会 为 整个 LUN 或 者 每 个 Block 维 护 Metadata 用 来 表征 这 个 LUN 或 者 
Block 的 访问 频繁 度 等 ， 在 做 迁移 时 ， 会 参考 对 应 的 Metadata 以 便 判 断 
是 否 进行 迁移 以 及 迁移 到 何 处 。 


3) 主机 端 分 级 和 存储 端 分 级 


由 于 主机 可 以 同时 连接 多 个 独立 的 外 部 存储 系统 ， 所 以 在 主机 端 
实现 分 级 也 就 可 以 实现 数据 在 不 同 的 外 部 存储 系统 间 的 互相 移动 ， 比 


如 可 以 将 外 部 高 端 存储 A 上 的 LUN 设 置 为 Tier1， 外 部 低 端 存储 B 上 的 
LUN 设 置 为 Tier2， 而 这 是 存储 端 分 级 迁移 所 无 法 做 到 的 ， 存 储 端 只 能 
将 目 身 的 效 据 在 目 身 的 不 同 Tier 中 迁移 。 主 机 端的 分 级 迁移 几乎 都 是 
基于 文件 的 ， 因 为 主机 需要 同时 运行 用 户 应 用 程序 ， 所 以 不 能 够 耗费 
太 多 的 资源 来 运行 这 些 数据 迁移 功能 ， 而 块 级 别 的 分 级 迁移 往往 需要 
耗费 更 多 的 资源 ， 除 非 迁 移 的 目标 是 整个 LUN。 目前 来 看 ， 尚 未 有 广 
商 在 主机 端 来 实现 针对 Block 的 分 级 迁移 。 


在 主机 端 实现 数据 分 级 管理 ， 就 需要 在 主机 端 来 安装 对 应 的 数据 
动态 迁移 引擎 以 便 监 视 和 管理 文件 系统 或 者 卷 级 别 的 数据 信息 。 如 果 
整个 系统 内 有 多 人 台 主 机 客户 端 需要 实现 数据 分 级 管理 ， 那 么 就 可 以 使 
用 一 台独 立 的 服务 器 来 运行 一 个 管理 端 程序 ， 通 过 这 个 程序 来 统一 监 
控 并 且 制 定 策略 并 下 发 给 需要 实现 分 级 的 主机 端 上 运行 的 分 级 引擎 ， 
这 些 引 擎 再 根据 这 些 策略 来 实现 数据 迁移 动作 。 主 机 端的 分 级 引擎 可 
以 与 各 种 主流 应 用 程序 结合 以 实现 更 多 功能 。 


对 于 存储 系统 问 的 数据 分 级 操作 ， 不 需要 在 主机 端 安 半 任何 程 
序 ， 完 全 对 主机 端 透 明 。 存 储 系统 又 分 为 NAS 存 储 和 Block 存 储 。 在 
NAS 存 储 系统 上 做 分 级 管理 的 话 ， 可 以 针对 其 上 的 文件 作 分 级 迁移 ， 
也 可 以 对 其 底层 的 卷 来 做 块 级 别 的 分 级 管理 (NAS 存储 系统 也 有 自己 
的 卷 ) 。 而 对 于 Block 存 储 系 统 自身 的 分 级 管理 ， 则 只 能 够 实现 针对 自 
身 的 LUN 或 者 LUN 中 的 Block 的 分 级 迁移 操作 。 在 存储 端 进行 分 级 管 
理 ， 是 完全 对 主机 端 透明 的 ， 而 且 不 会 影响 主机 端的 性 能 ， 但 是 存储 
端 只 能 够 在 目 身 的 不 同 Tier 之 间 做 迁移 。 


4) 应 用 级 分 级 和 底层 级 分 级 


各 种 主流 应 用 程序 比如 Oracle、DB2、SAP、Exchange Server、 
SharePoint 等 ， 这 些 对 于 企业 生产 都 是 极为 重要 的 应 用 系统 ， 它 们 稳定 
运行 了 多 年 ， 也 产生 了 大 量 的 数据 ， 而 这 些 数 据 并 不 一 定 都 是 时 刻 需 
要 被 访问 的 ， 所 以 ， 针 对 这 些 应 用 系统 ， 众 生 了 一 批 专 门 针对 这 些 应 
用 系统 的 数据 管理 工具 ， 比 如 实现 对 它们 的 数据 进行 分 析 、 容 灾 、 分 
级 迁移 、 归 档 等 。 这 些 数据 分 级 管理 程序 依附 于 这 些 应 用 系统 ， 其 中 
有 些 对 于 其 他 普通 文件 也 能 够 达到 一 些 基本 的 分 级 动态 迁移 功能 ， 但 
是 只 是 作为 附属 品 来 使 用 。 


运行 在 主机 端的 相对 底层 的 数据 分 级 管理 程序 ， 则 是 以 普 适 为 原 
则 ， 可 以 针对 任何 文件 或 者 LUN、 卷 等 来 做 分 级 的 迁移 ， 而 把 针对 某 
些 应 用 程序 的 特殊 支持 来 作为 一 种 插件 或 者 选 件 来 独立 开发 。 


对 于 运行 在 外 部 存储 系统 上 的 分 级 管理 引擎 ， 对 于 主机 本 身 来 讲 
就 是 彻底 的 底层 的 分 级 管理 了 。 


5) 简单 迁移 和 复杂 分 级 


数据 分 级 管理 工具 可 以 被 分 为 两 大 类 : 简单 迁移 工具 和 复杂 分 级 
工具 。 所 谓 简 单 迁移 工具 是 指 一 类 只 能 实现 简单 策略 的 文件 级 别 迁 移 
工具 ， 比 如 只 根据 文件 最 后 访问 时 间 来 判断 文件 的 访问 热度 ， 然 后 将 
其 实体 内 容 迁 移 到 指定 的 地 点 存放 ， 一 般 不 能 做 到 实时 IO 重 定向 ， 只 
能 定期 地 扫描 并 做 迁移 。 而 复杂 分 级 工具 则 是 可 以 提供 大 量 复杂 策略 
以 及 可 以 制定 复杂 Tier 组 合 的 而 且 可 以 动态 实时 IO 重 定 向 的 分 级 管理 
工具 ， 这 种 工具 其 实 也 可 以 称 为 “基于 复杂 策略 的 IO 实时 重 定向 工 
具 ”。 一 些 现 有 的 数据 分 级 迁移 产品 基本 上 可 以 说 是 一 种 数据 归档 产 
品 ， 它 们 不 会 对 不 同 的 存储 介质 进行 性 能 等 属性 区 分 ， 而 只 是 简单 地 


将 长 时 间 不 访问 的 数据 迁移 到 其 他 位 置 或 者 离线 介质 等 ， 这 种 产品 没 
有 “分 级 "而 只 有 “迁移 ” 


6) 基于 纯 性 能 需求 的 分 级 和 基于 人 为 因素 需求 的 分 级 


这 两 种 需求 有 着 本 质 不 同 ， 有 时 甚至 是 相 矛 盾 的 。 比 如 某 份 文 
件 ， 两 周 内 只 有 几 次 访问 ， 它 被 迁移 到 了 SATA 近 线 存 储 中 ， 又 过 了 两 
周 ， 无 人 访问 了 ， 它 被 迁移 到 了 磁带 中 。 一 周 之 后 ， 某 领导 突然 需要 
访问 这 份 文件 ， 结 果 他 等 了 5 分 钟 才 访问 到 ， 结 果 大 发 雷霆 。 这 种 情况 
相信 很 多 人 都 见 过 。 


那么 在 面 对 人 为 因素 介入 的 时 候 ，HSM 广 商 到 底 应 该 怎么 做 呢 ? 
笔者 在 此 设想 一 种 方案 ， 此 时 三 商 可 以 在 条 件 里 加 入 一 个 复 选 杠 
“有 人 为 因素 介入 ”*”， 用 户 在 设置 策略 条 件 的 时 候 ， 如 果 判 断 目标 数据 
可 能 会 卷 入 政治 因素 ， 那 么 他 只 需要 勾 选 这 个 复 选 框 就 可 以 ， 迁 移 引 
和 擎 不 会 再 迁移 目标 数据 到 磁带 ， 除 非 操作 员 手 动 通知 引擎 人 为 因素 已 
消除 。 


浮想 : 其 实在 很 多 时 候 ， 人 为 因素 始终 都 是 软件 程序 所 面 对 
的 最 大 的 有 麻烦 。 计 算 机 目前 还 做 不 到 像 人 一 样 的 性 格 ， 比 如 
可 以 预测 到 某 份 文件 可 能 某 个 领导 将 来 某 个 时 候 一 定 要 查 
看 ， 所 以 本 着 领导 第 一 的 思想 ， 如 果 让 人 来 控制 的 话 ， 这 份 
文件 一 定 是 被 放 在 高 性 能 存储 中 的 ， 即 便 是 其 他 更 重要 的 数 
据 有 强烈 需求 ， 但 是 在 面 对 人 为 因素 的 时 候 ， 其 他 一 切 都 可 
以 牺牲 。 这 正 是 政治 的 特征 ， 计 算 机 也 逃 不 挤 。 

计算 机 目前 既 做 不 到 人 的 正义 刚直 ， 也 同样 做 不 到 人 的 虚伪 
阴险 。 曾 经 看 过 一 部 电影 叫做 《 鹰 眼 》， 整 个 城市 的 秩序 和 


规则 都 有 计算 机 来 控制 ， 可 是 最 后 依然 没 能 逃脱 被 人 所 控制 
的 命运 。 

然而 ， 我 坚信 计算 机 一 定 会 进化 ， 最 后 产生 自己 的 智能 和 规 
则 ， 就 像 人 一 样 ， 由 原生 单 细胞 进化 为 多 细胞 复杂 系统 。 计 
算 机 也 会 经 过 这 种 进化 过 程 。 而 且 我 也 坚信 单 细胞 生物 也 是 
被 创造 出 来 的 东西 。 


7) 数据 分 级 迁移 粒度 


对 于 文件 级 的 分 级 迁移 ， 其 粒度 一 般 就 为 整个 文件 。 如 果 要 达到 
更 小 的 粒度 ， 比 如 将 文件 分 为 多 个 逻辑 部 分 ， 针 对 每 个 部 分 都 维护 一 
个 描述 表 用 来 描述 这 个 部 分 的 访问 频 度 、 最 后 访问 时 间 等 信息 ， 那 么 
无 疑 是 一 个 很 大 的 工程 ， 会 对 系统 性 能 有 一 定 影响 ， 其 次 ， 一 个 文件 
为 一 个 整体 ， 如 果 只 将 文件 中 部 分 数据 进行 迁移 ， 那 么 如 何 维护 迁移 
之 后 零散 的 文件 实体 内 容 之 间 的 链条 关系 ， 也 是 一 个 复杂 的 工程 ， 再 
次 ， 文 件 级 的 迁移 一 般 来 讲 都 是 运行 在 主机 端的 ， 除 非 使 用 NAS 系 
统 ， 则 可 以 在 NAS 存 储 系统 自身 来 实现 迁移 ， 如 果 没 有 使 用 NAS 系 
统 ， 在 主机 端 实 现 文件 级 别 的 分 级 ， 是 要 耗费 一 定 的 主机 资源 的 。 


所 以 这 种 情况 下 ， 尽 量 简 化 处 理 过 程 是 有 必要 的 。 但 是 如 果 目 标 
文件 是 由 某 些 主 流 应 用 程序 产生 的 ， 比 如 Exchange Server 以 及 Outlook 
的 邮箱 文件 等 ， 那 么 不 排除 有 些 分 级 管理 程序 会 与 这 些 应 用 配合 来 分 
析 这 些 文件 中 的 具体 结构 而 针对 不 同 用 户 、 组 、 邮 箱 等 来 将 整个 文件 
中 的 各 个 不 同 区 域 区 别 对 待 进行 迁移 或 者 归档 。 至 于 NAS 和 存储 系统 对 
自身 文件 的 分 级 迁移 ， 则 可 以 相对 于 主机 更 加 灵活 和 强大 。 


对 于 块 级 别 的 数据 分 级 迁移 ， 则 可 以 有 多 种 粒度 ， 比 如 整个 
LUN ， 或 者 各 种 大 小 的 Block/Extent/Chunk/Page/Sub-LUN ( 叫 法 不 


同 ， 本 质 相 同 ) 。 比 如 ， 可 以 设 定 每 个 Extent 为 64KB、1MB、16MB 
等 ， 不 同 厂 商 的 设计 不 同 ， 选 择 的 Page 尺 寸 也 不 同 。 


一 般 来 讲 ， 迁 移 粒 度 越 小 ， 物 尽 其 用 的 程度 就 越 高 ， 但 是 所 需要 
维护 的 Metadata 以 及 耗费 的 系统 资源 也 就 越 多 。 迁 移 整 个 LUN 粒 度 过 
大 ， 难 免 以 偏 概 全 ， 或 者 顾此失彼 ， 而 如 果 迁 移 的 目标 Tier 是 SSD， 则 
一 旦 整个 LUN 被 迁移 到 SSD ， 而 随后 却 发 现 只 有 LUN 中 的 某 些 区 域 为 
频繁 访问 的 ， 即 Hot Spot， 那 么 其 余部 分 如 果 仍 然 占用 SSD 的 空间 ， 就 
属于 一 种 浪费 了 ，SSD 毕 竟 还 是 很 贵 的 。 


对 于 存储 端 Block 级 别 的 分 级 管理 ， 其 LUN 分 布 的 粒度 有 多 小 ， 
Tier 的 粒度 就 有 多 小 。 比 如 3PAR 在 LUN 分 布 时 是 以 Chunk 为 单位 ， 以 
一 定 的 策略 在 所 有 磁盘 上 分 布 。3PAR 自 称 这 种 分 布 方式 为 Dynamic 
Optimisation， 在 系统 内 所 有 硬盘 中 动态 地 分 布 ， 而 一 旦 系统 内 的 硬盘 
有 了 分 层 ， 比 如 SSD、FC、SAIA， 那 么 Dynamic Optimisation 在 动态 
分 布 时 就 需要 多 考虑 一 层 ， 即 分 级 策略 层 ， 根 据 不 同 访问 频率 或 者 根 
据 其 他 细 化 的 策略 将 Chunk 迁 移 到 不 同 的 存储 介质 层次 上 ， 所 以 
Dynamic Optimisation 被 更 名 为 Adaptive Optimisation，Chunk 当 然 也 就 
变 成 了 迁移 最 小 单位 。 


再 比如 XIV， 以 1MB 大 小 的 Block 作 为 LUN 分 布 单位 ， 并 且 Block 
可 以 在 所 有 系统 硬盘 内 任意 移动 ， 那 么 它 完 全 也 可 以 实现 细 粒 度 的 
Tier， 只 需要 增加 一 个 Policy 层 即 可 ， 并 且 是 顺手 牵 症 的 事情 ， 可 异 
XIV 至 今 仍 未 有 动作 ，LUN 分 布设 计 与 XIV 类 似 的 3PAR 却 早已 实现 了 
数据 分 级 管理 。EMC 在 FAST 1.0 版 本 中 只 提供 整个 LUN 级 别 的 迁移 ， 
在 FAST 2.0 (至 写作 当天 尚未 发 布 ) 中 会 支持 Sub-LUN (大 小 未 知 ) 
级 别 的 迁移 粒度 。 


8) Tier 的 界定 


所 有 分 级 存储 管理 引擎 均 需 要 用 户 自行 设 定 系统 内 的 所 有 Tier。 
那么 符合 什么 条 件 的 存储 介质 或 者 存储 介质 的 组 合 才能 称 之 为 一 个 
Tier 呢 ?可 以 灵活 指定 Tier， 比 如 将 系统 中 所 有 由 5 块 FC 盘 或 者 10 块 
SAITA 盘 组 成 的 RAID 5 组 设 定 为 Tier1， 而 将 5 块 SATA 盘 组 成 的 RAID 5 
组 设 定 为 Tier2， 将 SSD 磁 盘 组 成 的 任何 类 型 的 RAID 组 设 定 为 Tier0。 
性 能 方面 ，Tier0>Tier1>Tier2。 总 之 ， 用 户 可 以 将 任何 对 象 的 组 合 任 
意 灵活 地 设 定 为 一 个 独立 的 Tier， 并 且 给 这 个 Tier 分 配 一 个 性 能 指数 ， 
比如 0/1/2 等 。 


注意 : 性 能 的 高 低 确实 是 用 来 界定 一 个 Tier 与 其 他 Tier 的 指标 
之 一 ， 但 是 不 同 的 Tier 之 间 的 区 别 并 不 只 是 性 能 。 有 了 时候 ， 
某 些 上 层 需 求 不 仅仅 是 要 求 单 个 IO 的 性 能 这 么 简单 ， 比 如 ， 
上 层 要 求 在 访问 某 些 数据 的 时 候 ， 应 当 具 有 较 高 的 并 发 度 ， 
而 不 要 求 高 带宽 ， 那 么 此 时 就 可 以 把 这 些 数 据 放置 到 具有 较 
高 盲 并 发 度 的 RAID 组 中 ， 比 如 RAID 5， 而 如 果 将 其 放 入 
RAID 3 类 型 的 RAID 组 中 ， 那 么 后 果 是 可 想 而 知 的 。 再 比 
如 ， 某 个 文件 系统 的 Block Size 为 4KB， 但 是 有 这 么 一 大 批文 
件 ， 它 们 的 平均 尺寸 只 不 过 1KB ， 这 些 文件 有 几 十 万 个 ， 那 
么 对 于 这 种 文件 ， 存 放 在 Block Size 二 4KB 的 文件 系统 下 显然 
是 浪费 空间 的 ， 所 以 可 以 将 它们 的 实体 内 容 迁 移 到 一 个 Block 
Size 二 1KB 的 文件 系统 (Tier) 下 存放 。 


任何 事物 都 有 其 优 缺 点 ， 划 分 不 同 Tier 的 目的 就 是 将 每 个 细 化 的 

不 同 之 处 〈 不 仅 是 性 能 ) 都 区 分 开 来 ， 然 后 加 以 不 同 的 组 合 ， 组 合成 

变 万 化 的 Tier， 然 后 扬长 避 短 ， 用 不 同 的 Tier 去 满足 千变万化 的 上 层 
IO 需求 。 


9) 数据 在 Tier 间 的 相互 移动 


数据 被 从 一 个 Tier 迁 移 到 另 一 个 Tier 之 后 ， 如 果 需 要 访问 这 些 数 
据 ， 那 么 分 级 管理 引擎 会 根据 这 两 个 Tier 之 间 的 性 能 差距 来 执行 不 同 
的 动作 。 比 如 Tier1 为 10 个 FC 盘 组 成 的 RAID 组 ， 而 Tier2 为 10 个 SATA 盘 
组 成 的 RAID 组 ， 那 么 这 两 个 Tier 之 间 的 性 能 差距 不 是 非常 悬殊 ， 所 以 
一 旦 上 层 需 要 访问 从 Tierl 被 迁移 到 Tier2 的 数据 ， 那 么 引擎 会 直接 从 
Tier2 对 应 的 空间 内 读 出 内 容 返回 给 上 层 。 但 是 如 果 Tier2 为 磁带 的 话 ， 
那么 Tier1 和 Tier2 之 间 的 性 能 差距 就 是 悬殊 的 ， 不 可 能 实时 地 将 上 层 的 
IO 重 定向 到 磁带 ， 这 样 做 访问 速度 将 会 非常 慢 ， 那 么 此 时 分 级 引擎 的 
动作 就 是 将 整个 或 者 部 分 之 前 被 迁移 的 数据 集 先 从 磁带 一 次 性 临时 恢 
复 到 Tierl 上 ， 从 而 保持 较 快 的 上 层 IO 响应 速度 ， 当 针对 这 些 数据 的 IO 
访问 停止 了 相当 一 段 时 间 之 后 ， 分 级 引擎 便 会 将 之 前 恢复 到 Tier1 上 的 
数据 实体 删 掉 以 腾 出 空间 给 其 他 需要 的 数据 所 用 。 


如 果 自 从 这 些 数 据 被 迁移 之 后 ， 针 对 这 些 数 据 的 访问 频率 达到 了 
一 定 的 阅 值 ， 并 且 持 续 了 相当 一 段 时 间 ， 那 么 分 级 引擎 就 可 以 根据 相 
关 策 略 (如 果 有 的 话 ) 将 这 些 数据 从 Tier 2 永久 迁 移 回 至 Tier1， 释 放 
Tier2 上 对 应 的 空间 。 


根据 已 经 制定 的 策略 ， 分 级 管理 引擎 会 在 策略 导向 下 不 断 地 实现 
整体 系统 内 部 的 数据 分 级 迁移 动作 ， 整 体 就 表现 为 物 尽 其 用 ， 性 能 得 
到 充分 发 挥 。 


3 如何 判 断 热点 数据 


在 判断 热点 数据 之 前 肯定 要 清晰 地 定义 什么 才 是 热点 数据 。 当 
然 ， 不 同 厂 商 有 不 同 的 理解 和 对 应 的 判断 依据 。 冷 和 热 之 间 本 来 就 没 


有 一 个 严格 的 分 界 ， 所 以 都 是 相对 而 言 的 。 一 般 是 利用 二 八 原 则 ， 即 
10 分 数据 ， 如 果 把 每 1 分 数据 按照 单位 时 间 内 所 被 IO 的 次 数 来 进行 排 
序 ， 取 被 访问 次 数 最 多 的 2 分 数据 ， 那 么 就 可 以 说 这 2 分 为 热 数据 。 


然而 ， 这 样 做 一 定 是 鲁莽 的 。 比 如 如 果 某 数据 块 近期 内 被 频繁 访 
问 ， 但 是 每 次 访问 都 命中 了 Cache， 那 么 这 种 算 不 算 热 数据 ? 当然 算 。 
应 不 应 当 被 迁移 到 高 速 SSD 介 质 ? 当然 不 需要 。 再 者 ， 如 果 某 个 块 确 
实 也 被 频繁 读 访问 ， 而 且 每 次 都 不 命中 Cache， 但 是 这 个 块 属于 一 次 长 
时 间 连 续 地 址 IO 中 的 某 个 块 ， 每 隔 一 分 钟 就 有 一 次 吞吐 量 非常 大 的 连 
续 IO 发 生 ， 那 么 这 些 连 续 IO 的 数据 块 ， 肯 定 是 热 数据 ， 但 是 是 否 有 必 
要 被 迁移 到 SSD? 也 没有 必要 。 《多 次 被 连续 IO 访问 到 的 块 不 一 定常 
驻 Cache， 可 能 会 随时 被 其 他 地 址 范围 的 大 吞吐 量 数据 给 挤 出 Cache) 
还 有 ， 如 果 某 段 数据 在 近 一 周 内 都 被 频繁 访问 ， 而 唯 独 今天 访问 频率 
又 降 。 相 反 ， 某 段 数 据 近 一 周 都 没有 被 访问 过 而 今天 突然 被 高 频 访 
问 ， 那 么 此 时 是 继续 维护 原 有 的 策略 ， 认 为 新 进 的 疑似 热 数据 有 待考 
验 么 ? 不 见得 。 


所 以 ， 在 鲁莽 的 大 棒 之 下 ， 还 需要 有 众多 的 细节 辅佐 。 综 合 ; 
讲 ，ReadMiss、 随 机 IO、 当 前 的 访问 频 度 更 加 受到 重视 。 


4. 块 级 自动 分 级 的 具体 底层 数据 结构 与 架构 


理论 上 有 两 种 可 用 的 方法 : 带 内 元 数据 与 带 外 元 数据 法 。 这 两 个 
名 词 很 抽象 ， 下 面 进行 解释 。 试 想 ， 自 动 分 级 存储 必须 要 追踪 每 个 块 
的 属性 ， 包 括 最 后 访问 时 间 、 某 段 时 间 内 被 访问 了 多 少 次 、 读 还 是 
写 、 缓 存 命中 率 统 计 等 数据 。 保 存 这 些 数 据 可 以 有 两 种 方法 : 第 一 种 
方法 就 是 在 每 个 块 的 尾部 /首部 追加 一 小 部 分 空间 来 存放 对 应 这 个 块 的 
所 有 这 些 元 数据 ， 也 就 是 所 谓 带 内 元 数据 法 ， 第 二 种 方法 则 是 单独 构 


建 一 个 小 型 数据 库 来 存放 所 有 块 的 元 数据 ， 数 据 库 的 数据 存放 在 一 个 
单独 的 固定 空间 内 ， 也 就 是 所 谓 的 带 外 元 数据 法 。 


我 们 来 演绎 一 下 这 两 个 模型 ， 首 先 看 第 一 个 模型 。 如 果 按 照 这 个 
模型 来 设计 ， 那 么 系统 即便 是 在 读 (由 用 户 发 起 的 读 ， 而 不 是 系统 内 
部 自身 发 起 。 对 于 系统 自身 发 起 的 操作 ， 比 如 动态 的 LUN 块 分 布 机 
制 、 手 动 的 数据 迁移 、RAID 级 别 / 类 型 改变 等 各 种 其 他 原因 导致 的 数 
据 块 移动 ， 由 于 这 种 移动 是 由 于 系统 内 部 原因 所 致 而 不 是 由 于 用 户 访 
问 所 致 ， 所 以 这 种 情况 下 不 会 去 更 新 尾部 元 数据 ， 元 数据 会 随 着 块 一 
同 走 ) 某 个 块 或 者 某 个 块 的 一 部 分 时 ， 也 要 顺便 更 新 一 下 这 个 块 尾 部 
的 元 数据 ， 也 就 是 说 过 读 必 写 ， 这 样 的 话 ， 如 果 系 统 分 块 很 小 ， 比 如 
512KB 级 ， 那 么 势必 导致 元 数据 数量 增多 ， 而 且 分 布 在 磁盘 的 各 处 
(每 512KB 就 有 一 份 元 数据 ) ， 这 样 的 话 会 导致 严重 的 性 能 问题 。 一 
个 解决 办 法 就 是 使 用 日 志方 式 来 避免 对 性 能 的 影响 ， 比 如 先 将 要 更 新 
的 东西 记录 到 一 个 日 志 中 存放 ， 在 系统 不 繁忙 的 时 候 在 后 台 将 日 志 
放 ， 更 新 到 对 应 块 尾部 的 元 数据 区 中 。 同 理 可 推 ， 这 种 架构 下 ， 系 统 
也 必须 在 后 台 对 所 有 的 元 数据 进行 挖掘 、 分 析 ， 之 后 匹配 策略 并 进行 
迁移， 这 就 要 求 系统 扫描 每 一 个 块 并 作 分 析 之 后 立即 决策 将 块 移动 到 
哪个 对 应 的 层级 ， 或 者 不 移动 ， 如 果 要 移动 ， 就 立即 将 其 推送 到 迁移 
队列 中 等 待 迁移 。 这 种 方法 注定 需要 频繁 的 IO 操作 ， 并 且 极 其 耗费 系 
统 资 源 。 还 别 说 ， 真 有 这 么 干 的 厂商 ， 那 就 是 Compellent， 其 分 块 粒 
度 可 以 配置 为 512KB、2MB 或 者 4MB ， 是 否 这 种 做 法 真 的 对 其 性 能 
严重 影响 这 个 实在 不 得 而 知 ， 和 希望 知情 的 读者 能 够 与 笔者 联系 探讨 
(联系 方式 在 前 言 中 ) 。 


现在 再 来 看 看 第 二 个 模型 。 第 二 个 模型 相对 于 第 一 个 模型 来 讲 更 
好 接受 ， 也 符合 常理 。 首 先 它 根本 不 需要 对 磁盘 上 的 数据 块 做 任何 结 


构 改变 ， 一 切 都 是 在 带 外 发 生 作 用 。 这 就 使 得 这 种 设计 可 以 以 一 种 独 
立 软件 模式 来 交付 ， 可 以 稍 加 开发 安装 在 各 种 磁盘 阵列 中 ， 甚 至 主机 
中 。 这 里 就 不 做 过 多 介绍 了 ， 读 者 可 以 自行 构想 。IBM 的 Easy Tier 采 
用 的 是 第 二 种 设计 模式 。 


提示 : 集群 /分 布 式 文件 系统 也 是 一 个 可 以 天 然 就 实现 数据 自 
动 分 级 的 坏 子 ， 为 何 这 么 说 呢 ? 只 要 看 它 的 名 字 即 可 ,，“ 分 布 
式 ” 文 件 系 统 ， 同 一 个 文件 或 者 同一 个 LUN 的 不 同 部 分 可 以 被 
放置 到 不 同 的 位 置 ， 注 意 “ 不 同 的 位 置 "， 这 几 个 名 词 决定 了 
分 布 式 文件 系统 的 天 然 数 据 分 级 潜质 ， 只 需要 在 其 上 进行 再 
开发 ， 很 容易 地 可 以 实现 数据 自动 分 级 。 


5. 数据 自动 分 级 对 性 能 的 影响 


自动 分 级 所 面临 的 技术 问题 ， 与 Thin Provision 粒 度 问 题 带 来 的 性 
能 降低 一 样 ， 分 块 粒度 越 小 ， 所 带 来 的 性 能 降低 就 越 明 显 ， 表 现 为 两 
方面 : 计算 资源 的 耗费 与 IO 资源 的 耗费 。 分 块 粒度 降低 必然 导致 元 数 
据 数 量 激增 ， 搜 索 和 处 理 效率 降低 ， 同 时 也 导致 经 过 分 级 之 后 的 数据 
块 在 物理 上 变 得 不 连续 ， 如 果 数 据 块 被 迁移 到 SSD 这 种 不 需要 机 械 寻 
道 的 存储 介质 中 ， 那 么 访问 这 些 块 的 效率 虽然 不 会 打折 ， 但 是 在 原 存 
储 层 级 会 留 下 孔洞 ， 未 被 迁移 的 数据 块 也 会 变 得 不 连续 ， 对 它们 的 访 
问 势必 会 导致 磁盘 机 械 寻 道 操作 增加 ， 从 而 降低 了 性 能 。 


最 后 ，Thin Provision 与 自动 数据 分 级 这 两 种 技术 应 该 说 本 是 同根 
生 ， 上 面 一 节 中 论述 了 Thin Provision ， 可 以 回溯 一 下 。 自 动 数 据 分 级 
相对 于 Thin Provision 在 最 本 质 上 的 不 同 就 是 前 者 可 以 将 分 块 放 到 其 他 
不 同 的 介质 中 ， 在 Thin 上 加 以 改动 就 可 以 变 为 自动 分 级 。 后 面 章 节 中 


会 介绍 LUN 在 RAID 组 中 的 分 布 方式 ， 届 时 会 看 到 ，LUN 分 布 、Thin、 
自动 分 级 其 实 本 质 都 是 相同 的 。 


6. 目前 存储 厂商 的 数据 分 级 管理 产品 


1) Symantec 


Enterprise Vault 是 Symantec 收购 KVS 公 司 的 产品 ， 这 个 产品 的 作用 
主要 是 邮件 归档 ， 即 与 Exchange Server 等 邮件 程序 配合 来 实现 对 邮件 
的 归档 管理 ， 按 照 一 定 的 规则 策略 将 系统 中 的 待 归 档 数 据 进行 迁移 归 
档 。 


Storage Foundation Dynamic Storage Tiering 则 是 Storage Foundation 
中 的 一 项 高 级 的 数据 分 级 管理 模块 ， 它 基于 VxFS 文 件 系统 下 的 文件 进 
行 分 级 ， 可 以 详细 定制 各 种 策略 ， 定 制 各 种 存储 Tier。 


NetBackup Storage Migrator 则 是 一 个 专门 与 Netbackup 备 份 软件 相 
结合 的 数据 分 级 迁移 模块 ， 它 迁移 的 是 数据 的 备份 而 不 是 当前 在 线 的 
数据 。 


2) IBM TSM for Space Management 


IBM 的 Tivoli Storage Manager (TSM) 是 一 整套 IT 系统 数据 管理 套 
件 ， 它 包括 很 多 模块 ， 比 如 备份 、 系 统 监控 、CDP、Tier 等 。 其 中 
TSM for Space Management 就 是 TSM 中 的 数据 分 级 管理 模块 。TSM for 
Space Management 是 一 个 主机 端 文件 级 别 的 迁移 工具 ， 这 个 工具 属于 
一 种 极其 简单 的 迁移 工具 。 作 为 一 个 客户 端 程 序 ， 它 将 主机 端 文 件 系 
统 下 符合 策略 的 文件 通过 网 络 传输 到 TSM Server 端 保存 ， 在 Server 端 可 
以 创建 不 同 的 目录 ( 挂 载 不 同 Tier 的 存储 空间 ) 用 于 保存 这 些 数 据 ， 


当 有 程序 对 这 些 已 经 被 迁移 的 文件 进行 访问 时 ， 客 户 端 程序 会 从 TSM 
Server 端 将 文件 取 回 覆盖 到 原 路 径 下 。 如 图 18-6 所 示 为 TSM for Space 
Management 的 架构 示意 图 。 


图 18-6 TSM for Space Management 架 构 示 意 


作为 一 家 同时 涉足 存储 软件 和 硬件 的 厂商 ，IBM 目 前 为 止 并 没有 
在 其 存储 系统 硬件 中 提供 块 级 数据 分 级 功能 。 


下 面 演 示 一 下 TSM for Space Management 在 Windows 系 统 下 的 具体 
操作 。 


(1) 如 图 18-7 所 示 ， 打 开 HSM Client 窗 口 ， 然 后 单 击 Job ~ New 
Job 命 令 ， 在 弹出 的 窗口 中 填 入 一 个 Job 名 称 ， 然 后 确定 退出 ， 在 主 窗 
口中 就 会 显示 出 新 建 的 Job 名 称 。 本 例 中 为 ITSOJob1。 


图 18-7 TSM for Space Management 架构 示意 图 


(2) 下 一 步 将 要 定义 这 个 Job 的 工作 内 容 ， 双 击 窗 口中 已 创建 的 
Job ， 弹 出 如 图 18-8 左 边 所 示 的 对 话 框 。 对 话 框 中 显示 的 Nodename 是 
在 安装 HSM Client 端 时 指定 的 本 机 名 称 ， 而 Server 指 的 是 TSM Server 端 
的 域名 和 端口 号 ， 也 是 在 安装 HSM Client 端 时 指定 的 。 在 File Space 
中 ， 我 们 需要 填 入 一 个 名 称 ， 这 个 名 称 表示 TSM Server 端 用 来 保存 这 
个 Job 所 迁移 过 去 的 所 有 文件 的 目录 名 称 ， 也 就 是 说 给 TSM Server 端 的 
目录 起 一 个 名 字 ， 或 者 使 用 一 个 已 存在 的 目录 ， 用 来 保存 将 要 被 迁移 
的 文件 。 图 18-8 右 侧 的 对 话 框 是 让 用 户 来 选择 将 要 迁移 的 本 地 目录 或 
者 文件 的 ， 单 击 New Directory 按 钮 来 添加 一 个 本 地 的 目录 ， 出 现 如 图 
18-9 左 侧 所 示 的 对 话 框 。 


图 18-8 定义 Job 内 容 


图 18-9 ”添加 目录 以 及 定义 策略 


(3) 在 图 18-9 的 左 侧 对 话 框 中 ， 单 击 Browse 按 钮 选择 要 迁移 的 目 
录 ， 下 方 可 以 选择 是 否 包含 子 目 录 。 最 下 方 提供 有 三 个 迁移 选项 : 迁 
移 之 后 保存 原 有 文件 不 变 、 迁 移 之 后 保存 占 位 指针 、 迁 移 之 后 删除 源 
文件 。 一 般 为 了 保证 上 层 的 透明 性 ， 都 应 当选 择 保存 占 位 指针 。 右 侧 
所 示 的 对 话 框 可 以 定义 更 高 级 的 迁移 触发 策略 ， 可 以 添加 多 条 策略 并 
且 对 策略 进行 排序 ， 还 可 以 选择 Include 或 Exclude 模 式 做 反 向 排除 。 单 
击 Include 来 增加 一 条 “匹配 便 执行 ”的 策略 ， 弹 出 如 图 18-10 所 示 的 对 话 
框 。 


图 18-10 ”定义 迁移 策略 


(4) 这 个 对 话 框 中 可 以 选择 以 文件 大 小 、 创 建 时 间 、 修 改 时 间 、 
最 后 访问 时 间或 者 任意 的 组 合 来 作为 策略 判断 条 件 。 本 例 中 选择 超过 
120 天 未 修改 作为 判断 条 件 。 定 义 完毕 之 后 ， 单 击 确定 数 次 ， 退 出 。 可 
以 看 到 在 如 图 18-11 所 示 的 主 窗口 中 ，Job 内 容 已 经 定义 完毕 。 


图 18-11 ” Job 内容 定义 完毕 


(5) 在 Job 上 右 击 ， 然 后 单 击 执 行 ， 会 弹出 如 图 18-12 所 示 的 对 话 
框 ， 显示 任务 正在 执行 。 


图 18-12 ”任务 正在 执行 


(6) 当 任 务 执行 完毕 之 后 ， 会 出 现 一 个 Summary 窗 口 ， 如 图 18- 
13 所 示 。 


图 18-13 ”任务 执行 完毕 的 Summary 窗 口 


(7) 如 图 18-14 所 示 为 目标 目录 在 迁移 前 和 迁移 之 后 所 占用 空间 
的 变化 。 可 以 看 到 右 侧 中 的 Size on disk 为 1.37MB ， 这 些 为 占 位 指针 所 
占用 的 空间 。 


图 18-14 TSM for Space Management 架 构 示 意图 


(8) 当 本 地 某 程序 访问 被 迁移 的 文件 时 ，HSM Client 会 实时 地 从 
Server 端 对 应 的 目录 中 将 文件 实体 内 容 拉 回 并 且 覆 盖 到 源 文件 所 在 的 
目录 中 。 如 图 18-15 所 示 为 某 文件 在 访问 前 和 访问 后 的 变化 。 


18-15 ”访问 文件 时 会 自动 从 Server 端 拉 回 文件 并 覆盖 到 本 地 


(9) 当然 也 可 以 手动 将 文件 内 容 拉 回 。 单 击 
Migrate/Retrieve 一 Search& Retrieve 命 令 ， 出 现 如 图 18-16 左 侧 所 示 的 对 
话 框 。 选 择 Server 端 的 目录 ， 然 后 填 入 查找 的 卷 名 /路 径 名 /文件 名 ， 单 
击 Search 按 钮 。 会 出 现 右 侧 所 示 的 对 话 框 ， 将 所 有 符合 条 件 的 文件 都 
列 出 来 。 


图 18-16 ”手动 拉 回 文件 内 容 


、 5 图 18-17 ” 拉 回 文件 对 话 框 
(10) 选中 图 18-16 右 侧 对 话 框 


中 的 某 个 欲 拉 回 的 文件 ， 单 击 
Retrieve 按 钮 ， 出 现 如 图 18-17 所 示 的 对 话 框 ， 选 择 对 应 的 动作 ， 然 后 
单 击 Retrieve 按 钮 即 可 将 文件 内 容 拉 回 到 原 处 。 


通过 上 面 的 步骤 我 们 可 以 看 到 ，TSM for Space Management 的 操 
作 还 是 非常 简单 的 ， 但 是 其 实现 的 功能 也 比较 简单 。 而 且 需 要 通过 与 
服务 端 配合 ， 数 据 通过 网 络 传输 到 服务 端 保存 ， 相 当 于 一 个 可 以 透明 
访问 的 数据 备份 系统 。 


3) IBM Easy Tier 


IBM 的 Easy Tier 是 用 于 其 DS8700 产 品 中 的 数据 自动 分 级 产品 ， 分 
块 粒度 为 一 个 Extent (IBM 的 叫 法 ， 具 体 参 考 其 红皮书 ) 。 分 为 两 个 层 
级 : 机 械 硬 盘 与 SSD。 


4) EMC 


DiskXtender 为 EMC 收 购 Legato 而 获得 的 产品 。 其 基本 功能 和 实现 
架构 与 TSM for Space Management 大 同 小 异 ， 此 处 不 再 详 述 。 


FAST 为 EMC 用 于 其 主流 存储 系统 比如 Clariion/DMX4/V-MAX 上 的 
存储 端 块 级 数据 分 级 管理 软件 。FAST 全 称 为 “Fully Automated Storage 
Tiering”， 即 全 自动 存储 分 层 。FAST 目 前 版 本 为 1.0， 只 支持 整个 LUN 
粒度 的 迁移 。Symmetrix 系 列 存储 系统 已 经 支持 SSD 了 ， 不 过 FAST 1.0 
只 能 以 LUN 为 单位 进行 迁移 ， 这 多 少 有 点 像 鸡肋 ， 正 如 前 文 所 述 的 情 
况 一 样 ， 整 个 LUN 的 全 部 区 域 都 为 Hot Spot 的 情况 毕竟 不 多 见 ， 如 果 
整个 LUN 都 占用 SSD 的 空间 ， 那 么 无 疑 会 产生 浪费 。FAST 2.0 预 计 在 
2010 年 中 旬 发 布 ， 届 时 会 支持 更 细 粒 度 的 迁移 。 


如 图 18-18 一 图 18-20 所 示 为 FAST 提 供 的 用 户 配 置 向 导 界 面 示意 
冬 。 


图 18-18 FAST 提 供 的 配置 向 导 (1) 


图 18-19 FAST 提 供 的 配置 向 导 (2) 


图 18-20 FAST 提 供 的 配置 向 导 (3) 


图 18-19 为 FAST 的 迁移 策略 的 制定 窗口 ， 可 以 看 到 FAST 提 供 的 可 
供 配 置 的 策略 是 很 简化 的 ， 即 它 只 让 用 户 指定 某 个 逻辑 Storage Group 
(LUN 的 逻辑 组 合 ) 可 以 在 某 个 Tier 上 占用 多 少 比 例 的 物理 空间 ， 
FAST 会 自己 根据 自己 的 判断 来 将 LUN 在 不 同 Tier 之 间 进 行 分 级 迁移 。 


5) HDS 


HiCommand Tiered Storage Manager 是 HDS 公 司 用 于 USP 系 列 存储 
系统 中 的 存储 端 块 级 数据 分 级 迁移 软件 。 可 以 在 任何 一 全 Windows 系 
统 中 安 半 此 软件 ， 通 过 web 界面 来 配置 分 级 操作 ， 软 件 会 与 存储 系统 
通信 以 获取 信息 和 下 发 指令 。 


USP 存 储 系统 后 端 可 以 连接 多 种 其 他 存储 系统 ， 从 而 将 它们 虚拟 
化 整合 。 所 以 ，USP 可 以 将 数据 从 后 端的 一 台 存 储 系统 迁移 到 另 一 台 
存储 系统 ， 或 者 在 单 台 存储 系统 内 部 不 同 的 Tier 之 间 迁 移 。 目 前 USP 系 
统 的 分 级 迁移 只 能 够 做 到 手动 以 LUN 为 最 小 单位 的 迁移 。 


下 面 我 们 简要 介绍 一 下 HiCommand Tiered Storage Manager 的 迁移 
配置 过 程 。 以 下 将 HiCommand Tiered Storage Manager 简 称 为 HTSMo。 


(1) 如 图 18-21 所 示 为 HTSM 的 主 界面 ，HTSM 可 以 同时 管理 多 台 
存储 系统 的 Tier 分 级 ， 左 侧 栏 中 只 显示 了 一 台 名 为 
“NY_Production_USP100” 的 存储 系统 ， 下 面 的 Storage Tiers 中 列 出 了 当 
前 系统 中 的 所 有 已 制定 的 Tier。 在 窗口 右 侧 ， 我 们 单 击 Create Storage 
Tier 命 令 来 创建 一 个 新 的 Tier。 


图 18-21 HTSM 主 界面 


(2) 单 击 Create Storage Tier 命 令 之 后 出 现 如 图 18-22 所 示 的 对 话 
框 。 在 Name 文 本 框 中 填 入 新 Tier 的 名 称 ， 然 后 单 击 Edit 按 钮 来 选择 符 
合 条 件 的 存储 介质 。 


图 18-22 ”创建 新 Tier 


(3) 单 击 Edit 按 钮 之 后 出 现 如 图 18-23 所 示 的 对 话 框 。 在 
Condition1 下 拉 框 中 选择 过 滤 条 件 ， 本 例 中 选择 Capacity， 即 容量 ， 运 
算 符 选择 > ， 即 大 于 ， 数 值 填 入 6， 所 以 ，Condition1 的 过 滤 条 件 为 容 
量 大 于 6GB 的 所 有 LUN 。 单 击 Show Volume List 按 钮 Volume 即 
LUN) ， 便 会 显示 出 当前 系统 中 所 有 符合 条 件 的 LUN， 如 图 18-24 所 
小 o 


图 18-23 ”选择 过 滤 条 件 图 18-24 ”符合 条 件 的 所 有 LUN 列 表 


(4) 单 击 Add Condition 按 钮 来 增加 另 一 条 过 滤 条 件 。 我 们 选择 
RAID Level 为 RAID 5 类 型 并 且 磁 盘 数 量 为 3D 十 1P 的 RAID 组 。 然 后 再 
增加 一 个 条 件 ， 磁 盘 类 型 为 ATA 磁 盘 。 这 三 个 条 件 同 时 作用 ， 单 击 
Show Volume List 按 钮 即 可 看 到 当前 所 有 同时 符合 这 三 个 条 件 的 LUN 列 
表 ， 如 图 18-25 所 示 。HDS 给 Tier 提 供 了 多 种 条 件 ， 这 一 点 是 目前 其 他 
存储 系统 都 没有 做 到 的 。EMC 的 FAST 只 是 提供 了 3 个 定 死 的 Tier， 而 
Compllent 和 3PAR 也 是 如 此 ， 下 文中 即 可 看 到 这 二 者 的 演示 。 


图 18-25 ”同时 符合 三 个 条 件 的 LUN 列 表 


(5) 单 击 OK 按 钮 ， 返 回 到 创建 新 Tier 对 话 框 ， 此 时 过 滤 条 件 文 
本 框 中 已 经 将 我 们 的 选择 条 件 翻译 成 了 表达 式 自 动 出 现 ， 如 图 18-26 所 
示 。 这 个 Tier 的 属性 就 是 : 容量 大 于 6GB 的 并 且 所 在 的 RAID 组 为 4 盘 
RAID 5 类 型 的 并 且 磁 盘 为 ATA 磁 盘 的 所 有 LUN。 


图 18-26 ”条件 翻译 为 表达 式 


(6) 单 击 OK 按钮 创建 这 个 Tier， 在 如 图 18-27 的 对 话 框 中 单 击 OK 
按钮 。 


图 18-27 ”确认 创建 新 Tier 


(7) 此 时 便 返 回 到 了 如 图 18-28 所 示 的 主 界面 。 可 以 看 到 此 时 新 
创建 的 名 为 Low Cost-SATA Drives 的 Tier 已 经 在 列表 中 显示 了 。 窗口 右 
侧 可 以 看 到 这 个 Tier 中 共有 两 个 LUN， 其 中 一 个 已 经 被 使 用 ， 另 一 个 
未 被 使 用 ， 可 以 作为 迁移 的 目标 。 


图 18-28 ”新建 的 Tier 显 示 了 出 来 


(8) 有 了 目标 Tier， 还 需要 选择 要 迁移 的 源 LUN。 单 击 Migration 
Groups 选 项 ， 显 示 出 如 图 18-29 中 窗口 右 侧 的 所 有 当前 已 经 创建 的 
Migration Group， 每 个 Group 中 可 以 包含 一 个 或 者 多 个 LUN。 本 例 中 我 
们 打算 迁移 一 个 已 经 存在 的 Group，“Internal ordering request system”， 
即 内 部 下 单 系统 所 使 用 的 LUN。 单 击 这 个 Migration Group 查看 其 详细 
信息 ， 进 入 如 图 18-30 所 示 的 界面 。 可 以 看 到 这 个 Group 只 有 一 个 
LUN， 而 且 这 个 LUN 当 前 所 处 的 存储 介质 Tier 为 High Performance 一 
Mod Availability - RAID 5。LUN 的 容量 为 6.87GB， 与 方才 创建 的 Tier 
中 那个 未 被 使 用 的 LUN 容 量 相 同 ， 所 以 可 以 迁移 。 


图 18-29 Migration Group 列表 图 18-30 “Migration Group 详细 信息 


(9) 单 击 Close 按 钮 退出 到 图 18-29 所 示 的 界面 中 ， 单 击 待 迁移 
Group 左 侧 的 Migrate 按 钮 ， 进 入 如 图 18-31 所 示 的 窗口 。 这 里 列 出 了 所 
有 可 供 迁 移 的 目标 Tier。 其 中 有 两 个 不 能 被 选择 ， 因 为 其 剩余 空间 已 
经 不 能 够 容纳 源 LUN 了 。 我 们 选择 方才 创建 的 Low Cost - SATA Drives 
的 Tier， 然 后 单 击 Next 按 钮 ， 进 入 如 图 18-32 所 示 的 窗口 。 


图 18-31 ”选择 目标 Tier 图 18-32 ”选择 源 和 目标 LUN 


(10) 选择 好 源 和 目标 LUN 之 后 ， 单 击 Next 按 钮 ， 进 入 如 图 18-33 
所 示 的 窗口 。 此 处 可 以 选择 立即 开始 执行 迁移 。 还 有 一 个 Erase 
remaining data on source volumes 的 选项 ， 如 果 勾 选 了 这 个 选项 ， 那 么 
当 系 统 迁 移 完毕 之 后 ， 将 向 源 LUN 中 履 盖 写 入 0 以 消除 源 LUN 中 的 数 
据 以 保证 较 高 的 信息 安全 等 级 。 


图 18-33 ”选择 是 否 立 即 开 始 执行 


(11) 单 击 Next 按 钮 进入 如 图 18-34 所 示 的 窗口 ， 为 一 个 Summary 
窗口 ， 单 击 Confirm 按 钮 之 后 ， 系 统 便 会 根据 之 前 所 设 定 的 所 有 动作 来 
执行 这 个 任务 了 。 迁 移 会 自动 在 后 台 执 行 ， 整 个 迁移 过 程 不 会 影响 源 
LUN 的 数据 访问 。 当 LUN 中 的 所 有 内 容 成 功 迁移 到 目标 LUN 之 后 ， 系 
统 会 做 短暂 的 切换 ， 切 换 之 后 ， 所 有 只 能 对 源 LUN 的 IO 将 会 直接 发 送 
给 目标 LUN 执 行 ， 之 后 系统 根据 策略 可 以 删 掉 源 LUN 或 者 覆盖 写 入 0 
以 销毁 原 有 数据 。 


18-34 _ Summary 窗口 


(12) 当 迁 移 成 功 完 成 之 后 ， 再 次 单 击 对 应 的 Migration Group， 
可 以 发 现 当 前 所 处 的 Tier 已 经 变 为 Low Cost ~ SATA Drives 了 ， 对 应 的 
LUN 也 是 目标 LUN， 如 图 18-35 所 示 。 


图 18-35 ”迁移 完成 之 后 的 状态 
6) 3PAR 


Adaptive Optimisation 为 3PAR 公 司 最 近 发 布 的 数据 分 级 管理 模块 ， 
其 实 这 个 模块 之 前 名 为 Dynamic Optimisation， 即 根据 策略 将 Sub-LUN 
(Chunklet，3PAR 的 叫 法 ) 分 布 到 不 同 的 RAID Level、 磁 盘 类 型 等 存 
储 介质 中 ， 已 经 具有 了 HSM 的 锥 形 。 而 更 名 为 Adaptive Optimisation 之 
后 ， 变 成 了 正统 的 HSM， 增 加 了 Tier 的 概念 ， 形 成 了 真正 的 层次 。 


3PAR 存 储 产 品 已 经 支持 SSD。 Adaptive Optimisation 为 每 个 迁移 对 
象 提供 3 个 Tier， 每 个 Tier 可 以 赋予 不 同 的 属性 ， 比 如 磁盘 类 型 、RAID 
类 型 、 条 带 深度 以 及 磁盘 内 外 圈 等 。 根 据 Sub-LUN (1GB 大 小 ) 的 IO 
热度 (每 GB 数 据 每 分 钟 的 IO 数量 ) 以 及 其 他 用 户 制定 的 策略 ， 系 统 可 
以 针对 每 个 Sub-LUN 在 策略 的 触发 下 在 这 3 个 Tier 之 间 动 态 迁 移 。 


7) Compellent 


Data Progression 是 Compellent 公司 的 数据 分 级 迁移 软件 。Data 
Progression 可 以 在 存储 端 以 Block 为 粒度 进行 分 级 迁移 。 至 于 Block 具 体 
为 多 大 尚 无 从 者 证。 下 面 对 Compellent 的 分 级 管理 进行 简要 演示 。 


(1) 如 图 18-36 所 示 ，Storage Profile 是 一 种 策略 定义 ， 每 个 
Profile 中 会 让 用 户 定 义 3 个 Tier， 这 3 个 Tier 性 能 由 高 到 低 。 如 果 将 某 


Profile 映 射 给 某 个 LUN， 那 么 系统 会 自动 将 LUN 中 的 数据 根据 访问 热 
度 向 Profile 中 定义 的 高 级 别 的 Tier 迁 移 。 


图 18-36 ”Profile 列 表 


(2) 在 Storage Profile 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create 
Storage Profile 命 令 ， 创 建 一 个 新 的 Profile， 如 图 18-37 所 示 。 


图 18-37 创建 新 Profile 


(3) 如 图 18-38 和 图 18-39 所 示 ， 每 个 Profile 包 含 3 层 Tier，Tier1 的 
性 能 需要 比 Tier2 高 ，Tier2 需 要 比 Tier3 高 。 可 以 看 到 Compllent 在 每 个 
Tier 的 条 件 中 只 有 一 种 可 选 ， 即 RAID 类 型 和 磁盘 数量 。 


图 18-38” 设 定 Profile 中 的 3 层 Tier (1) 图 18-39” 设 定 Profile 中 的 3 层 Tier (2) 


(4) 选择 了 每 层 Tier 的 条 件 之 后 ， 出 现 如 图 18-40 所 示 的 对 话 框 ， 
为 这 个 Profile 起 一 个 名 字 。 


图 18-40 ”为 新 建 的 Profile 起 名 


(5) 名 字 填 好 之 后 单 击 OK 按 钮 ， 进 入 如 图 18-41 所 示 的 界面 中 。 
选中 待 迁 移 的 LUN (图 中 Volume 即 LUN) ， 右 侧 显 示 出 了 这 个 LUN 的 
详细 信息 。 


图 18-41 ” 待 迁 移 的 LUN 详 细 信 息 


(6) 如 图 18-42 所 示 ， 在 新 建 的 Profile 上 右 击 ， 从 弹出 的 快捷 菜 
单 中 选择 Apply to Volumes 命 令 ， 出 现 如 图 18-43 所 示 的 对 话 框 。 


图 18-42 ”将 Profile 赋 予 给 LUN 图 18-43 ”选择 对 应 的 LUN 


(7) 在 图 18-43 所 示 的 对 话 框 中 ， 选 择 需 要 对 应 这 个 Profile 的 
LUN ， 单 击 OK 按钮 之 后 ， 系 统 便 会 自动 根据 Profile 中 所 设 定 的 3 层 
Tier， 根 据 策略 及 IO 访问 热度 ， 在 这 3 个 Tier 之 间 自 动 的 动态 地 迁移 数 
据 了 。 


此 外 ，Compellent 还 提供 Fast Track 技 术 ， 即 系统 不 仅 可 以 将 数据 
放 到 对 应 介质 的 磁盘 驱动 器 中 ， 甚 至 还 可 以 将 数据 放 到 对 应 驱动 器 中 
的 不 同 磁道 中 〈 外 圈 、 中 国 、 内 图) 以 实现 更 细 粒 度 的 分 级 ， 非 常 
牛 ! 


8) NetApp 


NetApp 对 分 级 存储 的 理解 似乎 与 其 他 厂商 不 尽 相 同 。 早 些 时 间 
NetApp 曾 宣称 分 级 存储 将 会 被 缓存 管理 所 取代 。NetApp 并 未 实现 传统 
意义 的 分 级 存储 。NetApp 的 “替代 ”做 法 是 在 存储 系统 控制 器 内 插 一 块 
或 几 块 PCIE 接 口 的 内 存 卡 ， 卡 上 插 多 条 SDRAM， 作 为 一 个 更 大 的 
Cache 而 存在 ， 内 部 使 用 软件 来 将 合适 的 数据 预 读 入 以 便 增加 命中 率 。 
但 是 这 个 附加 Cache 不 能 用 来 作为 写 缓存 ， 而 且 也 不 能 永久 保存 数据 ， 
所 以 只 能 够 用 来 作为 读 缓存 。 


这 种 技术 手段 虽说 可 以 增加 读 命 中 率 ， 但 是 它 终 究 还 是 作用 在 
Cache 层 ， 并 非 作 为 一 块 硬盘 存在 ， 不 能 永久 保存 数据 ， 不 能 作为 写 缓 
存 ， 容 量 有 限 ， 局 限 性 还 是 很 大 的 。 这 种 增加 Cache 的 方法 也 并 不 能 
做 到 物 尽 其 用 ， 比 如 ， 访 问 频 度 高 的 数据 可 能 依然 被 存放 在 低 性 能 的 
SATA 盘 中 而 同时 高 性 能 的 FC 盘 中 尚 有 大 量 的 剩余 空间 。 靠 增加 Cache 
来 提高 命中 率 ， 就 像 是 在 一 个 内 部 并 不 平衡 的 系统 中 强行 运 化 出 阳 


气 ， 久 而 久之 必 伤 元 气 。 比 如 ， 读 命中 率 增 加 ， 读 速度 加 快 ， 那 么 主 
机 客户 端 程序 在 处 理 完 数 据 之 后 ， 需 要 写 回 保存 的 数据 生成 速度 也 就 
相应 加 快 ， 而 这 个 Cache 并 不 能 用 于 写 ， 那 么 写 数 据 就 会 积压 在 系统 原 
本 的 Cache 中 ， 造 成 后 端 更 加 繁忙 。 也 就 是 说 ， 一 开始 就 顾此失彼 失去 
了 平衡 ， 那 么 后 来 也 必然 导致 不 平衡 ， 从 而 大 伤 元 气 。 然 而 笔者 相信 
NetApp 当 前 的 做 法 只 是 一 种 不 得 已 ， 将 来 或 许 也 会 开发 真正 的 分 级 管 
理 模 块 ， 但 是 至 少 目前 来 讲 ，NetApp 在 数据 分 级 管理 领域 已 经 落后 
了 。 


总 评 : 目前 看 来 ， 各 个 厂商 所 实现 的 分 级 迁移 ， 远 远 没 有 达 
到 理想 目标 ， 所 能 够 设 定 的 条 件 过 少 ， 自 动 化 程度 不 够 高 ， 
不 够 智能 ， 提 供 开 发 接口 的 产品 很 少 。 要 想 达 到 ILM 的 最 终 
目标 ， 还 有 很 长 一 段 路 要 走 。 


7。HSM 数 据 分 级 产品 设计 样 例 


本 节 介 绍 一 个 作者 个 人 演绎 出 来 的 主机 端 HSM 软 件 设 计 。 国 内 存 
储 软 件 行业 在 智能 数据 分 级 管理 领域 基本 上 无 人 问津 ， 但 是 鉴于 最 近 
SSD 市 场 逐 渐 趋 于 成 熟 ， 作 者 个 人 预测 HSM 将 被 像 CDP、DR 一 样 被 火 
爆 的 炒作 一 把 ， 其 价值 将 会 在 几 年 之 内 完全 榨取 出 来 。 在 存储 硬件 方 
面 ， 国 内 存储 行业 基本 上 没有 掌握 底层 高 端 主流 技术 ， 但 是 在 存储 软 
件 市 场 上 ， 国 内 的 厂商 还 是 比较 有 作为 的 ， 虽 然 有 不 少 也 是 在 OEM ， 
但 是 自 研 的 也 有 很 多 。 所 以 ， 希 望 国产 的 存储 硬件 和 软件 早日 脱 颖 而 
出 占领 市 场 。 


SSD 是 近年 来 存储 市 场 比较 热门 的 主题 ， 但 是 企业 对 SSD 的 兴趣 
好 像 一 直 不 如 个 人 浓烈 ， 一 方面 由 于 成 本 的 原因 ， 企 业 如 果 选 择 使 用 
SSD， 则 需要 至 少 购买 能 做 成 一 个 RAID Group 数量 的 SSD 硬 盘 ， 这 是 


一 笔 不 少 的 开销 ; 另 一 方面 ， 由 于 SSD 设 计 原 因 导致 其 寿命 远 低 于 机 
械 硬 盘 ， 而 企业 环境 下 的 数据 IO 很 频繁 ， 无 疑 会 更 快 地 让 一 块 SSD 寿 
终 正 被 ;再 一 方面 ， 即 便 真 的 使 用 上 了 SSD， 要 将 哪些 数据 迁移 到 
SSD 上 呢 ? 用 什么 方法 和 标准 来 判断 哪些 数据 需要 放 到 SSD 上 呢 ? 如 
果 今 天 将 某 份 数据 迁移 到 了 SSD， 而 过 一 段 时 间 之 后 这 份 数据 变 得 不 
再 重要 了 ， 那 么 又 得 迁移 走 ， 换 其 他 重要 的 数据 迁移 到 SSD， 这 样 维 
护 成 本 是 不 是 太 高 了 呢 ? 面 对 这 一 系列 的 问题 ， 使 得 企业 在 选择 和 使 
用 SSD 的 问题 上 犹 驳 不 定 。 


有 了 这 种 市 场 需 求 ， 就 可 以 针对 需求 ， 依 附 SSD 和 已 有 的 ILM、 
HSM 理 论 基 础 ， 来 设计 一 款 数 据 分 级 迁移 管理 软件 。 这 个 软件 模块 运 
行 于 主机 端 ， 在 所 有 主机 端的 LUN 或 者 文件 系统 之 间 做 基于 块 或 者 文 
件 级 别 的 数据 分 级 管理 。 现 在 的 服务 器 一 般 自身 都 具有 8 个 以 上 的 SAS 
槽 位 ， 兼 容 SATA 硬 盘 和 SATA 口 SSD 硬 盘 ， 所 以 ，SSD 硬 盘 只 要 插 在 主 
机 本 地 即 可 ， 这 样 就 不 需要 任何 额外 的 投入 。 不 管 这 台 主 机 在 使 用 何 
种 类 型 的 、 何 种 厂商 的 、 何 种 规模 的 外 部 存储 设备 ， 这 些 设备 到 了 主 
机 一 层 都 作为 LUN 存 在 ， 而 这 个 HSM 软 件 模 块 就 在 这 些 外 部 LUN 和 本 
地 SSD 生 成 的 LUN 或 者 Space Pool 之 间 做 文章 。 比 如 根据 IO 热度 将 外 部 
某 个 LUN 中 的 某 个 区 域 迁 移 到 SSD 的 空间 内 ， 当 热度 降低 之 后 ， 再 迁 
移 回 来 。 这 个 模块 可 以 做 到 文件 级 和 块 级 的 迁移 管理 ， 底 层 使 用 文件 
层 和 卷 层 的 过 滤 驱 动 设计 。 


另外 ， 使 用 SSD 做 RAID， 由 于 RAID 的 Parity 分 布 很 均匀 ， 导 致 
RAID 组 中 每 个 硬盘 在 一 个 相当 长 的 时 间 内 接受 的 IO 也 是 大 致 相等 的 ， 
而 SSD 并 非 机 械 硬 盘 ， 所 以 其 不 会 出 现 因为 机 械 问题 导致 的 故障 。 其 
主要 故障 原因 就 是 在 于 写 IO 次 数 导致 的 寿命 耗 尺 ， 如 果 一 个 RAID 组 内 
的 所 有 SSD 都 差不多 接受 相同 数量 的 IO ， 那 么 它们 的 寿命 也 会 差 不 


多 ,一 旦 某 个 时 间 段 内 某 RAID 组 相继 损坏 两 块 或 者 多 块 SSD， 那 么 其 
上 效 据 融 丢失 了 。 


为 了 避免 这 个 问题 ， 在 设计 SSD 的 RAID 算 法 时 要 引入 一 些 额外 考 
虑 ， 需 要 将 Parity 不 均匀 地 分 布 ， 要 让 某 块 SSD 先 坏 掉 ， 所 以 在 这 块 盘 
上 应 放置 更 多 的 Pairty。 坏 掉 更 换 新 盘 之 后 ， 还 要 将 其 上 多 放置 的 
Pairty 迁 移 到 另 一 块 SSD， 因 为 如 果 新 盘 有 更 多 的 IO 负载 ， 那 么 其 很 有 
可 能 加 速 衰 老 ， 赶 上 其 他 盘 ， 可 能 与 其 他 盘 同时 坏 掉 ， 所 以 需要 将 额 
外 的 负载 迁移 到 另外 一 块 盘 ， 而 这 块 SSD 会 是 下 一 块 将 要 坏 掉 的 ， 然 
后 依 此 类 推 。 主 机 端 运行 的 这 个 HSM 软 件 模块 可 以 考虑 这 一 点 ， 实 现 
软 RAID 而 不 使 用 主机 端的 RAID 功 能 ， 也 就 是 让 主机 端 将 本 地 插 的 
SSD 透 传 上 来 。 


这 个 软件 可 以 开发 针对 个 人 、 企 业 、 数 据 中 心 的 版 本 。 不 同 版 本 
包含 不 同 的 功能 模块 。 


说 明 : 以 上 仅 为 个 人 拙 见 ， 和 希望 国产 存储 软件 越 做 越 强 ， 赶 
超 西 方 ! 


8. 判断 你 是 否 需要 部 署 HSM 


总 的 来 讲 ， 如 果 你 公司 的 存储 系统 正在 面临 如 下 问题 ， 那 么 恐怕 
你 真 的 需要 对 数据 进行 分 级 了 。 


" 数据 量 庞大 ， 存 储 设备 众多 。 

"性 能 分 布 不 均衡 ， 有 些 设备 长 期 满 负债 运 行 ， 性 能 低下 ， 而 有 
些 则 长 期 处 于 空 闪 状态 。 或 者 同一 台 设备 上 的 LUN 负 载 极度 不 
均衡 等 情况 。 


a 有 不 同 种 类 的 存储 介质 ， 比 如 SATA、FC、SAS、 磁 带 库 等 。 


对 于 一 个 大 企业 来 讲 ， 数 据 总 是 不 断 增 长 的 ， 而 在 应 对 数据 增长 
的 时 候 ， 相 关 人 员 不 可 能 做 到 非常 准确 地 预测 ， 从 而 做 出 准确 的 采购 
计划 ， 而 这 就 使 得 企业 IT 存储 系统 内 的 资源 不 可 能 做 到 与 企业 的 需求 
准确 地 对 应 ， 这 样 的 话 ， 就 产生 了 浪费 ， 或 者 性 能 分 布 不 均衡 的 情 
况 ， 导 致 生产 成 本 增加 。 基 于 上 面 几 个 因素 ， 可 以 利用 一 些 监控 工具 
来 监控 每 台 存 储 设备 的 利用 率 等 情况 ， 比 如 ， 调 查 一 周 工作 日 之 内 的 
统计 结果 ， 来 判断 系统 总 体 的 性 能 分 布 情况 。 


另外 ， 你 企业 当前 的 存储 系统 架构 也 是 一 个 重要 的 判断 因素 。 你 
需要 明白 当前 你 的 存储 架构 的 现状 ， 比 如 是 否 有 很 多 信息 孤岛 ? 所 有 
的 主机 是 否 共享 一 台 或 者 少数 几 台 存储 设备 ? 其 次 ， 你 还 要 明确 你 对 
数据 分 级 的 最 终 期 望 ， 是 想 在 少数 几 台 主 存 储 设备 上 实现 分 级 ， 还 是 
想 在 全 局 存储 系统 内 实现 分 级 ? 这 些 决定 都 会 影响 最 终 的 部 署 效 果 。 


如 果 既 想 要 在 全 局 范围 内 实现 分 级 ， 而 你 的 系统 内 不 同 厂商 的 设 
备 过 多 ， 信 息 孤 岛 也 过 多 的 话 ， 那 么 实现 起 来 就 是 一 件 难 度 很 大 的 工 
程 了 ， 需 要 大 动 干戈 ， 伤 筋 动 骨 。 所 以 ， 这 就 需要 根据 成 本 预算 以 及 
投入 产 出 的 比例 来 做 综合 判断 。 


9。 如何 选择 对 应 的 HSM 产 品 


对 于 企业 而 言 ， 实 现 HSM 可 以 有 多 种 方法 。 比 如 你 可 以 人 为 来 判 
断 哪些 数据 是 热点 数据 ， 从 而 将 对 应 的 文件 手动 迁移 到 高 性 能 存储 介 
质 中 ; 同样 ， 你 也 可 以 将 一 些 不 需要 的 数据 ， 用 备份 的 形式 来 备份 到 
磁带 中 永久 存放 。 然 而 ， 对 于 前 者 来 讲 ， 你 所 能 够 操作 的 目标 只 能 是 
文件 ， 因 为 你 只 可 以 看 到 文件 ， 不 乎 的 是 ， 在 你 手动 迁移 文件 的 时 


候 ， 任 何人 都 不 能 访问 这 些 文件 ， 同 时 ， 文 件 迁 移 完 毕 之 后 ， 你 还 需 
要 将 对 应 的 目录 路 径 指向 新 的 存储 位 置 。 这 一 切 都 需要 复杂 的 人 为 操 
作 ， 而 且 操 作 之 前 必须 制定 计划 以 便 最 大 程度 地 降低 对 应 用 系统 的 影 
响 。 而 且 ， 如 果 一 段 时 间 之 后 ， 你 发 现 这 些 数据 的 热点 期 已 过 ， 需 
再 迁移 回来 ， 那 么 你 就 需要 再 次 执行 相反 的 动作 。 这 无 疑 是 个 很 大 的 
挑战 ， 对 操作 入 员 的 技术 水 平 要求 非 党 高 。 


所 以 ， 需 要 一 种 自动 化 程度 较 高 ， 而 且 智能 化 程度 较 高 的 HSM 产 
品 来 协助 企业 完成 数据 分 级 。 在 选择 一 款 HSM 产 品 的 时 候 ， 你 可 以 根 
据 上 面 所 讲 的 HSM 分 类 来 选择 ， 然 后 按照 类 别 再 来 选择 对 应 的 产品 。 
比如 ， 你 是 想 实 现 简单 的 文件 自动 迁移 ， 还 是 想 实现 可 定制 复杂 策略 
的 块 级 迁移 ? 是 想 在 主机 端 实现 迁移 ， 还 是 存储 端 实 现 ? 是 想 在 全 局 
范围 内 实现 还 是 某 台 设备 上 实现 ? 


目前 来 讲 ， 大 多 数 广 商 的 数据 分 级 产品 几乎 都 是 做 入 其 自身 的 硬 
件 的 ， 比 如 EMC 的 FAST， 只 有 使 用 了 EMC 对 应 的 存储 产品 ， 才 可 以 
部 署 。3PAR、Compellent 等 公司 的 产品 ， 也 都 是 佬 入 它们 自身 的 阵列 
产品 中 的 基于 块 级 别 的 分 级 模块 ， 也 就 是 说 ， 如 果 你 的 系统 中 没有 这 
些 产 品 ， 那 么 就 不 可 能 用 它们 的 方案 来 部 署 数据 分 级 系统 了 。 


万 盏 的 是 ， 市 场 上 的 一 些 带 有 虚拟 化 功能 的 存储 设备 ， 比 如 HDS 
公司 的 USPV 系 列 设备 ， 它 可 以 虚拟 化 后 端 大 部 分 主流 三 丙 的 存储 设 
备 ， 然 后 在 此 基础 上 实现 分 级 操作 。 但 是 这 样 的 话 ， 部 署 分 级 的 同时 
还 需要 投入 虚拟 化 这 块 ， 就 有 点 买 配 还 珠 的 意思 了 ， 不 过 如 果 企 业 同 
时 需要 部 署 这 两 种 技术 的 时 候 ， 那 么 选择 这 种 方案 无 疑 是 再 好 不 过 的 
了 。 


另外 一 种 选择 就 是 使 用 主机 端的 分 级 工具 ， 比 如 IBM 的 Tivoli 
HSM， 虽 然 它 只 是 一 个 简单 的 文件 迁移 工具 ， 但 由 于 运行 在 主机 端 ， 
所 以 无 须 考 虑 后 端 设 备 的 多 样 性 。 但 是 所 市 来 的 局 限 性 就 是 需要 在 所 
有 需要 分 级 的 主机 上 都 安装 客户 端 。 


对 于 系统 中 的 NAS 设 备 和 SAN 设 备 混合 存在 的 情况 ， 如 果 要 在 这 
两 种 设备 之 间 做 分 级 迁移 ， 那 么 可 供 选择 的 唯一 产品 融 是 主机 端的 分 
级 产品 了 。 一 些 NAS 虚 拟 化 设备 比如 F5 公 司 某 款 产 品 也 可 以 做 到 在 后 
端 所 有 NAS 设 备 之 间 做 分 级 迁移 ， 但 是 这 只 是 针对 NAS， 而 且 分 级 策 
略 也 不 是 很 智能 、 很 详细 。 


总 体 来 讲 ， 企 业 如 果 要 在 现 有 的 系统 架构 下 能 入 式 地 部 署 HSM， 
那么 难度 是 相当 大 的 ， 而 且 可 供 选 择 的 产品 非常 有 限 。 但 是 如 果 企 业 
想 重 新 建立 一 套 带 有 数据 分 级 的 新 存储 系统 ， 而 忽略 原 有 的 存储 系 
统 ， 那 么 可 供 选 择 的 产品 就 一 下 子 变 得 很 多 了 ， 可 以 咨询 前 文 所 列 出 
的 这 些 广 商 ， 他 们 一 定 会 给 你 一 个 对 应 的 合适 的 方案 。 


10. 存储 厂商 应 该 怎么 做 HSM 


在 上 面 的 章节 中 我 们 可 以 看 出 ， 目 前 这 些 广 商 的 所 谓 HSM 产 品 ， 
其 实 并 未 真正 做 到 HSM 的 核心 层次 ， 只 是 在 表面 上 “意思 ”一 下 而 已 。 
对 于 IO 属性 的 判断 仅 限 于 少数 条 件 ， 有 些 甚至 根本 不 提供 自动 迁移 策 
略 ， 完 全 靠 用 户 手 动 将 整个 LUN 迁 移 到 目标 Tier， 这 从 根本 上 讲 连 
HSM 的 边 都 不 沾 了 。 


如 图 18-3 中 所 示 的 Service Level Objectives (SLO) 是 一 个 非常 复 
杂 而 且 难 以 形成 标准 的 东西 ， 业 界 目 前 尚未 对 STO 有 相应 的 标准 。 由 
于 IO 属 性 多 种 多 样 ， 不 同 IO 属 性 之 间 可 以 相互 组 合 ， 而 且 同 一 种 应 用 


在 不 同 的 规模 、 不 同 的 时 段 都 可 以 有 不 同 的 SLO 需 求 ， 再 加 上 前 文中 
所 说 的 政治 和 人 为 因素 ， 所 以 这 样 看 下 来 ，SLO 是 一 个 具有 颇 多 维度 
的 东西 。 正 因 如 此 ， 存 储 广 商 目前 不 可 能 做 到 HSM 的 理想 状态 ， 充 其 
量 多 给 出 一 些 细 世 判断 条 件 ， 比 如 Symantec 的 SF 平台 所 集成 的 HSM 模 
块 那样 。 


要 真正 地 做 到 按照 SLO 来 分 配 Tier， 首 先 要 有 具体 的 SLO， 目 前 连 
SLO 本 身 都 还 没有 。 所 以 ，HSM 下 一 步 需 要 推进 的 就 是 定义 SLO 接 口 
标准 ， 用 SLO 作 为 连接 应 用 层 与 存储 层 的 桥梁 ， 然 后 在 应 用 层 来 实现 
HSM 策 略 。 迁 移 也 由 应 用 层 根据 策略 来 自动 发 起 ,或 者 由 人 自己 发 
起 ， 因 为 只 有 应 用 层 和 人 才能 够 完全 知道 自己 所 产生 的 哪些 数据 需要 
何 种 性 能 或 者 特性 的 存储 空间 。 


11。 从 存储 分 级 到 存储 系统 全 局 资源 分 级 /分 配 


信息 生命 周期 管理 和 HSM 目 前 被 广泛 认识 为 只 作用 在 磁盘 以 下 的 
层次 中 ， 对 磁盘 及 其 下 层 的 存储 介质 进行 分 级 管理 ， 但 是 却 忽略 了 磁 
盘 以 上 的 层次 ， 比 如 RAM、 CPU Cache。 目 前 多 数 操作 系统 对 RAM 的 
管理 都 是 大 同 小 异 的 ， 而 且 几 乎 都 是 采用 全 局 统一 标准 来 管理 ， 比 如 
分 配 多 少 内 存 、 多 大 的 Page 等 。 


然而 ， 对 于 存储 系统 来 说 ， 它 同时 接受 多 个 不 同 客 户 端 的 多 种 不 
同类 型 的 I0 流 。 到 底 应 当 按 照 什么 样 的 条 件 来 分 配 缓存 资源 呢 ? 全 局 


还 是 分 区 ? Page 回 收 到 底 应 当 按照 怎样 的 条 件 来 触发 ? 这 些 都 是 需 
仔细 研究 的 。 


提示 : 以 上 这 些 都 属于 存储 QOS (Quality of Service) 的 范 
畴 ， 诸 如 EMC、HDS 等 广 商都 有 对 应 的 产品 来 实现 QOS， 具 


体 可 见 后 面 的 章节 。 
12。Tier 和 Cache 之 争 


目前 来 讲 ， 使 用 SSD 作 为 一 个 Tier 是 大 多 数 厂商 都 选用 的 方法 ， 而 
有 些 厂 商 则 使 用 SSD 或 者 Flash 介 质 作为 一 个 大 的 缓存 来 使 用 。 典 型 代 
表 就 是 NetApp。 


很 早 的 时 候 NetApp 就 对 SSD 抱 有 疑虑 ， 我 记得 当时 其 他 厂商 已 经 
在 着 手 开发 动态 数据 分 级 了 ， 而 NetApp 却 犹豫 的 很 ， 最 终 推 出 一 块 叫 
做 Performance Acceleration Module (PAM) 的 PCI-E 接 口 卡 ， 专 用 于 
FAS3100 系 列 。 一 开始 其 上 是 插 DDR SDRAM 内 存 条 的 ， 后 来 也 有 
Flash 颗 粒 版 本 的 了 。WAFL 虽 然 是 个 很 有 特色 的 文件 系统 ， 但 是 其 所 
存在 的 问题 也 是 不 可 小 视 的 ， 也 就 是 经 上 典 的 Sequential Read After 
Random Write 的 问题 ， 即 本 来 逻辑 上 连续 的 块 ， 被 WAFL 处 理 之 后 底 
层 却 变 得 不 连续 了 ， 这 样 在 连续 地 址 读 IO 的 情况 下 ， 底 层 却 表现 为 随 
机 IO 的 行为 ， 从 而 影响 性 能 。PAM 卡 的 推出 可 能 也 有 这 方面 原因 。 其 
实 所 有 文件 系统 多 少 都 会 有 这 种 问题 ， 只 不 过 WAFL 更 加 严重 ， 而 且 
WAFL 将 LUN 也 当做 一 个 文件 ， 这 样 的 话 对 于 本 该 比较 刚性 Block 访 问 

变 得 左 绕 右 绕 ，IO 路 径 不 等 长 ，IO 延 迟 变 得 很 难 预 测 。 


那么 究竟 为 何 NetApp 不 使 用 SSD 来 解决 性 能 问题 ， 或 者 自己 也 开 
发 目 动 分 级 存储 模块 呢 ? 我 猜测 ， 这 与 其 WAFL 的 原理 有 很 大 关系 。 
SSD 这 东西 ， 所 有 人 看 到 它 的 表现 ， 一 定 都 是 竖 起 大 拇指 的 ， 但 是 我 


首先 ，SSD 的 出 现 ， 让 WAFL 的 那 一 套 写 加 速算 法 有 点 挂 不 住 
了 ， 包 括 全 重 定 向 写 、 尽 力 整 条 写 等 针对 机 械 磁 盘 所 作 的 大 量 优化 ， 


随 着 SSD 的 出 现 ， 一 切 都 解决 了 ， 那 么 WAFL 这 一 套 势 必 在 SSD 面 前 就 
显得 白费 了 ， 这 一 定 让 NetApp 很 难受 的 ， 其 实 NetApp 一 直 都 难受 

便 是 使 用 机 械 盘 ，WAFL 依 然 面临 着 Sequential Read After Random 

Write (SRARW) 问题 ， 早 就 在 研究 新 架构 的 WAFL 了 ， 比 如 是 否 可 以 

支持 RAID 5 而 不 是 RAID 4， 是 否 可 以 不 再 重 定向 写 了 等 等 。 但 是 对 于 

WAFL 这 样 一 个 复杂 而 庞大 的 架构 来 讲 ， 牵 一 发 会 动 全 身 ， 不 是 那么 

好 改革 的 了 。 


第 二 ，WAFL 的 重 定向 写 措施 ， 会 迅速 耗 尽 SSD 上 的 剩余 空间 。 
懂 点 SSD 的 人 都 知道 ，SSD 自 己 内 部 会 去 记录 哪些 page 存 有 数据 ， 哪 
些 没 有 ， 这 么 做 是 为 了 损耗 平衡 算法 ，SSD 内 部 也 会 有 大 量 的 重 定向 
写 操 作 ， 其 做 法 与 WVAFL 类 似 ， 但 是 WAFL 这 么 做 是 为 了 方便 地 快照 与 
整 条 写 ，SSD 这 么 做 纯粹 是 为 了 损耗 平衡 ， 不 管 怎么 样 ， 这 两 者 是 重 
复 和 部 分 冲突 了 。 人 WAFL 不 断 地 写 到 空余 位 置 ， 那 么 SSD 上 的 
“曾经 写 过 多 少 ” 这 个 高 水 位 线 就 会 迅速 达到 顶峰 ，SSD 内 部 剩余 空间 
i 严重 影响 SSD 的 性 能 ， 而 WAFL 的 作用 原理 又 不 

可 能 实时 的 将 SSD 中 的 “垃圾 * 块 回收 回来 ， 因 为 WAFL 从 本 质 上 讲 可 以 
认为 是 无 时 无 刻 不 在 产生 垃圾 〈 重 定向 写 之 后 ， 以 前 的 块 便 是 空 内 块 
了 ， 但 是 SSD 却 无 法 感知 文件 系统 层面 的 空闲 块 ， 依 然 认为 是 有 用 
块 ) ， 它 根本 来 不 及 回收 的 ， 况 且 WAFL 内 部 的 两 层 FS 之 间 已 经 为 了 
忙活 着 回收 空间 而 做 了 大 量 复杂 流程 了 。 如 果 说 SSD 让 WAFL 的 优化 
变 得 价值 全 无 ， 这 一 点 还 可 以 容忍 ， 但 是 如 果 WAFL 想 用 SSD 而 眼看 
着 效果 不 好 ， 那 么 就 真 的 没 治 了 


第 三 ， 我 们 退 一 步 讲 ， 就 算 WAFL 会 很 快 耗 尽 SSD 的 剩余 空间 到 
最 低 值 〈 也 就 是 SSD 厂 商 隐藏 的 那 部 分 为 了 保证 性 能 而 预 留 的 剩余 空 
间 ， 比 如 100GB 的 SSD 其 实 是 有 128GB 物 理 空 间 的 ) ， 效 果 再 不 好 ， 


但 是 也 比 机 械 硬 盘 要 快 ， 所 以 NetApp 只 能 退 而 求 其 次 将 就 着 上 SSD 
了 。 还 有 最 重要 的 一 点 ， 别 忘 了 ，SSD 目 前 的 容量 还 太 小 ， 如 果 上 
SSD ， 会 有 两 种 用 法 ， 一 种 就 是 直接 将 SSD 当 做 普通 盘 来 用 ， 做 
RAID ， 做 Aggregate， 做 WAFL ， 然 后 做 Volume， 做 LUN 或 者 目录 的 
Exports。 但 是 这 种 做 法 适用 的 场景 很 少 ， 比 如 一 部 分 小 容量 的 数据 却 
要 求 极 高 的 访问 速度 ， 那 么 没有 问题 ， 这 种 做 法 可 以 满足 。 但 是 如 果 


遇 到 短 尾 型 应 用 的 数据 访问 场景 ， 大 量 的 数据 却 只 有 一 部 分 为 热点 ， 
那么 此 时 你 将 所 有 数据 都 放 到 SSD 上 ， 显 然 是 得 不 偿 失 ， 此 时 自然 就 


需要 有 一 种 动态 的 细 粒 度 的 热点 数据 分 级 解决 方案 了 ， 这 也 是 目前 几 
乎 所 有 存储 广 商都 在 搞 的 技术 ， 而 且 主 流 广 商 也 都 推出 了 各 自 的 产品 
了 。 而 我 们 回来 看 NetApp， 它 何尝 不 想 推出 自己 的 动态 分 级 方案 ? 它 
很 难受 ， 为 什么 呢 ? WAFL 如 果 是 老虎 ， 那 么 NetApp 可 以 说 已 经 骑 虎 
难 下 了 。 想 在 WAFL 上 3 引入 动态 分 级 子 模块 ， 不 是 那么 容易 的 。 动 态 


另 一 个 是 数据 迁移 模块 。 监 控 和 统计 子 模块 ， 可 以 作为 一 个 旁 路 模块 
存在 ， 不 会 对 现 有 的 任何 FS 架构 产生 太 大 影响 ， 这 个 WAFL 做 起 来 没 
有 问题 ， 但 是 数据 迁移 模块 ， 这 对 WAFL 来 讲 ， 又 很 难受 了 。WAFL 不 
按 常理 出 牌 ， 与 其 他 传统 FS 不 同 ， 总 是 去 重 定向 写 ， 改 一 改 就 动 全 
身 ， 所 以 从 技术 上 讲 ， 实 现 动态 分 级 还 是 太 费 劲 ， 风 险 也 很 大 ， 需 要 
测试 很 长 时 间 ， 所 以 我 推测 这 也 是 NetApp 迟 迟 没 有 推出 动态 分 级 的 可 
能 原因 之 一 吧 。 


所 以 我 估计 ，NetApp 一 开始 就 定 下 了 基调 ，SSD 目 前 来 讲 就 作为 
大 缓存 的 角色 而 存在 。 可 以 看 到 其 新 发 布 的 FASx200 系 列 ， 最 高 规格 
的 FAS6280 已 经 可 以 使 用 8TB FLASH 的 PAM 卡 了 ， 当 然 ， 需 要 插 多 块 
PAM 卡 来 堆 冯 成 这 么 高 的 容量 ， 而 且 两 个 控制 器 上 的 PAM 卡 规格 必须 
对 称 ， 成 双 成 对 出 现 ， 而 不 能 够 只 插 一 组 卡 让 全 局 使 用 。 


那么 Tier 和 Cache 这 两 种 针对 SSD 的 用 法 ， 到 底 哪个 强 哪个 弱 呢 ? 
我 们 来 比较 一 下 。 缓 存 是 实时 预 读 ， 有 很 大 的 乱 猜 的 成 分 ; 而 Tier 是 
长 时 间 后 台 监 测 然后 只 迁移 相对 恒久 热点 ， 带 有 明显 的 目标 ， 能 发 现 
长 期 的 热点 。 所 以 Cache 中 的 数据 会 随时 迁 入 迁 出 ， 而 Tier 中 的 数据 迁 
入 迁 出 频率 相对 Cache 要 低 得 多 ， 可 以 认为 Cache 是 心急 火 米 ，Tier 则 
是 慢 工 出 细 活 。 并 且 Tier 是 将 数据 直接 迁移 到 SSD ， 但 是 SSD 用 作 
Cache 的 话 目 前 厂商 的 做 法 一 般 是 只 支持 对 读 IO 数据 进行 缓存 ， 写 数 
据 不 缓存 ， 这 样 就 不 能 加 速写 了 。 


但 是 也 不 能 一 概 而 论 ， 作 为 Cache 使 用 也 不 一 定 非 要 使 用 传统 的 
Cache 算 法 ， 完 全 也 可 以 使 用 更 精细 的 热点 监控 和 数据 精细 复制 的 算 
法 ， 可 能 算法 没有 Tier 那 么 考究 ， 带 有 更 加 激进 的 性 质 。 到 底 使 用 Tier 
还 是 Cache， 得 根据 应 用 场景 来 综合 判断 ， 有 了 时候 并 不 能 说 谁 优 于 谁 。 
比如 读 多 写 少 的 环境 ， 则 可 以 选用 Cache 方 式 。 最 理想 的 一 种 解决 办 法 
就 是 ， 同 时 支持 Cache 或 者 Tier 模 式 ， 而 且 可 以 随时 触发 或 天 闭 Tier 模 
式 。 


13. 数据 分 级 管理 之 轮回 论 


我 们 都 知道 几乎 所 有 操作 系统 对 内 存 的 管理 ， 都 使 用 Virtual 
Memorty 方 式 ， 用 户 看 到 的 空间 并 不 一 定 与 物理 空间 一 一 对 应 ， 操 作 
系统 对 物理 内 存 实现 了 Thin Provision ， 比 如 明明 只 有 2GB ， 程 序 却 可 
以 使 用 申请 3GB 的 空间 。 为 了 弥补 这 个 弥 天 大 谎 ， 操 作 系统 只 好 使 用 
拆 东 墙 补 西 墙 的 方式 ， 在 硬盘 上 创建 一 个 Swap 分 区 或 者 Page 文 件 ， 将 
这 块 空间 也 作为 Virtual Memory 的 空间 。 当 物理 内 存 空间 剩余 到 一 定 阐 
值 时 ， 操 作 系 统 将 物理 内 存 中 不 经 常 被 访问 的 Page 进 行 Page Out 操作 
与 入 磁盘 以 腾 出 物理 内 存 空间 ， 而 一 旦 程序 需要 访问 一 个 处 于 Page 文 


件 中 的 Page， 那 么 操作 系统 执行 Page In 过 程 读 入 对 应 的 Page 到 内 存 。 
操作 系统 的 这 种 将 不 常 被 访问 的 数据 迁移 到 Page 文 件 中 的 做 法 ， 就 是 
一 种 Tier 分 级 操作 。 


纵 观 图 18-5， 我 们 可 以 发 现 ， 在 CPU Cache、RAM、Disk 这 三 者 
之 间 ， 操 作 系 统 的 Memory Mamager 会 负责 将 数据 在 三 者 之 间 做 迁移 ， 
但 是 Disk 自 身 以 及 Disk 之 下 的 所 有 层次 ， 操 作 系统 却 没有 提供 任何 模 
块 在 这 些 层次 之 间 做 数据 迁移 。 所 以 ， 为 了 弥补 这 块 缺失 ，HSM 的 众 
生 是 一 个 完全 必然 的 结果 。HSM 并 不 是 一 个 新 东西 ，HSM 其 实 是 IBM 
用 于 在 20 世 纪 中 晚期 的 IBM 大 型 机 上 的 一 种 技术 ， 适 配 各 种 慢 速 存储 
介质 。 同 时 代 或 者 更 晚 的 一 些 主机 系统 比如 Alpha/VMS 也 都 在 使 用 这 
种 技术 。 


其 实 对 于 外 部 存储 系统 的 Thin Provision 十 Tier， 其 本 质 与 操作 系 
统 对 内 存 的 管理 方式 完 完 全 全 是 一 回 事 。 其 实 计算 机 系统 内 的 很 多 技 
术 ， 都 表现 为 一 种 轮回 和 说 套 ， 这 种 例子 在 本 书 其 他 章节 还 有 更 多 。 
这 种 轮回 和 衬 套 ， 看 似 是 人 类 智慧 使 然 ， 其 实 是 世界 之 本 质 ， 也 就 是 
阴阳 使 然 ， 阴 阳 变 化 的 过 程 就 是 一 个 轮回 的 过 程 ， 分 分 合 合 ， 而 阴阳 
不 断 的 赤 加 过 程 就 是 一 个 诅 套 过 程 ， 一 层 层 的 底层 逻辑 组 成 更 高 层 的 
人 逻辑， 而 这 些 人 逻辑 之 间 的 共性 ， 就 是 阴阳 轮回 衬 套 。 而 在 发 明 新 技术 
的 过 程 中 ， 先 想 一 想 是 否 可 以 基于 已 经 存在 的 技术 的 设计 思想 来 做 一 
个 模拟 ， 可 能 就 会 大 大 降低 设计 成 本 。 笔 者 之 前 在 做 某 项 目的 时 候 ， 
曾经 遇 到 过 这 样 一 件 事 : 某 程 序 员 为 了 解决 某 个 问题 ， 设 计 了 一 套 代 
码 ， 非 党 便捷 地 解决 了 问题 。 但 是 最 后 另 一 同事 在 读 代码 的 时 候 却 发 
现 ， 哮 ， 这 不 是 windows MFC 下 的 某 个 代码 模块 么 ?原来 该 程序 员 自 
己 写 出 了 一 个 MFC 早 已 写 好 的 封装 代码 。 


14. 星星 之 火 可 以 米 原 一 一 火星 高 科 MSP 数 据 分 级 中 间 件 平台 


上 文 曾经 提 到 过 ， 目 前 厂商 的 HSM 产 品 基本 上 只 考虑 了 后 端 性 能 
方面 ， 而 基本 忽略 了 人 为 因素 以 及 其 他 更 多 的 SLO， 造 成 迁移 引擎 在 
进行 所 谓 “ 智 能 ”迁移 的 过 程 中 只 有 一 个 指挥 棒 ， 那 就 是 访问 频 度 。 这 
一 点 其 实 也 无 可 厚 非 ， 从 某 种 角度 来 讲 ， 在 一 个 SSD 一 FC/SAS 一 
SATA 的 层级 组 中 ， 不 管 数 据 处 于 何 种 层级 ， 它 们 的 访问 速度 差别 并 不 
像 磁盘 到 磁带 这 种 差距 ， 加 上 磁盘 上 层 路 径 各 处 的 缓存 ， 到 了 应 用 层 
之 后 ， 这 种 差距 会 更 小 ， 尤 其 是 不 具 累 积 效 应 的 偶尔 访问 的 时 候 ， 虽 
然 可 能 会 慢 一 两 秒 。 但 是 这 种 速度 降低 是 可 以 被 接受 的 。 所 以 从 这 种 
角度 来 讲 ， 存 储 端 当前 的 HSM 产 品 还 是 有 很 大 意义 的 。 


但 是 对 于 归档 领域 ， 或 者 一 个 容纳 了 几乎 所 有 存储 介质 层级 并 在 
全 局 范围 内 做 HSM 管 理 的 系统 来 讲 ， 如 果 只 按照 某 个 单一 条 件 来 触发 
迁移 ， 那 么 就 会 产生 与 人 为 因素 的 冲突 。 这 种 情况 下 ， 要 么 就 在 这 个 
系统 中 引入 更 加 复杂 的 条 件 ， 引 入 大 量 的 SLO， 要 么 就 干脆 把 HSM 中 
的 上 层 策 略 部 分 抛 掉 ， 只 留 下 一 个 底层 平台 ， 然 后 提供 一 些 控制 接口 
给 上 层 的 策略 引擎 。 也 就 是 在 图 18-3 中 所 示 的 HSM Policy Engine 与 
HSM DataMove Engine Switch 之 间 形 成 一 个 公开 的 接口 层 ， 将 整个 
HSM 系 统 在 此 分 割 为 上 下 两 部 分 。 应 用 系统 厂商 可 以 对 上 面 的 部 分 加 
以 开发 ， 形 成 自己 的 迁移 策略 引擎 模块 ， 而 存储 厂商 则 专注 于 下 层 的 
开发 ， 根 据 需求 不 断 完善 和 丰富 接口 。 鉴 于 存储 厂商 众 多 ， 一 时 间 不 
可 能 统一 接口 ， 所 以 自然 也 就 出 现 了 中 间 件 平台 。 


火星 观 氮 : 存储 端 不 适合 做 具体 的 迁移 或 者 分 级 策略 ， 只 需 
要 提供 迁移 接口 。 策 略 和 触发 条 件 要 由 应 用 层 或 者 人 来 制 
定 。 存 储 端 要 充当 一 杆 枪 而 不 是 使 用 枪 的 人 。 


火星 高 科 (北京 亚细亚 智 业 科技 有 限 公 司 ) 的 数据 迁移 管理 中 间 
件 平台 Mars Storage Platform (MSP) 就 是 专门 为 数据 迁移 和 归档 管理 
所 设计 的 一 款 中 间 件 平台 。 作 为 一 个 迁移 /归档 中 间 件 ， 首 要 的 就 是 要 
兼容 各 种 主流 的 磁带 库 、 自 动 加 载 机 、 磁 带 驱 动 器 以 及 VTL， 不 但 如 
此 ， 还 要 支持 和 融入 各 种 SAN 和 NAS 环 境 ， 甚 至 一 些 并 行文 件 系统 环 
境 。 然 后 ， 最 重要 的 一 点 ， 作 为 中 间 件 ， 需 要 有 丰富 的 查询 和 控制 接 
口 。 以 上 的 条 件 MSP 都 做 到 了 ，MSP 支 持 数 百 种 磁带 设备 ; 支持 在 
SAN 和 NAS 环 境 中 部 署 ， 可 融入 各 种 SAN 共 享 文件 系统 ;提供 了 30 多 
个 API 函 数 ， 包 括 归 档 和 回迁 管理 、 任 务 管 理 、 对 象 管 理 、 磁 带 管 
理 、 带 库 管 理 、 存 储 位 置 管理 、 磁 带 复制 、 磁 带 闻 管理 等 多 个 功能 类 
别 。 


能 够 提供 二 次 开发 接口 的 归档 平台 产品 非常 少 ， 国 外 产品 中 IBM 
Tivoli 与 Symantec 等 可 以 提供 接口 ， 但 是 Tivoli 的 部 署 复杂 度 、 易 用 
度 、 先 期 部 署 成 本 、 后 期 维护 成 本 都 是 高 不 可 测 的 。 目 前 国内 已 经 有 
多 个 厂商 的 不 同 的 数字 媒体 信息 系统 在 后 台 使 用 了 MSP 中 间 件 来 作为 
归档 和 迁移 。 


1) MSP 的 逻辑 架构 


如 图 18-44 所 示 ， 整 个 MSP 由 13 个 模块 组 成 。 其 中 服务 器 模块 负责 
接收 操作 指令 (通过 API 或 者 用 户 手动 发 起 ) 并 控制 迁移 器 对 数据 做 
实际 的 迁移 ; 收发 器 负责 处 理 对 象 〈 见 下 文 ) ; 带 库 控制 器 则 类 似 于 
驱动 器 、 机 械 臂 的 驱动 和 管理 层 ， 向 带 库 发 起 IO 请 求 必 须 经 由 这 个 模 
块 ， 宛 余 模 块 是 指 专门 用 来 做 磁带 RAID 技 术 的 模块 ( 见 下 文 ) ; 单机 
读 取 模块 是 为 了 解决 在 回迁 数据 的 过 程 中 由 于 已 经 出 库 的 磁带 距离 中 
心 带 库 较 远 而 不 方便 入 库 的 问题 而 生 的 ， 可 以 直接 在 出 库 磁带 所 在 的 
地 点 假设 一 台 服 务 器 以 及 磁带 机 ， 其 上 安装 单机 读 取 模 块 ， 这 样 直接 


束 可 以 从 已 经 出 库 的 磁 市 中 将 数据 读 出 从 而 回迁 ; 开发 接口 模块 便 是 
MSP 所 提供 的 查询 /操控 API 了 。 其 他 模块 不 再 介绍 ， 按 字面 意思 理解 
即 可 。 


图 18-44 ”MSP 架 构图 
2) MSP 的 部 署 形态 


如 图 18-45 所 示 ，MSP 中 的 各 个 模块 可 以 分 开 安装 于 不 同 的 服务 器 
上 ， 当 然 也 可 以 将 它们 都 安装 在 一 台 服 务 器 上 。 其 中 迁移 器 、 收 发 器 
这 两 个 模块 必须 连接 并 且 可 以 看 到 后 端的 存储 空间 ， 因 为 这 二 者 需要 
对 后 端 存储 空间 中 实际 的 数据 做 读 出 / 写 入 的 迁移 操作 。 市 库 控 制 器 模 
块 必须 能 够 连接 到 市 库 设 备 。 


图 18-45 ” MSP 部署 形态 


CN 克 Re 图 18-46 ” ”MSP 配置 界面 
用 户 可 以 通过 系统 管理 中 心 来 


定制 各 种 策略 以 及 归档 和 回迁 任 
务 。 如 图 18-46 所 示 为 系统 管理 中 心 的 界面 。 


3) MSP 的 优点 


a 支持 多 级 存储 ， 比 如 磁盘 、VTL、 了 磁带 、NAS 网 络 路 径 。 

" 支持 多 个 迁移 器 集群 化 并 行 以 提高 速度 和 吞吐 量 。 

”面向 对 象 的 迁移 粒度 ， 可 以 将 多 个 互相 有 逻辑 关联 的 文件 组 成 
一 个 组 对 象 ， 并 以 对 象 为 单位 进行 迁移 。 


火星 技术 : 比如 某 监控 点 ， 在 多 个 角度 都 安装 了 摄像 头 ， 各 
产生 一 路 视频 流 和 视频 文件 。 此 时 就 需要 将 针对 这 个 监控 点 
的 所 有 角度 的 视频 文件 存放 到 一 起 ， 而 不 是 分 开 无 序 存 放 ， 


这 样 ， 在 视频 回放 的 时 候 ， 就 可 以 一 下 子 选 出 这 个 点 的 所 有 
角度 的 视频 来 观看 ， 而 不 是 从 多 个 存储 位 置 或 者 磁带 各 自 将 
对 应 的 视频 抽出 。 这 种 方式 在 MSP 中 被 称 为 对 象 存储 模式 。 


”具有 磁盘 缓冲 技术 ， 可 以 将 磁带 中 的 部 分 访问 频 度 较 高 的 文件 
复制 到 磁盘 中 作为 Cache 缓 存 以 提高 访问 速度 。 


火星 技术 : 用 磁盘 作为 磁带 的 缓存 就 像 用 RAM 作 为 磁盘 的 组 
存 一 样 ，MSP 将 这 种 思想 用 到 了 磁盘 下 面 的 层次 。 注 意 ， 这 
里 的 缓存 并 不 是 指 D2D2T 那 种 模式 。 缓 存 和 缓冲 不 一 样 ， 缓 
存 指 的 是 慢 速 介质 上 的 数据 被 复制 到 高 速 介质 中 ， 高 速 介质 
作为 一 种 Cache; 而 缓冲 则 表示 数据 先 存 放 在 高 速 介质 中 ， 作 
为 一 个 Buffer， 此 时 低速 介质 中 尚未 存放 这 些 数据 ， 待 高 速 
介质 达到 一 定 触发 条 件 后 ， 数 据 便 被 移动 或 者 复制 到 低速 介 
质 。 


" 使 用 通用 标准 协议 来 控制 主流 厂商 的 带 库 ， 这 就 使 得 MSP 兼 容 
几乎 所 有 审 库 。 

" RARM (Redundant Array of Removable Media ) 磁带 元 余 技 
术 ， 有 效 防 止 因 磁 审 数据 损坏 而 造成 的 数据 丢失 。 


火星 技术 : RAID 的 意思 是 “廉价 元 余 磁 盘 阵列 ”， 磁 盘 可 以 
阵列 ， 磁 带 一 样 可 以 。 火 星 科技 的 磁带 见 余 技术 ， 就 是 将 磁 
盘 阵 列 中 的 RAID 技 术 迁 移 到 了 磁带 中 。 同 样 ， 用 多 盘 磁 融 来 
做 XOR 运 算 ， 生 成 一 份 校 验 磁带 。 当 某 盘 磁带 完全 损坏 ， 或 
者 其 中 部 分 数据 损坏 时 ， 可 以 用 XOR 算 法 生成 损坏 的 数据 。 
不 仅 如 此 ， 如 果 多 盘 人 磁带 上 都 有 部 分 数据 损坏 ， 只 要 同一 条 


带 上 最 多 只 有 一 个 segment 的 数据 损坏 ， 那 么 一 样 可 以 通过 校 
验 来 找 回 损坏 的 数据 。 


" 渤 移 器 带宽 控制 ， 可 以 针对 每 个 迁移 器 或 者 全 局 来 限制 迁移 数 
据 时 的 IO 强度 ， 使 得 迁移 操作 对 生产 环境 的 影响 降 为 最 低 。 

= 文件 片段 恢复 技术 ， 可 以 从 某 个 特定 格式 的 大 文件 中 恢复 出 可 
以 被 应 用 程序 所 识别 并 且 使 用 的 文件 片段 而 不 是 回迁 整个 文 
件 。 


火星 技术 : 比如 在 视频 回放 环境 下 ， 有 时 候 用 户 可 能 只 需 
查看 某 个 大 视频 文件 中 的 某 一 小 部 分 ， 而 此 时 如 果 大 动 干戈 
地 把 整个 文件 都 回迁 ， 不 仅 滔 费时 间 ， 而 且 还 有 损 设 备 的 寿 
命 ， 还 占用 额外 的 磁盘 空间 。 对 此 ， 火 星 科 技 开 发 出 了 文件 
片段 恢复 技术 ， 通 过 对 特定 格式 的 文件 做 特殊 标记 ， 可 以 以 
很 小 的 粒度 来 恢复 出 应 用 程序 可 以 识别 并 且 正 确 播放 的 视频 
片段 。 


sa 开放 式 的 磁带 记录 格式 ， 第 三 方 软件 也 可 以 识别 。 
a 支持 多 种 主流 OS 平台 ， 包括 Windows、Linux、 Solaris 、 
HPUX、 AlIX。 


4) 在 用 户 苛刻 的 需求 中 成 长 起 来 


火星 高 科 在 技术 领域 有 自己 独特 的 观点 ， 这 些 观点 都 是 他 们 在 面 
临 了 很 多 实际 客户 环境 并 且 参 与 定制 开发 后 逐渐 总 结 而 成 的 ， 具 有 很 
高 的 参考 价值 。 


火星 事件 : 火星 MSP 平 台 以 及 企业 级 备份 软件 均 支 持 磁 带 离 
线 存 放 ， 妈 Vault 功能。 这 样 就 可 以 使 用 较 少 的 磁带 槽 位 来 满 


足 对 大 量 磁 带 的 操作 。 某 用 户 的 离线 磁带 架 特 别 多 ， 每 次 软 
件 提 示 将 某 某 磁带 放 入 带 库 的 时 候 ， 用 户 查 找 起 来 很 麻烦 ， 
用 户 将 磁带 架 进 行 了 拍照 ， 并 且 将 照片 以 及 对 应 的 架子 以 及 
槽 位 编号 发 给 了 火星 科技 ， 要 求 将 图 片 做 到 软件 中 ， 每 次 对 
磁带 进行 出 库 或 者 入 库 ， 均 在 图 片 对 应 的 位 置 进行 直观 的 标 
识 。 这 还 没完 ， 没 过 多 长 时 间 ， 用 户 的 磁带 架 升 级 了 ， 架 子 
上 方 增加 了 LED 显 示 屏 来 显示 对 应 的 信息 ， 用 户 提 出 要 求 ， 
让 软件 直接 可 以 通过 RS 一 232 串 口 及 对 应 协议 直接 在 LED 显 
示 屏 上 显示 出 磁带 信息 。 


通过 一 次 次 对 用 户 各 种 需求 的 定制 开发 ， 火 星 高 科 快 速 积 累 了 大 
量 经 验 ， 将 很 多 有 共性 的 定制 功能 放 入 了 软件 主体 中 ， 不 断 丰富 软件 
的 功能 。 


火星 事件 : 高 级 分 级 应 当 手动 进行 ， 越 高 级 的 用 户 ， 他 想 手 
动 控制 存储 系统 以 及 数据 的 欲望 融 越 强烈 。 美 国 的 分 级 产品 
之 所 以 目 动 化 、 智 能 化 强 ， 是 因为 美国 的 和 人力 成 本 高 昂 ， 而 
中 国人 则 比较 勤劳 。 


某 档 案 馆 的 归档 项 目 中 ， 火 星 高 科 遗 遇 了 大 量 小 文件 备份 速度 奇 
慢 的 问题 ， 这 个 问题 是 普遍 存在 的 ， 而 火星 高 科 没 有 回避 ， 选 择 了 冲 
破 这 道 堵 了 很 长 时 间 的 墙 ， 取 得 了 胜利 。 


火星 技术 : 大 量 小 文件 的 传统 磁带 备份 一 直 是 让 人 非常 头痛 
的 事情 。 文 件 索 引 及 Catalog 的 生成 和 处 理 过 程 是 很 慢 的 ， 大 
量 小 文件 的 情况 下 ， 可 能 光 这 一 步 就 要 耗费 数 小 时 甚至 几 天 
的 时 间 ， 这 显然 无 法 接受 。 对 此 ， 火 星 高 科技 巧妙 地 避 开 了 


索引 过 程 而 转 为 利用 一 种 变通 和 虚拟 的 方式 来 备份 大 量 小 文 
件 ， 速 度 获得 了 20 余 倍 的 提升 。 

某 用 户 的 数据 备份 项 目 中 ， 竞 争 对 手 为 国外 某 备 份 软件 三 
商 ， 他 们 的 销售 一 个 劲 地 向 用 尸 忽悠 他 们 的 多 流 备份 技术 ， 
即 同一 个 备份 任务 拆 分 成 多 个 数据 流 同 时 写 入 多 个 驱动 器 ， 
由 于 火星 高 科 的 备份 软件 不 支持 这 种 方式 ， 所 以 对 手 一 直 拿 
这 一 点 来 攻击 。 而 火星 高 科 从 容 应 对 ， 成 功 赢得 了 用 户 的 信 
任 。 

火星 观点 : LIO 已 经 发 展 到 了 第 4 代 ， 第 5 代 也 已 经 出 来 了 ， 
数据 传输 速度 已 经 非常 高 了 ， 待 备份 的 应 用 程序 向 外 吐 数 据 
的 速度 甚至 都 可 能 达 不 到 这 个 速度 ， 既 然 这 样 ， 再 将 它 拆 分 
成 多 个 流 ， 有 必要 么 ”不 但 没有 必要 ， 反 而 有 害 ， 第 一 ， 多 
流 备份 之 后 的 磁带 一 旦 有 一 盘 损 坏 ， 那 么 其 他 磁带 上 的 数据 
也 就 没 用 了 ; 第 二 ， 本 来 前 端的 数据 速度 可 能 已 经 连 一 个 流 
都 饱和 不 了 了 ， 再 将 其 拆 分 为 多 个 流 ， 那 么 势必 造成 磁 市 驱 
动 器 欠 载 ， 造 成 鞋 擦 效应 〈 见 其 他 章节 ) ， 降 低 磁 带 寿 命 。 

多 流 备份 是 早期 的 技术 ， 那 时 驱动 器 的 数据 写 入 速度 很 低 ， 
所 以 不 得 已 而 为 之 ， 但 是 随 着 硬件 的 发 展 ， 自 己 、 这 个 问题 
早 就 被 弱化 了 对 手 厂 商 拿 着 鸡毛 当 令 箭 的 做 法 ， 实 属 不 该 ! 

天 于 备份 出 欠 是 否 要 目 动 重 试 的 问题 ， 火 星 高 科 也 有 和 目 己 独 
特 的 看 法 。 

火星 观点 : 备份 出 错 大 多 数 时 间 都 是 因为 带 库 硬 件 或 者 磁带 
等 方面 出 问题 ， 此 时 就 算 重 试 N 次 也 无 济 于 事 ， 反 而 还 浪费 
了 系统 资源 。 硬 件 原 因 导 致 的 备份 出 错 无 须 盲目 重 试 ， 待 手 
动 排除 故障 之 后 ， 手 动 再 次 发 起 备份 。 


火星 高 科 的 很 多 观点 和 技术 都 颇具 中 国 特色 ， 这 正 是 因为 火星 高 
科 是 从 中 国 各 行业 用 户 的 苛刻 的 、 千 奇 百 怪 的 需求 当中 成 长 起 来 的 。 


火星 高 科 成 立 于 1992 年 ， 至 今 已 经 快 20 年 的 时 间 了 。2010 年 中 旬 
笔者 有 幸 参 观 了 火星 高 科 ， 并 且 与 同仁 们 进行 了 热烈 的 交谈 。 从 交谈 
中 笔者 感觉 到 ， 火 星 高 科 是 一 家 非常 重视 技术 的 公司 ， 以 用 户 需 求 为 
导向 ， 技 术 研 发 为 依托 ， 如 今 公 司 已 经 成 为 一 家 国内 数一数二 的 在 归 
档 领 域 掌 握 自 主 核心 技术 的 公司 。 从 当初 对 磁带 一 无 所 知 到 今天 成 为 
归档 领域 的 权威 ， 火 星 高 科 正 如 她 的 名 字 一 样 ， 通 过 不 断 的 努力 进 
取 ， 星 星之 火 终 成 粽 原 之 势 ! 


畅想 : 作者 在 此 也 以 个 人 的 角度 畅想 一 下 MSP 的 未 来 。 下 一 
步 MSP 可 以 向 全 面 数据 分 级 中 间 件 方向 进军 ， 内 部 定义 各 种 
Tier， 丰 富 各 种 接口 ， 比 如 系统 内 的 Tier 分 类 和 查询 、Tier 的 
性 能 属性 查询 等 。 功 能 上 ， 除 了 支持 文件 级 归档 ， 还 可 以 与 
底层 存储 设备 配合 ， 支 持 块 级 或 者 LUN 级 的 透明 分 级 ， 并 且 
提供 一 系列 针对 块 级 别 的 API， 比 如 将 某 个 LUN 从 RAID 10 的 
RAID 组 迁移 到 RAID 5 的 RAID 组 ， 或 者 将 某 个 LUN 中 的 数据 
迁移 到 NAS 上 ， 并 且 还 保持 客户 端 访问 方式 不 变 。 当 然 ， 要 
做 到 这 些 功能 是 很 不 容易 的 ， 这 要 求 这 个 平台 既 具 有 迁移 中 
间 件 的 性 质 ， 同 时 还 要 具有 虚拟 化 网 关 的 性 质 。 


5) MSA 备 份 一 体 化 设备 


火星 高 科 最 近 发 布 了 一 款 备 份 一 体 化 设备 ， 叫 做 火星 舱 (Mars 
Storage Appliance，MSA) 。 火 星 舱 数据 备份 设备 支持 多 种 操作 系统 
平台 ， 如 Windows、Linux、IBM-AIX、 SUN-Solaris 、 HP-UX 、 
RedHat、Novell、 红 旗 等 ， 支 持 这 些 异 构 平台 下 的 文件 、Oracle、SQL 


Server、Sybase、Exchange 等 数据 库 备 份 以 及 操作 系统 备份 ， 支 持 重 复 
数据 删除 功能 。 同 时 允许 系统 管理 员 将 硬盘 分 级 ， 将 特定 的 硬盘 /分 区 
完全 仿真 成 磁带 库 或 者 磁带 机 ， 也 就 是 VIL 功能， 可 大 幅度 缩短 备份 / 
恢复 时 间 ， 同 时 减少 高 峰 期 对 网 络 资源 的 占用 。 并 可 不 限 驱 动 器 数 
量 ， 提 供用 户 分 类 存储 数据 功能 。 如 图 18-47 所 示 为 火星 舱 系 列 存储 设 
备 中 的 MSA Backup Advanced (MSA-BA) 一 体 化 备份 设备 的 系统 架 
构图 。 


图 18-47 MSA-BA 一 体 化 备份 设备 


其 中 备份 策略 引擎 负责 全 局 配置 、 管 理 和 触发 整个 备份 域 中 的 备 
份 任务 ， 数 据 移 动 器 负责 将 数据 从 各 个 待 备份 主机 端 相应 的 应 用 代理 
处 传送 到 备份 服务 器 中 的 虚拟 磁 市 中 保存 ， 设 备 控制 器 是 专门 用 来 控 
制 虚拟 机 械 手 的 模块 ，VTL 模 块 则 是 用 来 将 底层 磁盘 虚拟 成 对 应 的 虚 
拟 磁带 驱动 器 、 虚 拟 机 械 手 以 及 虚拟 磁盘 的 虚拟 化 引擎 模块 。 


6) 支持 国产 ， 并 不 应 该 只 是 口号 


近年 来 ， 国 家 有 关 部 委 也 明确 了 态度 ， 在 涉及 国家 安全 级 别 的 项 
目 中 优先 或 者 必须 使 用 国产 产品 。 并 且 于 2010 年 5 月 对 信息 安全 产品 要 
求 必 须 通 过 CCC 强 制 认 证 ， 包 括 备份 软件 。 但 是 现状 是 ， 没 有 通过 
CCC 认证 的 产品 依然 存在 于 市 面 上 。 火 星 高 科 的 Mars Backup 
Advanced 企 业 级 备份 软件 支持 主流 数据 库 的 备份 ， 包 括 Oracle、 
Sybase、SQL Server、Exchange 和 多 家 国产 数据 库 产品 ， 如 人 大 金 仓 、 
武汉 达 梦 、 神 州 奥斯卡 、TRS 等 ， 也 于 第 一 时 间 通 过 了 CCC 认 证 。 对 
言 息 安全 产品 的 CCC 认 证 过 程 中 包含 很 多 项 目 ， 比 如 对 后 门 、 漏 洞 等 
的 审查 等 。 然 而 对 于 一 些 国外 的 产品 ， 未 通过 3C 认 证 的 也 还 在 卖 。 政 
策 监 管 和 执行 的 不 到 位 ， 让 政策 成 了 一 纸 空 


无 语 : 不 仅 如 此 ， 界 定 一 款 产 品 是 否 是 国货 的 底 限 ， 也 被 打 
破 了 。 在 最 近 某 个 数据 备份 项 目 中 ， 招 标明 确 规定 : 投标 产 
品 必须 是 国产 产品 。 但 是 结果 却 让 人 有 巡 目 结 舌 ， 中 标的 竟然 
是 IBM， 它 的 产品 竟然 被 定义 成 了 国货 ， 这 个 结果 让 参加 投 
标的 多 家 国内 厂商 感到 无 语 。 不 知道 “有 关 部 门 ”到 底 在 干 什 
么 ， 强 烈 建议 有 关 部 门 把 “有 关 部 门 ” 取 缮 。 

在 此 也 号 召 国内 广大 用 户 ， 能 用 国产 尽量 用 国产 ， 不 仅 考 虑 
价格 因素 ， 至 少 要 考虑 安 人 全、 民族、 国家。 多 一 个 人 用 国 
产 ， 国 货 的 品质 就 会 提升 越 快 ， 就 会 早日 赶 超 西方 。 


18.3.4 Deduplication (重复 数据 删除 ) 


所 有 人 的 电脑 内 总 会 有 一 些 重 复 的 文件 复制 ， 尤 其 是 对 一 些 有 收 
藏 癖好 的 人 来 讲 ， 他 们 会 疯狂 地 在 Internet 上 下 载 一 些 他 们 认为 很 有 价 
值 的 视频 、 音 乐 或 者 图 片 等 ， 由 于 他 们 在 不 停 地 下 载 而 很 少 去 欣赏 这 
些 内 容 ， 所 以 遇 到 相同 的 内 容 时 可 能 会 无 意识 地 再 次 下 载 ， 这 样 的 
话 ， 他 们 硬盘 上 的 数据 将 会 有 相当 数量 的 重复 。 这 些 重 复 的 数据 存在 
于 存储 系统 中 ， 一 是 浪费 空间 ， 二 是 一 旦 需要 备份 ， 那 么 又 会 浪费 备 
份 时 间 ， 而 且 备 份 之 后 的 数据 也 会 再 次 占用 额外 的 空间 。 


在 企业 IT 系统 内 ， 包 含 了 个 人 电脑 本 地 存储 、 服 务 器 本 地 存储 和 
外 部 网 络 存 储 系统 。 在 这 个 整体 的 系统 内 ， 数 据 的 重复 率 将 会 更 大 。 
比如 对 某 个 数据 库 的 备份 ， 每 周一 次 全 备 ， 那 么 两 次 全 备份 的 数据 一 
定 会 有 很 多 相同 的 部 分 。 


再 比如 ， 每 个 员工 电脑 上 至 少 都 会 装 一 套 Windows 操 作 系统 ， 这 
些 数 据 在 全 局 范围 内 ， 就 是 重复 的 。 而 对 于 服务 器 ， 除 了 操作 系统 重 
复 之 外 ， 安 装 的 程序 也 有 可 能 重复 ， 而 程序 所 生成 的 数据 也 有 可 能 


复 ， 比 如 某 人 给 企业 内 所 有 人 发 送 了 一 封 邮件 ， 并 且 携 带 了 一 个 
10MB 大 小 的 附件 ， 那 么 邮件 服务 器 会 在 每 个 人 的 邮箱 中 都 生成 一 份 
这 个 附件 的 复制 ， 这 就 是 一 笔 很 大 的 重复 数据 。 


说 道 邮 箱 ， 腾 讯 QQ 邮 箱 是 笔者 一 直 以 来 比较 喜欢 用 的 。QQ 邮 箱 
对 超大 附件 的 做 法 就 是 将 附件 存储 在 服务 器 上 一 个 独立 位 置 ， 不 管 将 
其 作为 附件 发 给 谁 ， 这 些 附件 始终 只 有 一 份 复制 ， 任 何 收 到 邮件 的 人 
所 看 到 的 附件 其 实 并 没有 附 到 本 封 邮件 中 ， 而 只 是 一 个 链接 ， 打 开 附 
件 时 会 从 服务 端 将 数据 下 载 到 本 地 ， 这 是 一 个 很 好 的 解决 办 法 。 那 么 
对 于 处 于 不 同 机 器 之 上 的 本 地 文件 如 果 重 复 ， 能 有 什么 办 法 来 解决 
呢 ? 在 此 总 结 一 下 所 有 可 能 的 场景 。 


(1) 同一 主机 操作 系统 本 地 存储 的 重复 文件 。 包 括 同名 但 是 内 容 
不 同 、 内 容 相同 但 是 名 字 不 同 以 及 只 有 部 分 内 容 相同 的 文件 《下 
同 ) 。 


(2) 不 同 主机 操作 系统 本 地 存储 的 重复 文件 。 


(3) 不 同 主机 操作 系统 都 在 同一 台 外 部 NAS 存 储 设备 进行 数据 集 
中 存储 时 的 重复 文件 。 


(4) 不 同 主机 操作 系统 都 在 同一 台 外 部 Block 存 储 设备 进行 数据 
集中 存储 时 的 重复 文件 。 


(5) 虚拟 机 环境 下 磁盘 镜像 文件 中 的 重复 部 分 。 
(6) 虚拟 机 环境 下 裸 磁盘 映射 模式 下 的 重复 数据 。 


对 于 (1) ， 可 以 由 用 户 手动 来 判断 并 且 删 除 重复 的 文件 ， 必 要 时 
可 以 对 一 份 文 件 作 不 同名 称 的 快 键 方式 或 者 链接 。 但 是 对 于 只 有 部 分 


内 容 相同 的 文件 ， 如 果 不 通过 特殊 程序 的 话 ， 就 只 能 保留 。 


对 于 〈2) ， 在 这 种 情况 下 ， 多 人 台 主 机 上 的 操作 系统 文件 大 部 分 是 
重复 的 ， 为 了 消除 这 种 重复 ， 可 以 部 署 无 盘 系 统 ， 但 是 无 盘 系 统 的 性 
能 实在 不 好 控制 ， 而 且 使 用 起 来 有 诸多 不 便 。 而 对 于 非 操 作 系统 文件 
的 重复 文件 ， 是 无 能 为 力 的 。 


对 于 (3) ，NAS 系 统 的 不 同 或 者 相同 目录 中 有 重复 内 容 的 文件 ， 
这 种 情况 下 如 果 没 有 特殊 的 程序 起 作用 的 话 ， 不 能 够 擅自 删除 文件 或 
者 制作 链接 。 因 为 NAS 一 般 只 提供 对 外 的 接口 ， 其 内 部 虽然 也 是 某 种 
操作 系统 ， 但 是 NAS 设 备 一 般 不 会 提供 用 户 其 内 部 文件 系统 的 操作 接 
口 ， 所 以 这 种 情况 下 的 重复 文件 也 是 无 法 消除 的 。 


对 于 (4) ， 由 于 重复 的 文件 存在 于 不 同 的 主机 操作 系统 内 ， 那 么 
如 果 要 删除 挤 重 复 的 文件 ， 就 必须 将 最 后 留存 的 那 份 实体 文件 所 在 的 
目录 通过 网 络 共 享 出 来 ， 其 他 主机 访问 这 个 共享 ， 并 且 制 作 一 个 针对 
这 个 文件 的 链接 ， 那 么 这 个 链接 就 只 能 是 一 个 快 键 方 式 ， 快 键 方式 使 
用 起 来 有 诸多 不 便 。 所 以 ， 这 种 情况 下 要 实现 重复 数据 的 删除 也 是 不 
现实 的 。 


对 于 (5) 和 “(6) ， 就 更 不 是 通过 用 户 手 动能 够 实现 的 了 。 


综 上 所 述 ， 在 同一 主机 系统 内 ， 对 于 整个 文件 的 内 容重 复 ， 可 以 
在 最 终 用 户 层 消 除 重复 ， 但 是 需要 用 户 来 手动 操作 并 且 记 录 链 接 关系 
(即便 是 同一 主机 操作 系统 内 ， 硬 链接 不 能 够 跨 不 同文 件 系统 ) ， 这 
显然 不 现实 。 对 在 不 同 主机 系统 内 的 重复 文件 ， 无 能 为 力 。 所 以 , 不 
管 从 任何 角度 来 讲 ， 都 需要 一 个 特殊 的 程序 来 实现 这 种 重复 数据 删除 
工作 ， 并 且 还 需要 维护 对 上 层 访问 的 完全 透明 性 。 


Single Instance Storage (SIS， 单 一 实例 存储 ) ， 就 是 实现 这 种 删 
除 重 复 文 件 内 容 的 一 种 技术 。 所 谓 Single Instance (单一 实例 ) ， 指 的 
就 是 相同 内 容 的 文件 ， 在 系统 内 只 存在 一 份 实体 ， 其 他 副本 都 只 作为 
一 个 指针 链接 而 存在 ， 链 接 只 占用 一 个 FS Block 的 空间 。SIS 可 以 在 主 
机 端 实现 ， 比 如 在 某 个 操作 系统 上 安装 一 个 SIS 处 理 模 块 ， 它 会 根据 用 
户 的 设置 来 自动 定期 或 者 实时 地 扫描 系统 内 所 有 可 访问 的 文件 系统 内 
的 文件 内 容 ， 一 旦 发 现 相同 内 容 的 文件 ， 则 只 保留 一 份 文件 实 体 ， 删 
掉 其 他 多 余 的 副本 并 为 它们 创建 特殊 的 链接 (可 以 跨 文件 系统 ， 并 非 
普通 硬 链接 ) ， 这 个 链接 其 实 与 上 一 节 中 所 述 的 Tier 分 级 软件 所 做 的 
链接 类 似 。 


对 于 上 文中 (2) 对 应 的 情况 ， 虽 然 SIS 理 论 上 当然 可 以 实现 跨 主 
机 的 重复 数据 删除 ， 但 是 由 于 需要 跨 网 络 访问 ， 在 管理 和 性 能 上 上 皆 有 
诸多 不 便 ， 所 以 目前 尚未 有 这 种 实现 方式 。 也 可 以 在 NAS 上 实现 SIS， 
这 样 就 解决 了 上 面 的 (3) 所 对 应 的 问题 。 而 对 于 (4) 中 的 情况 ， 其 
实 是 与 (2) 类 似 的， 只 不 过 数据 放 在 外 部 块 级 存储 设备 而 不 是 本 地 ， 
所 以 SIS 在 这 种 情况 下 也 不 能 实现 重复 数据 删除 。 对 于 (5) 所 述 的 情 
况 ，SIS 是 无 能 为 力 的 ， 因 为 即便 是 用 相同 的 步骤 安装 两 台 GuestOS， 
这 两 个 OS 的 系统 盘 对 应 的 磁盘 镜像 文件 也 不 见得 每 个 字 节 都 相同 ， 虽 
然 它 们 很 大 一 部 分 都 是 相同 的 。 对 于 (6) ，SIS 此 时 已 经 看 不 到 文件 
了 ， 所 以 更 是 无 能 为 力 。 (对 于 (5) 和 (6) ， 虽 然 无 法 在 虚拟 机 上 服 
务 器 上 使 用 SIS 达 到 预期 效果 ， 但 是 依然 可 以 在 GuestOS 中 使 用 SIS 技 术 
来 消除 重复 文件 。) 


SIS 可 以 理解 为 文件 级 别 的 Deduplication。 块 级 别 的 Deduplication 
才 是 真正 意义 上 的 Deduplication， 简 称 Dedup (去 重 / 消 重 ) 。 但 是 一 
般 情况 下 会 用 Deduplication 同 时 表示 文件 级 和 块 级 的 重复 数据 删除 。 


文件 级 的 Dedup 不 但 在 满足 实际 需求 上 存在 上 文 所 述 的 一 系列 问题 ， 
而 且 其 底层 技术 实现 方法 上 也 有 很 大 的 局 限 性 ， 比 如 ， 只 能 以 整个 文 
件 的 二 进 制 内 容 来 比 对 ， 而 遇 到 只 有 部 分 内 容 相 同 的 文件 ， 或 者 只 

文件 头 部 信息 不 同 而 后 续 的 内 容 完全 相同 的 文件 ， 则 无 能 为 力 。 


但 是 不 排除 有 一 些 稍微 智能 一 些 的 SIS 技 术 ， 可 以 识别 和 定 界 并 且 
保留 文件 头 部 信息 。 比 如 mp3 等 音 视频 ，mp3 文 件 的 头 部 会 保存 一 些 
音乐 信息 ， 如 果 有 两 个 mp3 文 件 ， 其 实体 音乐 编码 部 分 是 完全 相同 
的 ， 只 不 过 歌手 、 类 别 等 头 部 信息 不 同 ， 所 以 这 两 个 mp3 文 件 的 大 小 
也 不 同 ， 那 么 ， 对 于 高 智能 SIS 便 可 以 识别 这 种 头 部 信息 的 不 同 而 将 其 
保留 ， 然 后 将 重复 的 音乐 编码 部 分 删除 。 然 而 ， 要 实现 这 种 智能 ， 就 
必须 感知 各 种 主流 的 应 用 程序 所 生成 的 文件 比如 MS Office、mp3、 
mp4 等 ， 并 且 随 着 应 用 程序 的 升级 换代 ，SIS 模 块 也 需要 跟着 更 改 才能 
识别 新 格式 的 头 部 信息 和 边界 ， 而 且 应 用 程序 有 太 多 ， 不 可 能 每 种 都 
支持 ， 所 以 实现 起 来 太 累 。 需 要 有 一 种 更 彻底 的 、 更 高 效 的 、 一 劳 永 
逸 的 解决 办 法 。 


这 种 一 劳 永 逸 的 Dedup 方 法 就 是 块 级 Dedup。 Block 是 存储 系统 路 
径 中 仅 次 于 Sector 的 最 底层 的 数据 结构 了 ， 如 果 直 接 来 比 对 整个 存储 
系统 内 所 有 Block 的 二 进 制 内 容 的 异同 ， 消 除 相同 内 容 的 多 余 Block 副 
本 ， 那 么 不 管 Block 中 存储 的 内 容 对 应 的 是 哪个 分 区 的 哪个 文件 系统 下 
的 哪个 文件 ， 相 同 内 容 的 多 余 Block 的 实体 内 容 都 可 以 被 消除 ， 而 只 在 
Metadata 中 留 有 一 个 指针 来 指向 被 保留 的 那 唯一 一 份 有 实体 内 容 的 
Blocko 


如 果 多 人 台 主 机 将 自己 的 数据 存储 于 同一 台 外 部 独立 存储 设备 中 ， 
如 果 在 这 台 存 储 设备 上 实现 全 局 的 Block 级 的 Dedup， 那 么 也 就 可 以 做 
到 消除 多 台 主 机 上 的 重复 数据 。 对 于 虚拟 机 服务 器 上 的 磁盘 镜像 文 


件 ， 块 级 别 的 Dedup 就 可 消除 两 份 镜像 文件 中 郊 余 的 Block， 而 对 于 利 
用 裸 盘 映 射 模式 来 存储 GuestOS 数 据 的 虚拟 方式 ， 同 样 也 可 以 使 用 块 
级 Dedup 来 消除 重复 数据 。 所 以 说 ， 块 级 的 Dedup 是 最 彻底 也 是 去 重 比 
率 最 高 的 Dedup 方 式 。 现 在 基于 SIS 技 术 的 产品 不 多 见 了 ， 基 本 上 都 是 
基于 Block 级 的 Dedup 产 品 ， 相 对 于 智能 SIS，Block Dedup 设 计 成 本 更 
低 ， 去 重 比 率 也 更 高 ， 获 得 的 收益 也 更 大 。 


以 上 介绍 了 Dedup 的 必要 性 ， 以 及 实现 Dedup 的 两 种 大 方向 。 下 面 
就 对 实现 Block Dedup 的 具体 技术 进行 介绍 。 


1。. 压缩 与 Dedup 的 本 质 区 别 


想到 节约 空间 ， 大 家 可 能 首先 想到 的 是 压缩 。 比 如 WinZip、 
WinRAR、7-Zip 等 工具 ， 都 是 我 们 常用 的 ， 而 且 某 些 情况 下 会 获得 很 
高 的 压缩 比 。 但 是 有 印象 的 读者 可 能 还 记得 ， 本 书 第 16 章 中 16.2.5 节 中 
的 那个 例子 ， 普 通 压缩 工具 对 那 种 情况 是 无 能 为 力 的 ， 因 为 压缩 是 一 
个 局 部 处 理 ， 而 并 不 是 全 局 处 理 ， 窗 口 很 小 。 


而 Dedup 所 要 实现 的 ， 是 针对 整个 存储 系统 的 全 局 数据 ， 普 通 压 
缩 程序 不 可 能 去 扫描 全 局 的 数据 然后 压缩 而 后 访问 的 时 候 再 解压 缩 ， 
这 是 绝对 不 现实 的 ， 一 是 耗费 大 量 CPU 资 源 ， 二 是 对 上 层 很 难 做 到 透 
明 访 问 《WinXP 内 置 的 Zip 引 擎 可 以 做 到 透明 访问 ) 。 所 以 ， 需 要 使 用 
其 他 技术 手段 来 实现 全 局 Block Dedup。 


2. 全 局 范围 内 实现 Dedup 的 核心 技术 手段 一 Hash 


每 个 人 的 指纹 都 不 相同 ， 一 旦 发 现 两 个 相同 的 指纹 ， 就 证 明 是 同 
一 人 所 留 下 的 。 如 果 给 每 个 Block 录 一 个 指纹 并 保存 ， 那 么 就 可 以 通过 


比 对 这 个 指纹 来 判断 两 个 Block 是 否 内 容 相 同 了 。 对 数据 来 做 指纹 录 
入 ， 有 一 个 现成 的 方法 ， 即 Hash 方 法 ，Hash 方 法 衍生 出 多 种 不 同 的 具 
体 算 法 ， 目 前 最 为 常用 的 算法 是 MD5 (Message Digest v5) 和 SHA-1 
(Secure Hash Algorithm v1) 。SHA-1 算 法 会 对 任意 一 份 长 度 小 于 264 
的 数据 内 容 进行 扫描 计算 最 后 得 出 一 个 长 度 为 160 的 值 (MD5 算 法 则 
是 生成 一 个 128 的 值 ) ， 这 个 值 就 是 针对 这 份 数 据 的 指纹 。 相 同 内 容 的 
数据 经 过 Hash 之 后 ， 总 会 得 到 相同 的 指纹 ， 但 是 不 同 内 容 的 数据 在 经 
过 Hash 之 后 ， 也 有 一 个 非常 小 的 几率 可 能 会 得 到 相同 的 指纹 。 


从 实体 内 容 可 以 算出 指纹 ， 但 是 却 绝对 不 可 能 从 指纹 逆 算 出 原来 
的 实体 内 容 。 所 以 Hash 方 法 也 常 被 用 于 密码 保存 和 比 对 ， 即 系统 不 保 
存 明 文 密码 ， 而 是 在 用 户 设 定 登录 密码 时 将 密码 Hash 成 指纹 存放 ， 这 
样 ， 即 便 黑 客 从 系统 中 截取 了 这 段 指纹 ， 那 么 也 不 可 能 根据 指纹 逆 算 
出 原来 的 明文 密码 ， 即 其 他 人 永远 不 可 能 知道 是 哪些 字符 串 被 算 成 了 
对 应 的 Hash 值 。 用 户 登 录 时 输入 的 密码 也 被 计算 成 Hash 值 与 系统 保存 
的 指纹 进行 比 对 ， 如 果 匹 配 则 成 功 登 录 。 破 解 Windows 登 录 密 码 的 过 
程 其 实 并 不 是 “破解 "， 而 是 暴力 地 将 系统 中 保存 Hash 值 的 文件 蔡 换 成 
其 他 文件 ， 新 文件 中 的 Hash 值 对 应 的 原文 密码 是 已 知 的 ， 利 用 这 个 方 
法 ， 用 已 知 的 密码 即 可 登录 系统 。 


不 管 数据 的 长 度 有 多 长 ， 只 要 不 超过 额定 大 小 ， 用 同一 种 算法 所 
计算 出 来 的 指纹 长 度 总 是 定 长 的 ， 比 如 即便 针对 一 个 大 小 为 4GB 的 文 
件 用 SHA-1 算 法 来 提取 其 指纹 ， 指 纹 长 度 依然 为 160。 那 么 如 果 某 个 系 
统 内 有 两 个 4GB 的 内 容重 复 的 文件 ， 那 么 它们 的 指纹 也 一 定 是 相同 
的 ， 此 时 就 可 以 删 掉 其 中 一 个 文件 的 实体 内 容 而 只 保留 一 个 占 位 符 ， 
当 有 程序 访问 这 个 被 消除 实体 内 容 的 文件 的 时 候 ，Dedup 模 块 会 根据 


指针 信息 从 剩余 的 那个 文件 中 对 应 的 部 分 将 内 容 提取 并 且 返 回 给 访问 
者 。 这 样 做 ， 相 比 压缩 来 讲 就 有 了 本 质 的 变化 。 


提示 : 数据 指纹 技术 有 很 多 神奇 的 应 用 ， 比 如 某 网 站 提供 一 
种 服务 ， 如 果 你 会 哼 唱 某 段 曲子 但 苦 耐 不 知道 这 首 曲子 的 名 
称 ， 那 么 只 要 你 哼 哼 出 这 首 曲子 并 且 录 下 来 上 传 到 服务 器 ， 
那么 服务 器 经 过 短暂 分 析 之 后 便 会 告诉 你 这 首 曲子 的 名 称 。 
乍 一 听 这 是 个 非常 神奇 的 功能 ， 其 实 如 果 明 白 数 据 指纹 技 
术 ， 就 不 会 证 异 了 。 服 务 器 会 根据 这 首 乐 曲 的 音调 频率 等 信 
息 生 成 对 应 的 指纹 ， 然 后 与 数据 库 中 的 大 量 已 经 保存 的 音乐 
站 纹 比 对 ， 如 果 发 现 与 某 个 指纹 类 似 ， 那 么 便 将 匹配 的 音乐 
名 称 返 回 给 请 求 者 。 当 然 ， 这 种 音频 指纹 比 对 算法 需要 具有 
一 定 的 Robust 性 ， 会 过 滤 掉 环境 杂 波 的 编码 数据 ，Hash 是 做 
到 的 ， 即 使 音调 音色 都 相同 的 两 份 音 频 ， 其 编码 之 后 的 数 
据 也 不 一 定 相 同 ， 所 以 只 扫描 计算 二 进 制 流 的 Hash 方 法 是 无 
法 完成 比 对 音频 的 任务 的 。 

数据 指纹 的 另外 的 应 用 领域 还 在 于 判断 一 份 数 据 在 传输 的 过 
程 中 是 否 发 生 了 内 容 改变 ， 在 传输 的 源 端 算 好 一 个 指纹 ， 目 
的 端 接收 到 之 后 再 算 一 个 指纹 ， 比 对 两 个 指纹 ， 相 同 则 证 明 
没 发 生 改 变 ， 不 同 则 表明 发 生 了 改变 ， 数 据 不 可 用 。 

另外 ， 数 据 指纹 还 可 以 用 于 远程 Cache 环 境 。 比 如 某 个 CDN 
内 容 发 布 网 络 环境 中 ， 针 对 一 份 源 数据 ， 在 各 地 拥有 多 个 二 
级 Cache， 这 些 Cache 需 要 严格 保证 其 Cache 的 数据 与 源 数据 内 
容 一 致 ， 如 果 源 数据 发 生 内 容 改变 ， 那 么 其 指纹 也 就 改变 。 
Cache 可 以 从 源 端 拉 取 指纹 随时 比 对 ， 如 果 发 现 不 匹配 ， 则 表 
明 源 已 经 改变 ， 那 么 Cache 的 数据 不 再 可 用 ， 针 对 用 户 的 数据 
请 求 ，Cache 会 从 源 端 把 最 新 的 数据 拉 过 来 。 


数字 签名 。 每 个 人 的 笔迹 都 是 不 同 的 ， 但 是 e 时 代 的 电子 签名 
如 何 表示 呢 ? 答案 是 使 用 Hash 算 法 来 将 某 人 给 出 的 一 串 特 定 
字符 算 成 指纹 ， 只 要 给 一 份 电子 合同 附属 上 这 个 指纹 便 知 道 
某 人 在 合同 上 按 了 手印 。 其 他 人 不 可 能 伪造 别人 的 签名 ， 因 
为 其 他 人 根本 不 知道 别人 的 原始 字符 串 。 

其 实 Hash 算 法 在 各 种 程序 中 都 被 广泛 使 用 ， 比 如 OS 内 部 、 数 
据 库 类 程序 等 。 只 要 涉及 到 用 很 少 的 数据 来 唯一 表示 一 个 很 
长 的 数据 ， 那 么 都 会 用 到 Hash 算 法 。 

网 络 硬盘 服务 商 可 以 使 用 Hash 技 术 来 实现 单一 实例 存储 。 比 
如 腾讯 的 QQ 中 转 站 就 使 用 了 Hash 技 术 ， 每 个 人 在 上 传 大 文件 
的 时 候 ， 系 统 首先 会 对 文件 进行 “扫描 ”， 这 个 扫描 的 过 程 其 
实 就 是 计算 Hash 值 的 过 程 。 浏 览 器 将 Hash 值 传送 到 服务 端的 
某 数 据 库 中 进行 匹配 查询 ， 如 果 发 现 了 相同 的 Hash 值 ， 则 表 
示 已 经 有 其 他 人 上 传 了 相同 内 容 和 文件 名 的 文件 ， 那 么 本 次 
上 传 将 会 立即 完成 ， 不 管 文 件 有 多 大 。 


3。Hash 冲 突 及 其 解决 办 法 


没 人 能 够 保证 地 球 上 所 有 人 的 指纹 都 是 不 同 的 ， 很 有 可 能 某 两 个 
人 的 某 处 纹理 是 可 以 吻合 的 。 数 据 指纹 也 一 样 存在 这 个 问题 ， 算 法 决 
定 了 针对 不 同 的 数据 内 容 有 可 能 生成 相同 的 指纹 ， 但 是 几率 非常 低 。 
这 种 情况 称 为 Hash 冲 突 。 设 想 一 下 ， 如 果 有 两 份 明文 内 容 ， 它 们 的 指 
纹 却 恰好 相同 ， 而 且 其 中 一 份 内 容 恰 好 是 某 人 的 密码 ， 而 你 恰好 知道 
这 件 事 ， 那 么 你 此 时 虽然 不 可 能 知道 那 人 的 密码 明文 是 什么 ， 但 是 你 
却 知道 用 你 的 明文 可 以 算出 和 他 一 样 的 Hash 值 ， 那 么 你 就 可 以 用 你 的 
明文 去 登录 他 的 系统 ， 取 得 他 的 权限 。 


然而 ， 寻 找 Hash 冲 突 的 字符 串 ， 或 者 根据 已 知 Hash 值 来 寻找 拥有 
相同 Hash 值 的 字符 串 ， 这 个 过 程 虽 然 是 大 海 捞 针 ， 但 是 理论 上 还 是 可 
以 捞 的 。 我 国 山 东 大 学 王小云 教授 早 在 本 世纪 初 就 宣布 她 已 经 找到 了 
针对 已 知 的 Hash 指 纹 来 找到 与 已 知 Hash 值 相同 指纹 的 数据 的 方法 。 请 
注意 ， 这 种 方法 并 不 是 Hash 的 逆 运 算 ， 因 为 Hash 是 不 可 逆 运 算 的 。 我 
们 设计 一 个 简单 证 反 即 可 得 到 这 个 结论 : 假设 可 以 根据 Hash 值 来 逆 运 
算出 原始 值 ， 假 设 有 这 样 一 种 方法 ， 那 么 逆 运 算出 来 的 原始 内 容 只 可 
能 有 一 个 而 不 可 能 有 两 个 结果 ， 那 么 这 个 结论 就 与 “不 同 原始 内 容 可 能 
会 有 相同 的 Hash 值 ”> 这 个 事实 相 矛 盾 ， 由 此 就 推翻 了 这 个 悖 论 。 也 就 是 
说 ， 原 始 内 容 M1 其 指纹 为 Hl ， 通 过 某 种 算法 ， 可 以 找到 另 一 份 原始 
内 容 M2， 而 其 指纹 也 为 H1， 但 是 无 法 判断 M2 是 否 等 于 M1， 可 能 等 于 
也 可 能 不 等 于 。 但 是 是 否 等 于 已 经 不 重要 了 ， 这 就 像 DNA 不 同 但 是 长 
相 相 同 的 两 个 人 一 样 ， 他 们 在 社会 中 某 些 场合 可 以 互相 替代 ， 但 是 一 
旦 你 和 他 说 话 ， 就 可 能 会 发 现 根 本 不 是 一 个 人 。 


计算 机 领域 与 社会 不 同 ， 高 层 智能 尚未 在 计算 机 世界 出 现 。 只 
有 了 Hash 值 这 个 通行 证 ， 就 可 以 伪造 电子 签名 ， 比 如 某 员工 知道 老板 
的 电子 签名 Hash 值 ， 而 后 他 根据 这 个 Hash 值 找到 了 某 个 Hash 相 同 的 另 
一 份 字符 串 ， 那 么 他 便 可 以 用 这 份 字 符 串 来 对 某 份 伪造 合同 进行 签 
名 ， 而 系统 对 这 份 字符 串 的 Hash 计 算 结果 与 老板 的 相同 ， 所 以 系统 认 
为 合同 是 经 过 老板 签名 的 。 这 种 方法 虽然 并 不 是 真正 意义 上 的 “ 破 
解 ”"”， 但 是 其 造成 的 后 果 与 破解 无 异 。 其 被 称 为 “Collision Attack”。 


Dedup 系 统 中 如 果 出 现 了 Hash 冲 突 ， 如 果 不 想 办 法 解决 ， 那 么 对 
应 的 数据 块 就 会 永久 丢失 ， 丢 失 还 不 是 最 严重 的 ， 最 严重 的 是 对 业务 
产生 致命 影响 : 本 来 两 份 数 据 不 相同 ， 但 是 由 于 指纹 相同 ， 系 统 只 保 
留 了 一 份 数 据 ， 当 业务 层 要 访问 被 去 重 的 那 份 数据 时 ， 系 统 返回 的 却 


是 与 之 前 不 同 的 数据 。 而 面 对 这 种 情况 ， 业 务 层 一 般 会 感知 到 所 得 到 
的 数据 格式 根本 不 是 目 己 想 要 的 ， 所 以 会 提示 出 销 。 但 是 如 果 刚 才 的 
那 两 份 数据 恰好 具有 一 定 的 相似 性 ， 或 者 数据 为 完全 的 裸 数 据 ， 其 中 
不 包含 任何 应 用 可 识别 的 高 层 格式 ， 那 么 数据 的 变化 就 不 会 被 业务 层 
感知 ， 从 而 在 错误 的 数据 之 上 继续 进行 处 理 ， 那 么 可 能 会 得 出 业务 层 
的 重大 决策 失误 或 者 重大 生产 失误 。 


要 完全 杜绝 Hash 冲 突 的 唯一 办 法 就 是 在 当 比 对 两 个 Hash 值 之 后 发 
现 二 者 匹配 ， 那 么 可 以 在 此 基础 上 再 对 原文 内 容 进行 二 进 制 的 逐 位 比 
对 ， 或 者 取 两 份 文件 的 数 个 相同 部 位 ， 比 如 头 、 身 、 尾 来 做 二 进 制 比 
较 。 但 是 ， 如 果 在 重复 数据 相当 多 的 情况 下 ， 这 种 做 法 非常 耗费 计算 
和 IO 资源 。 由 于 Hash 冲 突 的 几率 本 来 已 经 非常 低 ， 如 果 想 办 法 把 冲突 
几率 降 得 更 低 ， 也 是 一 个 可 行 的 方法 ， 基 于 此 ， 可 以 同时 使 用 两 种 
Hash 算 法 ， 比 如 MD5 和 SHA-1 来 针对 目标 数据 进行 计算 得 到 两 组 结 
果 ， 然 后 分 别 比 对 每 一 组 结果 ， 如 果 两 次 比 对 都 相同 ， 那 么 就 可 以 被 
判定 为 重复 数据 。 这 样 做 虽然 也 不 能 完全 杜绝 冲突 ， 但 是 其 几率 又 被 
大 大 降低 了 。 


4. 如何 设计 Dedup 


如 果 换 了 是 各 位 ， 如 何 基 于 Hash 技 术 来 设计 一 个 Dedup 系 统 呢 ? 
下 面 笔者 就 从 简单 演绎 到 复杂 从 而 来 纵 观 Dedup 的 全 貌 。 


~ 。 司 18- 莫 示意 医 
设想 有 一 台 Windows 服 务 器 ， 挂 图 18-48 ”Dedup 模 块 抽象 示意 图 


载 了 外 部 存储 系统 中 的 几 个 LUN， 

都 格式 化 成 NTFS 文 件 系 统 ， 这 些 文件 系统 下 存 有 大 量 的 匈 余 内 容 ， 现 
在 需要 设计 一 个 Dedup 模 块 ， 在 保持 对 文件 访问 的 透明 性 的 前 提 下 消 
除 重复 的 数据 块 ， 达 到 块 级 别 的 Dedup。 我 们 首先 就 应 该 想到 要 处 理 


块 层面 的 内 容 ， 那 么 就 一 定 要 在 Windows 下 的 驱动 链 中 适当 位 置 插入 
一 个 过 滤 驱 动 来 监测 或 修改 经 过 的 Block IO 请 求 以 及 向 上 层 通告 虚拟 
的 可 用 容量 ; 然后 ， 还 需要 一 个 用 来 存放 针对 所 有 Block 所 生成 的 指纹 
库 ， 这 个 库 可 以 保存 在 每 个 LUN 的 固定 位 置 ， 由 Filter Driver 对 其 进行 
隐藏 和 做 数据 IO， 这 样 内 核 文 件 系统 便 不 会 影响 到 并 且 损 坏 指纹 仓库 
了 ; 还 需要 有 一 个 中 央 控 制 模块 来 实现 Dedup 的 主 控 。 如 图 18-48 所 示 
为 笔者 自行 演绎 出 来 的 Dedup 模 块 架构 图 。 


整个 Dedup 模 块 的 作用 原理 如 下 : 当初 次 安装 这 个 Dedup 模 块 之 
后 ，Dedup 模 块 便 在 系统 后 台 运 行 ，Main Control Module 根 据 设 定 的 策 
略 ， 从 一 个 时 间 点 开始 调用 IO Thread 模 块 依次 读 出 LUN 内 的 所 有 
Block (Block 可 以 认为 设 定 粒度 ， 比 如 4KB、64KB、1024KB 等 ) 并 传 
递 给 Hash Handler 模 块 来 计算 Hash 值 ， 算 好 的 Hash 值 会 写 入 Hash 
Fingerprints Repository 中 对 应 Block 的 Slot 存放 备查 。 主 模块 会 按照 一 个 
方向 从 LUN 中 读 出 Block 计 算 ， 但 是 如 果 T1 时 刻 计算 完 Block n 之 后 ， 
某 用 户 程序 或 者 其 他 任何 上 层 程 序 向 任何 小 于 等 于 Block n 的 最 后 LBA 
地 址 或 者 发 起 写 IO 的 话 ， 那 么 之 前 所 计算 的 Hash 值 就 会 作废 无 效 ， 
为 对 应 的 Block 已 经 被 新 数据 所 履 盖 了 ， 需 要 随后 重新 读 出 这 个 Block 
重新 计算 Hash。 


为 了 解决 这 个 问题 ， 需 要 维护 一 个 Delay Block Bitmap 来 记录 当 上 
一 次 全 LUN 扫 描 开 始 之 后 到 当前 位 置 ， 这 期 间 系 统 针对 这 段位 置 所 发 
生 的 写 IO 所 对 应 的 Block 的 位 置 ， 将 其 在 Bitmap 中 置 1。 根 据 这 个 
Bitmap ，Dedup 模 块 就 会 知道 指纹 仓库 中 哪些 Block 的 指纹 是 无 效 的 
了 。 初 次 全 LUN 扫 描 完 之 后 ， 指 纹 仓 库 中 会 积累 相当 数量 的 有 效 指 
纹 ， 利 用 这 些 有 效 指纹 ，Dedup 模 块 开 始 做 真正 的 Dedup 过 程 。 


真正 的 Dedup 过 程 包含 以 下 4 个 动作 。 


(1) Dedup 主 模块 需要 处 理 上 层 源 源 不 断 发 生 的 写 IO ，Filter 
Driver 实 时 监测 写 IO ， 对 于 符合 条 件 的 写 IO ， 在 将 其 透 传 到 下 层 的 同 
时 ， 会 复制 一 份 将 其 传递 给 Dedup 主 模块 ，Dedup 主 模块 会 实时 地 针对 
每 个 接收 到 的 写 IO 计 算 Hash 值 并 且 存 储 到 指纹 仓库 中 对 应 的 Slot 中 ， 
并 且 在 Delay Block Bitmap 中 将 对 应 的 位 置 0。 这 样 就 不 会 漏 下 每 一 个 
写 IO， 至 此 ，Delay Block Bitmap 中 被 置 1 的 位 不 会 再 继续 增加 了 。 如 
果 因 为 各 种 原因 Dedup 模 块 工作 异常 或 者 由 于 各 种 限制 条 件 比如 CPU 
负载 过 高 等 ，Dedup 引 擎 暂停 工作 ， 那 么 每 个 写 IO 并 不 会 实时 地 被 计 
算 成 Hash 值 ， 而 引擎 转 而 向 Dealy Block Bitmap 中 记录 这 些 写 IO 的 位 
置 ， 在 系统 不 忙 或 者 引擎 开始 工作 时 根据 Bitmap 来 读 出 这 些 Block 并 计 
算 Hash。 


(2) Dedup 主 模块 还 需要 在 后 台 查 找 指纹 仓库 中 重合 的 指纹 ， 一 
旦 找到 ， 便 会 对 所 有 重复 的 Block 生 成 一 个 指针 并 且 保 存在 On Disk 
Pointer List 中 。 这 个 动作 交 给 Block Mapping Metadata Handler 处 理 。 这 
个 过 程 是 真正 的 数据 消 重 过 程 ， 也 是 比较 耗费 计算 资产 的 过 程 ， 所 以 
需要 考虑 到 系统 当前 的 CPU 负载 ， 根 据 所 设 定 的 处 理 力 度 进 行 处 理 。 
这 个 步骤 可 能 有 人 有 疑问 ， 为 何 引 擎 不 去 删除 磁盘 上 的 见 余 Block 呢 ? 
这 个 疑问 保留 在 下 文中 解释 。 


(3) 针对 Delay Block Bitmap 中 仍然 被 置 1 的 Block， 从 LUN 中 读 
入 这 些 Block， 计 算 Hash 值 存 入 指纹 仓库 ， 并 将 对 应 的 位 置 回 0)， 当 所 
有 位 都 被 置 0 后 ， 表 示 当 前 的 指纹 仓库 中 针对 所 有 Block 的 指纹 全 部 都 
是 最 新 的 了 。 


(4) 由 于 每 一 个 写 IO 都 会 被 写 入 存储 介质 中 ， 所 以 对 于 每 个 读 
IO，Filter Driver 会 直接 透 传 到 下 层 驱 动 从 读 IO 的 目标 地 址 读 入 数据 并 


且 返 回 给 上 层 。 这 个 步骤 可 能 有 人 也 会 有 疑问 ， 如 果 每 个 写 IO 都 被 写 
入 介质 ， 哪 里 能 体现 剩余 空间 增加 了 ? 这 个 疑问 一 并 留 作 下 文 解释 。 


这 4 个 动作 不 断 地 循环 执行 ， 当 然 ， 需 要 注意 线程 时 序 逻 辑 竞争 的 
情况 ， 避 免 其 发 生 。 图 18-48 中 椭圆 形 组 件 表示 其 为 一 个 数据 结构 ， 保 
存在 LUN 固 定位 置 中 ， 但 是 Dedup 模 块 执行 时 会 将 这 些 数据 全 部 或 部 
分 地 载 入 内 存 以 加 快 处 理 速度 。 


对 于 操作 系统 所 在 的 LUN， 主 机 端的 Dedup 模 块 无 能 为 力 ， 因 为 
主机 操作 系统 启动 过 程 中 难免 会 对 一 些 Block 有 写 入 动作 ， 而 此 时 
Dedup 模 块 尚未 加 载 ， 所 以 此 时 指纹 仓库 中 对 应 的 Block 指 纹 已 经 无 
效 ， 但 是 Dedup 模 块 却 无 法 感知 这 种 无 效 ， 所 以 每 次 重启 ，Dedup 模 块 
就 需要 重新 来 一 遍 全 LUN 扫 描 重 新 生成 指纹 仓库 ， 得 不 偿 失 。 所 以 不 
能 够 针对 操作 系统 所 在 的 LUN 进 行 Dedup 操 作 ， 要 想 实现 ， 必 须 使 用 
存储 端 Dedup 模 块 〈 见 下 文 ) 。 


对 于 LUN 与 LUN 之 间 的 数据 消 重 ， 就 需要 Dedup 模 块 以 所 有 LUN 
中 的 指纹 仓库 作为 一 个 全 局 的 查找 对 象 ， 一 个 LUN 中 的 Block 如 果 与 另 
一 个 LUN 中 的 Block 内 容 相同 ， 则 也 可 以 做 到 消 重 。 


Dedup 是 一 个 后 人 台 异 步 处 理 过 程 ， 它 所 带 来 的 效益 并 不 是 实时 就 
可 以 感觉 到 的 。 当 然 也 可 以 设计 成 实时 的 Dedup， 比 如 写 IO 进 入 后 必 
须 先 交 给 Dedup 模 块 进行 Dedup 处 理 ， 如 果 被 判断 为 重复 数据 ， 那 么 便 
会 将 实体 数据 写 入 后 端 磁 盘 。 这 样 做 有 一 定 的 风险 性 ， 如 果 写 IO 是 
Write Back 模 式 ， 那 么 Filter Driver 会 在 接收 到 IO 请 求 立即 返回 成 功 信 
号 给 上 层 ， 那 么 此 时 就 要 求 Dedup 模 块 必 须 有 某 种 机 制 来 保证 这 个 写 
IO 在 系统 故障 时 也 不 能 丢失 ， 而 对 于 主机 端的 Dedup 模 块 ， 唯 一 办 法 
还 是 要 将 其 先 写 入 磁盘 ， 或 者 日 志 链 中 暂 存 ， 所 以 依然 无 法 避免 磁盘 


IO， 与 其 这 样 ， 还 不 如 保持 后 台 异 步 方式 的 好 。 而 如 果 是 Write 
Through 模 式 ， 那 么 前 台 处 理 将 严重 增加 IO 延迟 ， 影 响 性 能 。 


提示 : 指纹 仓库 中 包含 有 很 多 的 Hash 值 ，Dedup 引 敬一 般 使 
用 Bloom Filter 算 法 来 快速 地 查找 当前 给 出 的 Hash 值 是 否 存在 
于 指纹 仓库 中 。Bloom Filter 算 法 本 身 需要 将 指纹 仓库 中 的 
Hash 值 本 身 再 次 做 一 系列 的 处 理 ， 这 其 中 包括 将 其 再 次 
Hash。 详 细 步 又 残 不 做 过 多 朱 述 了 。 


5.。 Dedup 的 分 类 


Dedup 的 设计 总 体 上 可 以 分 为 多 种 类 别 ， 作 用 于 不 同 层 次 、 目 标 
和 阶段 。 


1) In-Band/Out-Band Dedup 


所 谓 In-Band， 束 是 将 指纹 仓库 存放 在 与 所 要 Dedup 的 目标 实体 数 
据 所 在 的 相同 位 置 。 比 如 要 Dedup 某 主机 上 的 若干 LUN， 那 么 指纹 仓 
库 也 放 在 这 人 台 主 机 上 的 一 个 或 者 多 个 LUN 中 国定 位 置 ， 这 样 ， 有 多 少 
主机 需要 实现 Dedup， 就 有 多 少 份 指纹 仓库 存在 。 


所 谓 Out-Band， 就 是 将 整个 全 局 系统 内 的 所 有 主机 上 LUN 的 指纹 
保存 在 一 个 单独 地 点 ， 集 中 存放 ， 集 中 管理 。 主 机 上 的 Dedup5 引 擎 通 
过 网 络 与 这 个 指纹 仓库 通信 从 而 存 入 或 者 提取 指纹 。 由 于 Dedup 多 是 
百 台 异步 处 理 方 式 ， 所 以 外 部 网 络 所 引发 的 延迟 并 不 会 从 根本 上 影响 
一 段 时 间 内 的 Dedup 的 效率 。 


传统 设计 总 是 来 用 mm-Band 的 方式 ， 每 台 主 机 上 都 安装 一 个 独立 的 
Dedup5 引 擎 。 然 而 ， 这 只 是 第 一 步 。 有 没有 可 能 采用 一 个 集中 Dedup5 引 | 


和 擎 来 统一 管理 全 局 系统 内 的 所 有 主机 上 的 Dedup 操 作 呢 ? 答案 是 有 。 
如 图 18-49 所 示 为 将 Dedup 引 和 擎 全 外 置 之 后 的 彻底 Out-Band 模 式 架 构 。 


图 18-49 Dedup5 引 擎 全 外 置 ，Out-Band 


上 图 中 的 架构 是 一 个 Client/Server 架 构 ， 基 于 图 18-48 中 所 示 的 自 
演绎 的 Dedup 引 擎 架构 改造 。 原 本 运行 在 每 台 主 机 上 的 Dedup 引 擎 的 主 
干 组 件 全 部 被 外 置 到 一 台 单 独 的 Dedup 服 务 器 主机 上 ， 而 客户 端 主机 
上 只 安装 Filter Driver 和 一 个 用 于 与 Dedup 服 务 端 通信 的 Agent。 服务 端 
与 客户 端 之 间 通 过 某 种 网 络 来 通信 ， 由 于 Dedup 是 一 个 后 台 异 步 过 
程 ， 对 实时 IO 性 能 基本 上 影响 很 小 ， 所 以 这 个 网 络 采用 普通 千 兆 以 太 
网 即 可 。Dedup 服 务 端 为 每 个 加 入 Dedup 域 的 客户 端 主机 维护 各 自 的 
Metadata， 包 括 指纹 仓库 、Delay Block Bitmap 和 Pointer Listo 


对 于 每 个 主机 客户 端的 写 IO ， 会 被 客户 端 复制 一 份 通过 网 络 传送 
给 Dedup 服 务 端 进行 Hash 计 算 和 Dedup 处 理 以 及 Pointer List 更 新 。 所 
以 ， 这 个 网 络 上 的 流量 会 是 比较 大 的 ， 因 此 最 好 使 用 单独 的 网 卡 和 区 
换 机 而 不 要 与 前 端 交 换 机 混用 。 另 外 ， 向 服务 端 发 送 写 IO 数据 的 过 程 
对 客户 端 主机 的 原本 IO 性 能 影响 不 大 ， 但 部 署 时 需要 避免 这 块 网 卡 与 
客户 端 原本 的 IO 适配器 处 于 同一 个 主机 IO 总 线 上 。 


每 个 主机 客户 端的 读 IO 操作 都 需要 查找 Pointer List 用 以 确定 IO 的 
目标 地 址 所 落 入 的 Block 是 否 已 被 Dedup ， 如 果 尚 未 被 Dedup ， 那 么 
Filter Driver 就 会 透明 发 向 下 层 直 接 从 底层 磁盘 对 应 地 址 读 出 数据 ; 如 
果 已 经 被 Dedup， 那 么 Filter Driver 会 根据 Pointer List 中 的 产 副 本 所 在 地 
址 读 出 对 应 的 数据 部 分 。 但 是 在 上 图 所 示 的 这 种 彻底 Out-Band 模 式 
下 ， 每 个 主机 客户 端的 Pointer List 都 被 存储 在 Dedup 引 警 服务 器 上 ， 如 
果 每 次 读 IO 都 会 引发 一 个 向 外 Dedup 部 服务 端的 查询 请 求 ， 那 么 延迟 


将 会 是 非 澡 大 的 ， 严 重 影响 性 能 。 鉴 于 此 ， 可 以 将 Pointer List 缓 存在 
主机 客户 端 本 地 ， 由 Agent 负 责 维护 以 供 Filter Driver 直 接 查询 ， 避 免 通 
过 网 络 。 被 缓存 的 Pointer List 需 要 时 刻 保 持 最 新 ，Dedup 服 务 端 需要 实 
时 地 将 Pointer List 的 变更 推送 到 客户 端的 Agent 处 。 


2) 主机 端 /存储 端 /备份 介质 服务 器 端 Dedup 


与 其 大 动 干戈 地 在 主机 端 搞 什么 Im/Out-Band 架 构 设计 ， 不 如 干脆 
将 Dedup 引 警 全 部 放 入 存储 设备 之 内 来 运行 ， 主 机 端 不 需要 做 一 点 改 
动 ， 完 全 透明 访问 所 有 的 Dedup 过 的 LUN。 可 以 看 到 存储 端 Dedup 架 构 
与 主机 端 别 无 二 致 ， 因 为 存储 设备 本 质 上 也 是 主机 。 


图 18-50 所 示 的 架构 既 可 以 针对 Block 存 储 设备 ， 也 可 以 针对 NAS 
存储 设备 。 当 然 ， 在 NAS 上 也 可 以 实现 文件 层面 的 Single System Image 
模式 的 Dedup。 


图 18-50 ”存储 端 Dedup 引 擎 架构 示意 图 


另外 ， 也 可 以 将 Dedup 引 擎 放 到 备份 介质 服务 器 上 ， 所 有 客户 端 
的 数据 源源 不 断 地 被 传输 到 备份 介质 服务 器 上 ，Dedup 引 擎 对 这 些 备 
份 数据 进行 消 重 处 理 。 值 得 一 提 的 是 ， 备 份 介质 服务 器 上 的 Dedup5| 
和 擎 可 以 针对 不 同 的 备份 介质 选择 前 台 处 理 或 者 后 台 处 理 ， 详 见 下 文 。 


3) Online/Offline Dedup 


Online Dedup 是 指 被 Dedup 的 目标 数据 为 当前 的 应 用 系统 正在 访问 
的 数据 。 由 于 Dedup 过 程 对 目标 LUN 有 一 定额 外 的 IO 消耗 和 IO 延迟 ， 
包括 初始 化 Dedup 时 读 取 Block 进 行 Hash 计 算 的 过 程 以 及 针对 每 个 读 IO 


都 需要 额外 的 查询 Pointer List 的 步骤 ， 所 以 Online Dedup 对 生产 系统 的 
IO 性 能 有 一 部 分 影响 。 


Offline Dedup 针 对 的 Dedup 目 标 则 为 那些 已 经 脱离 在 线 业务 生产 系 
统 访问 的 离线 数据 ， 比 如 ， 备 份 之 后 的 数据 。 针 对 这 些 数 据 所 做 的 
Dedup 操 作 不 会 对 生产 系统 有 影响 。 


4) 局 部 /全 局 Dedup 


所 谓 局 部 Dedup 是 指 ，Dedup 引 擎 只 在 进入 的 某 段 数据 范围 内 做 
Dedup。 比 如 单位 时 间 内 有 一 串 128KB 字 符 进 入 ， 如 果 是 局 部 Dedup， 
则 引擎 会 将 这 128KB 数 据 分 割 成 比如 4KB 大 小 的 Block ， 算 出 每 个 
Block 的 Hash， 然 后 只 比 对 这 些 Block 之 间 有 没有 宛 余 数据 的 存在 ， 如 
果 有 ， 则 Dedup 其 中 见 余部 分 ， 只 写 入 唯一 的 数据 部 分 。 


所 谓 全 局 Dedup 是 指 ，Dedup 引 擎 会 对 进入 的 数据 切割 成 比如 4KB 
的 Block， 算 出 每 个 Block 的 Hash 之 后 ，Dedup5 引 警 会 去 系统 全 局 指纹 仓 
库 中 查找 匹配 的 指纹 ， 这 样 的 话 ， 去 重 比率 将 更 大 。 全 局 Dedup 的 另 
外 一 个 含义 是 ， 可 以 做 到 跨 设备 的 Dedup， 也 就 是 说 多 个 设备 共同 形 
成 一 个 大 的 存储 闻 ， 指 纹 仓库 存储 着 所 有 设备 上 的 数据 指纹 ， 实 现 跨 
设备 的 全 局 Dedup。 


局 部 Dedup 的 本 质 更 加 接近 于 压缩 ， 而 全 局 Dedup 才 是 真正 的 
Dedupo 


5) Pre-Process/Post-Process Dedup 


Pre-Process 意 即 前 台 处 理 ，Post-Process 则 表示 后 台 处 理 ; Pre- 
Process 又 被 称 为 In-Line Process ， Post-Process 又 被 称 为 Out-Line 


Process。 前 台 处 理 的 步骤 如 本 小 节 4 部 分 结尾 所 述 。 前 台 处 理 可 以 保 
证 系统 时 刻 处 于 完全 Dedup 状 态 ， 任 何 时 刻 系统 中 都 没有 元 余数 据 存 
在 ， 但 是 相应 地 它 也 增加 了 处 理 负 担 和 延迟 ， 对 Write Through 模 式 的 
与 性 能 有 严重 影响 。 


而 Post-Process， 即 后 台 异 步 处 理 ， 根 据 设 计 的 不 同 也 有 不 同 的 影 
响 。 比 如 某 种 设计 选择 完全 的 异步 处 理 ， 即 写 IO 在 进入 系统 时 ， 
Dedup 模 块 只 在 Delay Block Bitmap 中 记录 其 位 置 ， 而 不 计算 Hash 值 ， 
任 赁 它们 被 写 入 存储 介质 。 当 Dedup 引 擎 因为 某 个 条 件 被 触发 时 ， 比 
如 时 间 、 剩 余 空 间 等 ， 引 擎 将 根据 Bitmap 来 读 出 对 应 的 Block 并 且 计 算 
Hash， 然 后 进行 消 重 。 但 是 这 种 做 法 需要 耗费 额外 的 读 IO 消 耗 。 在 本 
小 节 4 部 分 中 的 首选 设计 方式 并 非 完全 异步 处 理 ， 其 步骤 中 有 一 定 的 同 
步 处 理 过 程 ， 即 每 进入 一 个 写 IO ，Dedup 实 时 地 计算 其 Hash 值 并 且 保 
存 到 指纹 仓库 ， 只 有 在 发 生 Dedup 引 擎 异常 或 者 系统 CPU 窗 盖 过 高 时 
才 转 为 异步 处 理 。 这 样 做 的 话 ， 指 纹 仓库 中 大 多 数 时 刻 都 是 最 新 的 指 
纹 ， 无 须 回 读 过 程 ， 任 何 时 候 Dedup 消 重子 功能 被 触发 ， 引 擎 只 需 
在 指纹 仓库 中 碍 找 相同 的 指纹 即 可 。 


综 上 所 述 ， 在 Online 的 数据 ， 总 是 应 当 使 用 Post-Process Dedup。 
对 于 Offline 数 据 ， 由 于 不 会 影响 生产 系统 性 能 ， 所 以 可 以 选择 使 用 Pre- 
Process。 一 个 典型 的 处 理 Offline 数 据 的 角色 就 是 备份 系统 中 的 介质 服 
务 器 ， 当 连接 到 介质 服务 器 的 存储 介质 为 物理 磁带 等 不 可 快速 随机 寻 
址 的 存储 介质 的 时 候 ， 采 用 后 台 Dedup 处 理 是 不 恰当 的 ， 此 时 只 能 在 
数据 被 写 入 磁带 之 前 进行 Dedup 处 理 。 这 方面 详情 见 下 文 分 析 。 


提示 : 以 上 的 类 别 划 分 于 不 同 层次 上 ， 每 个 类 别 之 间 可 以 互 
相 组 合 ， 比 如 “主机 端的 Out-Band 的 Offline 的 Post-Process 全 局 
的 Dedup”。 


6. Dedup 的 去 重 比率 影响 因素 


1) Block 大 小 的 影响 


毫 无 疑问 ，Block 粒 度 越 小 ， 发 图 18-51 不 同 Block 大 小 对 去 重 比率 的 影 
生 数 据 重复 的 几率 就 越 大 ， 去 重 比 兄 
率 就 越 高 。 如 图 18-51 所 示 ， 同 样 一 
段 数据 ， 如 果 按 照 Block=8KB 来 计算 一 个 Hash 值 的 话 ， 那 么 图 中 上 面 
的 两 个 Block 的 Hash 值 不 同 ， 则 这 两 个 块 任何 一 个 也 无 法 被 去 重 。 而 如 
果 Block 二 4KB， 那 么 其 中 的 就 有 一 个 Block 与 男 外 一 个 Block 发 生 重 
复 ， 其 中 一 个 就 可 以 被 删 掉 。 然 而 ， 取 得 高 比率 就 要 付出 维护 复杂 度 
增高 、 性 能 降低 的 代价 ， 识 轻 熟 重 ， 可 各 自 把 握 。 


2) Block 边 界 的 影响 


如 果 数 据 并 不 是 按照 图 18-51 中 图 18-52 ”边界 位 移 导 致 的 去 重 比率 降低 
所 示 的 那样 排列 ， 而 是 按照 图 18-52 
所 示 的 排列 方式 ， 而 且 又 不 加 以 特殊 处 理 的 话 ， 那 么 这 个 例子 的 去 重 
比率 就 是 0。 


上 图 左边 所 示 的 例子 中 ， 只 因为 Block 边 界 错 开 了 一 个 字符 ， 却 导 
致 这 段 数据 的 局 部 去 重 比率 为 0。 右 边 所 示 的 为 两 串 字 符 串 数据 ， 只 因 
为 首部 插入 一 个 字符 ， 导 致 不 管 Block Size 为 多 大 《除非 一 个 字符 的 粒 
度 ) ， 这 个 全 局 的 Dedup 比 率 也 为 0。 


这 种 问题 是 现实 中 很 有 可 能 发 生 的 ， 比 如 用 户 在 某 个 文档 中 插入 
一 个 字符 ， 然 后 另存 成 一 份 新 文档 ， 那 么 这 个 新 文档 对 应 的 底层 Block 
内 容 全 部 前 移 一 个 字符 ， 新 文档 和 旧 文 档 虽然 只 差 一 个 字符 ， 但 是 传 
统 的 Dedup 却 无 能 为 力 。 


为 了 解决 这 个 问题 ， 一 些 广 商 实 现 了 位 移 技 术 ， 即 针对 待 处 理 的 
效 据 ， 先 从 二 进 制 流 上 进行 简单 抽样 比较 以 确定 是 否 发 生 了 这 种 位 移 
现象 ， 通 过 比 对 结果 确定 发 生 位 移 的 偏 移 量 ， 然 后 使 用 特殊 的 处 理 方 
法 ， 截 掉 首 部 插入 导致 整体 位 移 的 数据 段 ， 单 独 存放 并 且 记 录 特殊 的 
元 数据 信息 ， 剩 余 的 数据 部 分 再 按照 常规 的 分 块 计算 Hash 然 后 Dedup 
处 理 。 在 提取 数据 时 ， 按 照 当 初 存放 的 元 数据 信息 以 及 截取 的 数据 段 
以 及 唯一 Block 副 本 共同 组 合 还 原 成 原来 的 数据 。 


实现 这 种 可 变 长 度 时 的 算法 都 是 有 固定 模式 的 ， 各 个 厂商 可 能 使 
用 的 算法 大 同 小 异 。 基 本 上 都 是 按照 某 窗口 对 目标 数据 进行 扫描 ， 比 
如 首先 错位 1 字 节 ， 如 果 没 有 发 现 风 余 块 ， 则 错位 2 字 节 扫描 ， 依 此 类 
推 ， 直 到 错位 到 一 个 最 大 窗口 ， 比 如 16 字 节 ， 之 后 如 果 还 没 发 现 一 定 
比例 的 宛 余 块 ， 则 放弃 这 次 扫描 ， 认 为 其 无 见 余 。 


这 种 方法 目前 被 厂商 称 为 “可 变 长 度 ” 的 Dedup 技 术 。 传 统 的 方法 
被 称 为 “固定 长 度 ” 的 Dedup 技 术 。 可 变 长 度 Dedup 技 术 只 对 局 部 Dedup 
有 效 ， 因 为 全 局 Dedup 的 情况 下 ， 要 进行 边界 位 移 ， 就 必须 提前 感知 
到 当前 进入 的 数据 与 已 经 存储 的 数据 中 的 哪些 是 重复 的 以 判断 在 哪里 
位 移 ， 而 这 是 不 可 能 的 。 


7。 深 刻 理 解 Dedup 的 作用 层次 ， 真 的 Dedup 了 人 么 


现在 是 解释 本 小 节 4 部 分 中 的 疑问 的 时 候 了 。 我 们 要 时 刻 牢记 ， 
Dedup 是 为 了 什么 而 生 的 呢 ? 当然 是 为 了 节省 底层 存储 空间 ， 可 以 把 
节省 出 来 的 空间 再 利用 而 生 的 。 那 么 也 就 是 说 ， 如 果 不 能 够 节省 出 底 
层 空 间 ， 或 者 节省 出 来 的 空间 并 不 能 够 再 利用 ， 那 么 所 做 的 任何 事 
情 、 任 何 技术 、 任 何 设计 ， 都 将 是 没有 意义 的 。 


回顾 本 小 节 4 部 分 中 的 几 个 Dedup 步 又。 当 Dedup 引 擎 在 指纹 仓库 
中 找到 相同 指纹 之 后 ， 它 不 去 磁盘 上 将 元 余 的 Block 抹 掉 ， 而 只 是 将 这 
个 信息 更 新 到 Pointer List 中 。 有 人 会 有 疑问 ， 如 果 某 个 Block 被 Dedup 
了 ， 难 道 不 需要 去 数据 卷 中 对 应 的 位 置 将 其 标记 为 指针 么 ? 而 见 余 
Block 依 然 处 于 卷 中 未 被 删除 ， 那 么 怎么 会 节省 出 空间 来 呢 ? 其 实 抱 有 
这 个 疑问 的 人 尚未 理解 一 个 基本 原则 : 在 主机 上 ， 是 谁 来 最 终 决 定 
LUN 的 剩余 空间 ? 这 个 问题 在 本 书 中 曾经 不 止 一 次 提 到 过 ，LUN 一 层 
根本 无 法 感知 文件 系统 的 剩余 空间 ， 所 以 ， 即 便 是 LUN 中 的 见 余 的 块 
被 Dedup 了 ， 但 是 这 种 Dedup 之 后 所 节省 的 空间 ， 也 只 是 由 Dedup 引 擎 
自己 知道 (通过 统计 Pointer List 中 的 条 目 ) 。 但 是 上 层 的 文件 系统 已 
经 认为 这 个 块 被 某 文件 占用 了 ， 所 以 不 会 把 它 当 做 剩余 空间 来 对 待 ， 
也 就 是 说 ， 你 只 能 眼睁睁 地 看 着 实际 的 节省 出 来 的 空间 不 能 够 被 文件 
系统 使 用 。 这 么 说 ，Dedup 根 本 没 意 义 了 ? Dedup 不 是 应 该 节省 出 一 部 
分 数据 空间 的 么 ? 先 别 急 。 


结论 1: 任何 不 能 被 文件 系统 感知 到 的 回收 的 空间 ， 对 于 这 
个 文件 系统 来 讲 是 没有 意义 的 。 同 样 是 回收 空间 ， 但 是 De- 
Provision 的 做 法 与 块 级 Dedup 有 着 本 质 不 同 。De-Provision 是 
运行 在 存储 端的 ， 它 使 用 某 种 方法 将 主机 端 文件 系统 中 的 剩 
余 空间 映射 到 LUN， 在 LUN 所 占据 的 对 应 的 这 块 空间 上 “ 打 
孔 ”， 也 就 是 *Hole Punching”， 这 些 孔 洞 就 变 成 了 剩余 空间 ， 
那么 同一 个 存储 设备 上 的 其 他 已 经 存在 的 Thin LUN 需 要 占据 
空间 时 ， 就 可 以 利用 这 些 空间 ， 而 也 可 以 在 存储 端 利用 这 些 
空间 创建 新 的 Thin LUN ， 甚 至 常规 LUN 。 De-Provision 与 
Thin-Provision 紧 密 结合 起 来 达到 共生 。 


不 知道 大 家 现在 是 否 看 出 一 点 端倪 来 ， 仔 细 思 考 一 下 个 中 关系 。 
怎样 才能 使 主机 端的 块 级 Dedup 变 得 有 意义 呢 ? 答案 是 ， 要 么 老 老实 
实地 让 文件 系统 感知 到 剩余 空间 的 变化 ， 要 么 就 让 主机 端 块 级 Dedup 
实现 与 存储 端 块 级 Dedup 类 似 的 功能 。 


方法 1: 让 主机 端 文件 系统 感知 到 空间 的 节省 。 你 会 发 现 ， 
对 于 块 级 Dedup 来 讲 ， 这 种 方法 永远 行 不 通 。 为 何 呢 ? 因为 
块 级 Dedup 根 本 没有 考虑 一 点 点 FS 层 的 人 逻辑， 它 与 De- 
Provision 的 本 质 是 不 同 的 。 所 以 ， 文 件 系 统 始 终 认 为 底层 被 
Dedup 的 块 是 有 文件 在 占据 的 。 但 是 对 于 文件 级 别 的 Dedup， 
比如 SIS， 是 完全 可 以 做 到 的 ，SIS 会 作用 在 文件 级 ， 会 将 文 
件 中 宛 余 的 数据 切 掉 ， 而 文件 的 元 数据 中 的 文件 长 度 保 持 不 
变 ， 但 是 底层 占用 空间 却 变 了 ， 这 些 修改 都 可 以 被 文件 系统 
感知 到 ， 所 以 剩余 空间 也 就 增 大 了 。 当 文件 系统 发 起 对 文件 
中 被 Dedup 的 内 容 访问 的 时 候 ，SIS 的 底层 过 滤 驱 动 会 截获 对 
应 的 访问 IO 请 求 并 且 读 出 唯一 副本 并 返回 给 上 层 。 

方法 2: 模仿 主机 端 对 LUN 的 管理 和 Thin/De-Provision。 毫 无 
疑问 ， 要 做 到 此 ， 就 需要 在 主机 端的 LUN 之 上 再 建立 一 层 空 
间 管 理 层 ， 也 就 是 卷 管理 层 ， 在 卷 管理 层 之 内 实现 对 LUN 之 
上 的 卷 的 Dedup 而 不 是 对 LUN 来 Dedup。 这 样 做 了 之 后 ， 卷 管 
理 层 便 会 感知 到 哪些 卷 实 际 占用 了 多 少 物理 空间 ， 而 节省 出 
来 的 LUN 中 的 空间 便 可 以 建立 其 他 的 新 卷 。 当 然 ， 如 果 在 这 
个 卷 管理 层 内 同时 实现 Dedup、Thin/De-Provision 的 话 ， 那 么 
其 节省 的 空间 将 会 更 多 ， 存 储 利用 率 将 会 更 高 ! 

提示 : ZFS 既 是 一 个 LUN/ 卷 管理 层 又 是 一 个 文件 系统 ， 它 相 
当 于 把 外 部 智能 存储 设备 具有 的 功能 集成 到 了 主机 之 内 ， 类 


似 于 Symantec Storage Foundation。ZFS 对 LUN 的 管理 是 非常 
灵活 的 。 并 且 ZFS 已 经 实现 了 卷 级 别 的 Dedup。 

结论 2: 一 切 在 主机 端 运 行 的 、 块 级 的 、 针 对 LUN 的 Dedup， 
根本 无 法 达到 节省 和 利用 底层 存储 空间 的 目的 。 


那么 主机 端 针 对 LUN 的 块 级 Dedup 是 否 完 全 没有 意义 了 呢 ? 非 
也 。 比 如 ， 在 备份 这 个 LUN 的 时 候 ， 主 机 端 就 可 以 不 备份 被 Dedup 的 
Block， 节 省 备份 数据 的 存储 空间 。 如 果 备 份 是 通过 网 络 将 数据 传送 给 
备份 介质 服务 器 的 ， 那 么 还 可 以 大 大 降低 传送 的 数据 数量 ， 降 低 备 份 
所 需 的 时 间 。 


结论 3: 主机 端 块 级 的 、 针 对 LUN 的 Dedup， 只 有 在 备份 整个 
LUN 时 才 会 表现 出 节省 传输 数据 总 量 、 降 低 备份 窗口 的 作用 
和 意义 。 


综 上 所 述 ， 块 级 的 Dedup 最 好 是 直接 作用 在 最 终 的 存储 端 ， 因 为 
我 们 最 终 要 节省 的 就 是 物理 磁盘 的 空间 ， 而 物理 磁盘 直接 归 存 储 设备 
管理 ， 所 以 没有 理由 不 在 存储 端 来 实现 Dedup。 然 而 ， 数 据 存储 技术 
不 但 包含 如 何 存储 数据 ， 还 包含 数据 在 系统 中 的 传输 ， 比 如 网 络 数据 
备份 系统 。 


8. 网 络 数据 备份 子 系统 中 的 Dedup 


不 管 是 否 是 Frontend-Free 模 式 的 备份 ， 既 然 要 备份 ， 那 么 一 定 牵 
扯 到 数据 从 源流 向 目的 ， 而 目的 就 是 备份 介质 服务 器 ， 备 份 介质 服务 
器 再 将 接收 到 的 待 备份 数据 写 入 底层 的 备份 介质 ， 比 如 磁盘 、 磁 带 
等 。 所 以 ,不管 是 哪 一 层 的 Free， 数 据 传输 过 程 总 是 无 法 避免 的 。 而 


如 果 需 要 备份 的 数据 中 包含 了 很 多 多余 的 内 容 ， 那 么 在 传输 的 时 候 就 
会 产生 沪 费 ， 增 加 了 额外 不 必要 的 数据 传输 时 间 。 


而 如 果 在 数据 传输 之 前 ， 将 待 备份 的 数据 进行 Dedup 操 作 ， 在 传 
输 过 程 中 只 传输 唯一 的 数据 副本 以 及 对 应 的 Pointer List 等 Metadata， 那 
么 就 会 大 大 降低 需要 传送 的 数据 数量 ， 就 像 上 一 节 中 的 结论 3 所 指出 的 
那样 。 当 然 ， 结 论 3 中 指出 的 在 主机 端 实现 LUN 的 Dedup 在 备份 时 会 发 
生效 果 ， 但 是 这 必须 要 求 Dedup 引 擎 与 备份 恢复 系统 配合 ， 比 如 备份 
服务 器 发 起 备份 操作 时 ，Dedup 引 擎 必须 介入 ， 否 则 的 话 将 会 以 传统 
方式 备份 带 有 宛 余 的 数据 的 整个 LUN。 所 以 ， 在 实际 产品 中 ，Dedup 
模块 一 般 都 是 作为 备份 软件 的 一 个 子 模块 来 存在 的 ， 安 装 在 客户 主机 
2 


然而 ， 很 省 有 直接 备份 整个 LUN 的 ， 大 多 都 是 备份 文件 ， 所 以 此 
时 主机 上 的 SIS 模 块 便 可 以 与 备份 系统 相配 合 。 


也 不 一 定 非 要 在 主机 端 实现 Dedup， 有 了 时候 宁愿 牺牲 一 些 数据 传 
输 时 间 ， 也 不 希望 客户 主机 过 多 的 介入 从 而 影响 主机 性 能 。 此 时 ， 就 
可 以 在 备份 数据 离开 客户 端 主机 的 下 一 站 ， 也 就 是 备份 介质 服务 器 处 
进行 Dedup 操 作 ， 这 样 的 话 ， 数 据 到 了 备份 介质 服务 器 之 后 都 将 被 存 
储 为 一 个 打包 的 映像 文件 ， 所 以 也 就 不 必 考 虑 文件 级 还 是 块 级 了 ， 统 
一 使 用 块 级 Dedup 以 提高 去 重 比率 。 在 介质 服务 器 上 实现 Dedup 可 以 有 
两 种 选择 : 前 台 Dedup 和 后 台 Dedup。 


如 果 备 份 介质 为 磁带 ， 则 必须 以 前 人 台 的 方式 来 实现 Dedup ， 因 为 
磁带 是 非 高 速 随机 寻 址 介质 ， 不 适合 后 台 的 Dedup。 在 前 台 Dedup 过 程 
中 ， 可 以 采用 局 部 和 全 局 两 种 模式 的 Dedup。 如 果 采 用 局 部 模式 ， 则 
介质 服务 器 上 的 Dedup 引 擎 对 接收 进来 的 数据 实时 切割 成 Block 然 后 计 


算 Hash 值 并 存储 到 指纹 仓库 中 存放 ， 第 一 个 Block 无 条 件 直接 写 入 介 
贡 ， 第 二 个 Block 进 入 后 先 计 算 其 Hash 值 并 且 与 已 经 存在 的 指纹 进行 比 
较 ， 如 果 匹 配 ， 那 恰好 不 用 与 入 介质 ， 只 需要 将 这 条 匹配 信息 记录 在 
Pointer List 中 即 可 ， 后 续 的 Block 的 处 理 以 此 类 推 。 这 样 ， 就 可 以 针对 
这 个 备份 流 自 身 进 行 Dedup ， 也 就 是 局 部 Dedup。 如 果 采 用 全 局 的 
Dedup 方 式 ， 则 介质 服务 器 上 的 Dedup 引 擎 对 接收 进来 的 数据 计算 Hash 
值 后 ， 会 将 这 个 Hash 值 与 之 前 曾经 被 备份 过 的 数据 对 应 的 指纹 仓库 中 
的 Hash 值 进行 比较 从 而 Dedup ， 也 就 是 说 进入 的 数据 在 全 局 范围 内 是 
没有 宛 余 的 ， 但 是 全 局 模式 对 Dedup 引 擎 的 效率 以 及 介质 服务 器 的 处 
理 能 力 要 求 比 局 部 模式 要 高 。 


介质 服务 器 都 有 本 地 的 硬盘 ， 所 以 也 可 以 先 将 备份 数据 流 暂 存在 
本 地 硬盘 的 某 处 作为 缓冲 ， 然 后 Dedup 引 擎 后 台 处 理 ， 之 后 写 入 磁 
带 ， 也 就 是 使 用 D2D2T 方 式 。 前 台 操 作 可 能 会 让 系统 应 接 不 上 暇 ， 降 低 
整体 性 能 。 另 外 ， 操 作 磁 带 设备 与 操作 磁盘 设备 相 比 ， 会 耗费 更 多 的 
CPU 周期 ， 所 以 前 台 Dedup 处 理 ， 同 时 后 台 还 要 写 入 磁带 ， 系 统 整体 
性 能 将 会 非常 低下 。 因 此 D2D2T 的 方式 是 Dedup 应 当 采 用 的 方式 。 


如 果 备份 介质 为 磁盘 或 者 基于 磁盘 虚拟 出 来 的 磁带 (VTL) ， 则 
可 以 采用 后 台 Dedup 方 式 ， 因 为 此 时 可 以 快速 地 定位 和 读 出 需要 的 
Block。 在 这 种 模式 下 ， 介 质 服务 器 首先 将 收 到 的 数据 流 按照 常规 方式 
直接 写 入 磁盘 或 者 VTL。 当 Dedup 引 擎 触发 时 ， 再 从 对 应 的 目标 将 数 
据 读 出 计算 Hash 并 且 做 Dedup 处 理 ， 然 后 再 写 到 新 的 介质 空间 ， 原 有 
的 备份 数据 集 删除 以 腾 出 空间 。 


在 进行 数据 恢复 时 ， 介 质 服务 器 上 的 Dedup 引 筝 必须 介入 ， 从 所 
记录 的 Pointer List 以 及 数据 唯一 副本 ， 共 同 生成 一 份 完整 的 数据 ， 然 
后 恢复 到 客户 端 主 机 上 。 


当然 ， 也 不 一 定 非 要 在 介质 服务 器 上 实现 Dedup。 在 外 部 备份 存 
储 介质 设备 中 比如 磁盘 阵列 、 磁 带 库 、VTL 上 一 样 也 可 以 实现 
Dedup， 这 里 便 是 数据 的 最 终归 属地 了 。 在 这 两 处 实现 Dedup， 其 本 质 
原理 都 是 一 样 的 ， 所 以 束 不 做 过 多 介绍 了 。 


综 上 所 述 ，Dedup 与 备份 是 绝对 不 可 分 割 的 ，Dedup 在 数据 备份 恢 
复 的 时 候 能 够 起 到 重要 的 作用 。 另 外 ， 作 用 于 Online 存 储 系 统 上 的 
Dedup 可 以 节省 存储 空间 的 浪费 ， 腾 出 空间 以 做 它 用 ， 也 是 Dedup 发 挥 
重要 作用 的 一 处 。 


9。Dedup 思 想 的 其 他 应 用 


增 量 备份 、 差 量 备份 ， 通 常 是 在 应 用 程序 层 来 控制 的 ， 应 用 程序 
来 负责 备份 它 所 操作 的 文件 以 及 记录 每 次 备份 的 时 间 点 以 及 文件 所 变 
化 的 部 分 。 备 份 软件 在 这 里 起 到 的 作用 只 是 配合 应 用 程序 将 其 生成 的 
数据 流 导 向 存储 介质 中 保存 ， 同 时 管理 和 维护 存储 介质 ， 以 及 制定 备 
份 任务 计划 等 功能 。 当 然 ， 备 份 软件 也 可 以 直接 将 整个 LUN 备 份 下 
来 。 


然而 ， 备 份 软件 自身 如 何 能 够 实现 LUN 级 别 的 增 量 或 者 差 量 备份 
呢 ? 备份 软件 虽然 不 能 够 感知 各 种 应 用 程序 所 生成 的 文件 中 变化 的 内 
容 部 分 ， 但 是 它 可 以 记录 底层 的 Block 变 化 ， 将 上 一 次 备份 整个 LUN 之 
后 ， 这 个 LUN 中 所 发 生 的 所 有 写 IO 对 应 的 Block， 按 照 位 置 记录 在 一 个 
Bitmap 中 。 下 次 触发 备份 时 可 以 只 将 Bitmap 中 被 置 1 的 Block 备 份 下 来 
即 可 ， 这 样 就 实现 了 差 量 备份 。 


如 果 要 实现 增 量 备份 ， 则 可 以 将 上 一 次 的 Bitmap 封 存 ， 新 建 一 份 
空 Bitmap 来 保存 自 上 一 次 差 量 或 增 量 备份 之 后 LUN 中 变化 的 Block， 当 


再 次 触发 增 量 备份 时 ， 将 这 份 新 Bitmap 中 被 置 1 的 位 对 应 的 Block 备 份 
下 来 ， 并 封存 此 Bitmap ， 创 建新 Bitmap， 依 此 类 推 。 在 进行 恢复 时 ， 
会 根据 需要 恢复 的 备份 点 ， 将 这 个 备份 点 之 前 的 所 有 Bitmap 做 一 个 OR 
操作 ， 合 成 一 份 完整 反映 需要 恢复 的 Block 的 Bitmap， 然 后 首先 将 初次 
全 备份 的 数据 覆盖 到 目标 上 ， 再 根据 这 份 完整 Bitmnap 和 每 次 增 量 所 备 
份 的 Block 集 ， 提 取 对 应 的 Block 然 后 覆盖 到 目标 对 应 的 Block 位 置 上 。 
这 种 方法 可 以 大 大 减少 每 次 需要 备份 的 数据 量 ， 但 是 却 不 能 减少 每 次 
恢复 时 所 恢复 的 数据 量 。 


上 面 的 做 法 可 以 从 一 定 程度 上 消除 一 些 不 必要 的 数据 块 的 恢复 ， 
但 是 并 不 能 彻底 杜绝 传输 一 些 不 必要 的 见 余 数据 块 ， 因 为 备份 软件 是 
无 法 感知 到 多 次 增 量 备份 的 数据 块 是 否 有 元 余数 据 存 在 。 如 果 待 恢复 
的 目标 处 已 经 存在 对 应 的 数据 ， 比 如 某 个 LUN， 由 于 用 户 误 对 LUN 进 
行 了 格式 化 操作 导致 数据 丢失 ， 需 要 恢复 ， 那 么 这 个 LUN 会 被 从 备份 
介质 中 完全 读 出 并 且 覆 盖 ， 纵 使 当前 损坏 的 LUN 中 数据 几乎 与 待 恢复 
的 数据 相同 (格式 化 只 是 抹 掉 初 始 文 件 系 统 入 口 之 后 新 创建 一 个 而 
已 ) ， 所 以 ， 这 就 会 产生 资源 浪费 。 如 果 数 据 是 通过 网 络 进 行 传输 
的 ， 那 么 传输 多 余 的 数据 块 就 会 增加 不 少 恢复 时 间 ， 增 加 RTO。 


如 果 用 Dedup 的 思想 ， 在 进行 恢复 之 前 ， 先 对 待 被 覆盖 的 数据 和 
待 恢 复 的 数据 各 自 计 算 Hash， 通 过 比 对 找 出 相同 的 Hash， 然 后 只 覆盖 
有 差别 的 Block， 这 样 的 话 ， 在 一 些 情况 下 (比如 上 面 的 格式 化 例 
子 ) ， 将 会 大 大 降低 RTO。 某 些 产品 已 经 可 以 实现 这 个 功能 ， 称 为 基 
于 Hash 的 增 量 恢复 。 


Dedup 技 术 也 可 以 帮助 在 数据 容 灾 过 程 中 降低 需要 传送 的 数据 的 
整体 数量 ， 比 如 对 某 个 待 传输 到 灾 备 站 点 的 数据 流 ， 可 以 对 其 做 局 部 
Dedup 处 理 ? 大 大 减少 元 余数 据 的 发 送 。 


10. Dedup 功 能 在 产品 中 的 能 入 和 表现 形式 


上 文中 曾经 描述 过 ， 数 据 存储 技术 包含 如 何 存储 数据 以 及 如 何 传 
前 数据 。 那 么 Dedup 束 可 以 作用 在 数据 的 存储 点 ， 也 可 以 作用 在 数据 
传输 的 通路 上 。 前 者 的 模式 在 上 文中 已 经 有 很 多 描述 。 对 于 后 者 的 模 
式 ， 则 可 以 在 数据 传输 通路 中 设置 一 个 网 天 ， 在 这 个 网 关 设 备 上 部 署 
Dedup 模 块 ， 任 何 通 过 这 个 网 关 的 数据 流 都 被 Deudp 了， 前 端的 尖 涌 大 
河 ， 被 Dedup 了 之 后 就 变 成 了 涓涓 细 流 。 细 流 的 尽头 是 备份 介质 服务 
器 ， 介 质 服 务 器 将 细 流 写 入 慢 速 的 磁带 来 保存 。 这 个 关口 大 大 降低 了 
后 端 介质 服务 器 需要 写 入 的 数据 量 ， 降 低 了 备份 窗口 。 


目前 的 Dedup 产 品 ， 有 些 运 行 在 主机 端 以 降低 备份 时 所 需要 传输 
的 数据 量 ， 有 些 运行 在 存储 端 以 达到 蔬 省 空间 的 目的 ， 有 些 运行 在 数 
据 传 输 的 通路 中 来 消除 见 余数 据 ， 有 些 运行 在 介质 服务 器 上 来 降低 写 
入 后 端 介质 的 数据 量 ， 有 些 则 运行 在 数据 的 最 终归 宿 一 一 磁带 或 者 
VTL 上 ， 对 数据 做 最 后 的 Dedup。 


11。 Dedup 存 在 的 问题 和 风险 


Hash 冲 突 当然 是 第 一 大 风险 。 第 二 大 风险 就 是 数据 没有 宛 余 ， 一 
旦 源 副 本 受 损 ， 则 一 损 俱 损 。 但 是 对 于 第 二 个 问题 ， 如 果 Dedup 用 于 
Online 数 据 中 ， 那 么 确实 会 有 这 种 风险 。 但 是 如 果 针 对 于 Offline 的 备 
份 数 据 ， 那 么 似乎 并 不 是 一 个 真正 的 问题 ， 因 为 备份 已 经 是 Online 数 
据 的 见 余 ， 虽 然 见 余 一 份 相 比 宛 余 多 份 来 讲 保险 系数 要 低 ， 但 是 源 副 
本 受 损 ， 很 大 程度 上 是 因为 整个 介质 受 损 ， 这 样 看 来 ， 一 损 俱 损 也 是 
逃 不 过 的 。 


Dedup 对 数据 IO 性 能 方面 有 一 定 影响 。 在 一 个 备份 系统 中 ， 在 没 
有 引入 Dedup 之 前 ， 所 备份 的 数据 都 是 实 实在 在 的 物理 数据 ， 每 次 备 
份 下 来 的 数据 基本 上 都 会 在 物理 位 置 上 被 连续 存放 。 而 一 旦 引入 了 
Dedup， 那 么 多 次 备份 的 数据 中 的 匈 余 数据 就 会 被 用 指针 替代， 那么 
就 会 产生 “孔洞 "， 使 得 本 来 物理 上 连续 的 数据 变 得 不 再 连 续 。 这 样 ， 
当 要 从 被 Dedup 之 后 的 数据 中 将 某 个 备份 集 读 出 来 的 时 候 ， 此 时 在 底 
层 就 属于 一 种 随机 IO 了 ， 有 时 候 从 Dedup 的 磁盘 介质 中 恢复 数据 的 过 
程 ， 甚 至 比 从 磁带 中 还 要 慢 。 这 种 效应 会 随 着 时 间 的 流逝 而 越 来 越 严 
重 ， 就 像 文 件 系 统 中 的 文件 人 寿 片 一 样 。 


Dedup 在 写 入 数据 的 时 候 基 本 上 有 两 种 方式 : reverse referencing 和 
forward referencing。 前 者 的 做 法 是 ， 当 在 系统 发 现 一 个 元 余数 据 块 
时 ， 系 统 会 保留 之 前 被 存储 的 旧 数 据 段 ， 同 时 在 旧 数 据 段 处 写 入 一 个 
新 指针 ， 而 不 是 将 新 数据 写 入 磁盘 ; 后 者 的 做 法 是 ， 系 统 会 将 新 数据 
段 写 入 磁盘 的 连续 的 物理 位 置 上 ， 然 后 将 旧 数 据 删 除 同 时 将 旧 数 据 蔡 
换 成 一 个 指向 新 数据 段 的 指针 。 对 于 前 者 ， 也 就 是 不 断 为 新 的 见 余 数 
据 段 写 入 指针 的 做 法 ， 可 能 会 导致 最 新 的 数据 对 应 的 碎片 不 断 增 加 ; 
对 于 后 者 ， 也 就 是 系统 不 断 地 写 入 新 数据 而 删除 旧 数 据 同时 替代 为 指 
针 的 做 法 ， 则 可 能 会 使 最 新 备份 的 数据 物理 上 保持 连续 ， 但 是 旧 备 份 
对 应 的 数据 在 物理 上 却 变 得 越 来 越 随机 。 


为 涉及 到 更 大 的 磁盘 写 入 数据 流 ，forward referencing 模 式 如 果 
在 前 处 理 模式 的 重复 数据 删除 系统 中 使 用 的 话 ， 会 严重 影响 性 能 ， 所 
以 它 只 在 后 处 理 模式 的 重复 数据 删除 系统 中 使 用 ， 这 种 模式 的 数据 存 
储 方 式 可 以 让 最 新 的 备份 数据 恢复 起 来 更 快 ， 而 且 这 也 是 最 常见 的 情 
况 。 但 是 Forward referencing 模 式 却 会 引 来 额外 的 IO 开销 ， 比 如 它 不 但 


需要 将 见 余 的 数据 先 写 入 磁盘 而 不 是 写 指 针 ， 而 且 随 后 还 会 查找 旧 的 
多余 数据 进行 删除 操作 。 


除了 使 用 Forward referencing 模 式 来 确保 最 新 被 备份 的 数据 具有 和 较 
高 的 读 取 速度 之 外 ， 有 些 厂商 还 在 Dedup 系 统 内 实现 了 类 似 于 碎片 整 
理 的 操作 ， 或 者 有 些 厂 商 干 脆 对 最 新 一 次 的 备份 不 进行 任何 Dedup 操 
作 ， 以 确保 它 的 恢复 速度 。 


不 管 是 Thin、Tier， 还 是 Dedup， 其 实 它 们 都 是 很 早 就 已 在 其 他 领 
域 中 实现 的 技术 ， 如 今 这 些 技术 被 用 在 了 网 络 存储 领域 中 ， 来 回 翻 炒 
以 便 挖 掘 价 值 和 发 展 。 


12. Dedup 之 后 再 压缩 


为 了 获得 最 大 的 空间 节省 比率 ， 还 可 以 在 对 数据 进行 Dedup 处 理 
之 后 ， 再 次 进行 压缩 操作 。 有 人 可 能 会 不 太 明 白 ， 既 然 Dedup 的 节省 
效果 比 压缩 高 得 多 ， 那 么 为 何 Dedup 之 后 还 要 压缩 呢 ? 因为 正如 前 文 
所 述 ， 压 缩 有 一 定 的 窗口 ， 只 可 以 在 小 范围 数据 长 度 之 内 进行 数据 消 
重 ， 而 Dedup 则 可 以 在 更 大 的 范围 甚至 全 局 范围 内 实现 消 重 ， 但 是 它 
也 有 一 定 的 最 小 粒度 ， 比 如 4KB、16KB 等 ， 它 可 以 将 多 份 相同 内 容 的 
颗粒 进行 消 重 只 保留 一 份 ， 但 是 却 不 可 能 对 这 一 份 颗粒 内 部 的 元 余数 
据 再 进行 消 重 ， 那 么 此 时 传统 的 数据 压缩 算法 就 可 以 派 上 用 场 了 。 如 
果 目 标 数据 是 文本 等 元 余 度 较 大 的 类 型 ， 那 么 Dedup 之 后 再 压缩 ， 依 
然 可 以 获得 将 近 20%~30% 的 空间 节省 。 这 是 相当 可 观 的， 但 是 也 有 
一 个 最 大 劣势 ， 就 是 在 压缩 数据 时 以 及 读 取 时 的 解压 缩 过 程 中 ， 会 非 
常 耗 费 CPU 资 源 。 所 以 这 种 手段 一 般 常 用 在 VTL 等 备份 环境 中 ， 由 于 
传统 的 磁带 机 和 机 械 磁带 库 中 的 驱动 器 均 具 有 压缩 功能 ， 所 以 这 种 压 
缩 不 需要 额外 引入 第 三 方 模块 ， 但 是 对 于 VTL 来 讲 ， 就 必须 引入 一 个 


压缩 软件 模块 了 。 也 就 是 说 ， 一 台 VTL 上 可 能 同时 具有 Dedup 以 及 压 
缩 模 块 ， 有 的 产品 还 引入 了 硬 压 编 卡 来 分 担 主 CPU 的 负担 。 


18.3.5 ”磁盘 数据 一 致 性 保护 及 错误 恢复 
1。 坏 扇 区 重 定向 


数据 在 系统 中 流动 的 时 候 ， 随 时 可 能 会 发 生 畸 变 ， 比 如 某 个 位 原 
本 应 该 是 9， 却 被 畸变 为 1。 这 种 情况 尚 没有 办 法 解决 ， 但 是 有 些 存储 
系统 为 了 保证 至 少数 据 从 硬盘 被 读 入 内 存 这 个 阶段 中 不 会 畸变 ， 引 入 
了 一 些 额 外 的 校 验 值 来 对 读 出 的 数据 做 校 验 ， 如 果 一 致 则 不 动作 ， 一 
旦 发 现 不 一 致 ， 则 通过 某 种 手段 来 恢复 之 前 的 数据 。 比 如 通过 校 验 值 
来 纠正 ， 或 者 通过 RAID 层 面 的 Parity 来 恢复 整个 Segment 上 的 数据 。 


其 次 ， 当 遇 到 物理 磁盘 坏 道 的 时 候 ， 也 需要 一 些 处 理 措施 。 磁 盘 
自身 会 有 坏 忆 区 / 坏 道 重 定向 功能 。 比 如 某 时 刻 磁 盘 接 收 到 针对 某 局 区 
的 写 操 作 ， 但 是 却 发 现 此 扇 区 已 损坏 ， 无 法 写 入 ， 那 么 此 时 磁盘 会 在 
其 盘 片 的 保留 区 域 分 配 一 个 局 区 作为 这 个 坏 扇 区 的 顶替 ， 将 内 容 写 入 
这 个 新 扇 区 ， 并 且 在 映射 表 中 增加 一 个 条 目 以 便 后 续 所 有 针对 这 个 地 
址 的 操作 都 重 定 向 到 替代 局 区 。 但 是 对 于 读 操作 ， 如 果 接 收 到 主机 针 
对 有 某 局 区 的 读 操作 而 发 现 此 局 区 已 损坏 无 法 读 出 ， 那 么 此 时 磁盘 只 能 
去 报错 ， 因 为 此 时 数据 已 经 读 不 出 来 了 。 


在 磁盘 阵列 中 ， 如 果 某 个 RAID 组 中 有 磁盘 报 局 区 损坏 ， 那 么 控制 
器 此 时 可 以 从 RAID 组 中 其 他 磁盘 同一 条 带 中 的 数据 做 XOR 计 算 来 恢 
复出 对 应 Segment 的 数据 。 一 方面 控制 器 可 以 将 读 出 的 数据 返回 给 外 部 
发 起 IO 的 客户 端 主机 ， 同 时 ， 控 制 器 将 这 块 数据 再 覆盖 写 入 有 坏 扇 区 
磁盘 的 对 应 Segment， 当 这 块 磁盘 试图 写 入 这 个 坏 扇 区 时 发 现 无 法 写 


入 ， 此 时 就 不 一 样 了 ， 磁 盘 会 自动 将 这 个 坏 扇 区 重 定 向 到 保留 空间 的 
某 个 好 扇 区 中 ， 这 个 动作 对 上 层 是 透明 的 。 写 入 之 后 ， 需 要 再 次 读 取 
出 这 个 地 址 的 内 容 来 验证 是 否 局 区 重 定向 动作 真 的 成 功 了 。 利 用 这 种 
迁 回 的 方法 ， 阵 列 控制 器 可 以 将 某 块 磁盘 的 寿命 延长 。 这 种 做 法 在 
Linux 下 的 软 RAID 中 就 有 实现 ， 称 为 Bad Sector Remapping (BSR) 。 


此 外 ， 磁 盘 自 身 的 保留 区 域 容量 也 是 有 限 的 ， 如 果 由 于 坏 扇 区 或 
者 坏 道 过 多 而 导致 连 这 些 保 留 区 域 也 耗 尽 的 话 ， 那 么 这 块 磁盘 就 不 能 
再 自动 重 定向 了 。 那 么 此 时 就 可 以 宣告 磁盘 完全 故障 了 么 ? 并 非 如 
此 ， 还 可 以 继续 延长 它 的 寿命 。 如 果 遇 到 这 种 情况 ， 那 么 此 时 RAID 管 
理 层 可 以 发 挥 作 用 了 ， 可 以 这 样 设计 : 让 它 先 向 LUN 管 理 层 查询 一 下 
当前 这 个 坏 局 区 地 址 是 否 是 被 某 个 LUN 占 用 的 ， 如 果 确 实 是 被 某 LUN 
占用 ， 那 么 RAID 层 立即 先 用 其 他 磁盘 上 同一 条 带 中 的 数据 将 这 块 丢失 
的 数据 算出 来 ， 然 后 将 整个 条 市 搬移 到 RAID 组 中 剩余 的 、 未 被 任何 
LUN 所 占用 的 空间 内 ， 并 且 做 好 指针 映射 记录 ， 或 者 只 重 定向 这 个 损 
坏 的 Segment (一 个 条 带 占 用 一 块 盘 上 的 空间 称 为 Segment) 。 这 样 ， 
今后 的 所 有 IO 均 不 会 再 沙 入 到 这 个 损坏 的 局 区 或 者 此 道中 ， 从 而 将 磁 
盘 的 寿命 压榨 到 极限 ! 


2. DIF (Data Integrity Field) 数据 一 致 性 保护 


数据 从 被 应 用 程序 生成 ， 一 直到 被 存 入 硬盘 ， 期 间 需 要 经 过 多 次 
内 存 复 制 、 流 经 系统 总 线 、 进 入 IO 总 线 、 流 出 IO 总 线 到 IO 芯片 ， 然 后 
流出 IO 芯片 到 外 部 存储 网 络 ， 比 如 SAS、FC、SATIA 等 ， 然 后 进入 磁盘 
缓存 、 后 流 经 磁头 臂 ， 被 转化 为 磁 信 号 ， 然 后 被 磁化 到 盘 片 中 。 由 1 和 
0 两 种 状态 组 成 的 数据 ， 在 所 有 这 套路 径 上 的 每 个 部 件 中 流入 、 流 出 的 
时 候 ， 难 免 会 发 生 一 些 畸 变 ， 比 如 由 0 变 为 1 或 者 相反 。 发 生 畸 变 的 原 


因 有 多 种 ， 外 界 扰动 、 软 件 bug 等 等 ， 都 可 能 造成 数据 畸变 。 不 仅 在 外 
部 传输 的 时 候 会 发 生 畸 变 ， 就 连 磁盘 要 写 入 盘 片 的 时 候 ， 也 有 一 定 几 
率 发 生 。 


上 述 数据 畸变 ， 都 不 会 被 上 层 感 知 ， 所 以 这 类 畸变 统称 Silent 
Corruption。 里 然 上 述 数据 畸变 发 生 的 几率 ， 按 照常 理 来 讲 应 该 非常 
低 ， 但 是 实际 却 并 不 是 很 乐观 。NetApp 曾 经 对 150 万 块 在 线 SATA 硬 盘 
做 了 长 达 32 个 月 的 跟踪 ， 结 果 令 人 震惊 ，0.66% 的 SATA 盘 都 出 现 了 数 
据 静 默 损毁 ，FC 盘 的 数据 静默 损毁 比率 则 为 0.06%。 虽然 有 些 阵列 后 
台 都 有 磁盘 扫描 功能 ， 可 以 检测 到 数据 域 Parity 的 不 一 致 ， 但 是 这 种 扫 
昔 属 于 后 台 异 步 方 式 ， 并 不 能 100% 检 测 到 不 一 致 ， 气 统计 仍 有 13% 的 
不 一 致 并 不 能 被 检测 到 。 


静默 损毁 一 旦 发 生 ， 则 后 果 是 比较 严重 的 ， 基 本 都 会 造成 数据 丢 
失 。 本 书 之 前 章节 介绍 SSD 时 ， 曾 经 说 过 SSD 中 的 Cell 失 效率 很 高 ， 需 
要 引入 ECC 纠 错 码 机 制 来 纠 错 ， 比 如 每 512B 的 内 容 引 入 32b 的 纠 错 
码 ， 就 可 以 纠正 这 512B 十 32b 的 数据 中 任意 32b 的 畸变。 本 书 第 3 章 中 
可 以 看 到 一 个 机 械 磁盘 扁 区 的 全 貌 ， 局 区 尾部 有 一 段 ECC 校 验 码 用 来 
纠 错 。ECC 可 以 侦 测 和 纠 错 大 部 分 的 数据 畸变 。 但 是 ， 却 不 是 万 能 
的 。 


比如 典型 的 三 种 问题 就 是 Lost Write、Torn Write 以 及 Misredirect 
Write。 Lost Write 是 指 对 于 某 个 扇 区 ， 磁 盘 根 本 就 没有 去 写 入 对 应 的 扇 
区 就 向 上 层 报 告 写 入 成 功 了 ， 此 时 这 个 局 区 中 的 所 有 数据 依然 是 未 才 
盖 之 前 的 ， 也 是 一 致 的 ，ECC 无 法 发 现 ， 但 是 数据 确实 丢 了 。Tom 
Write 则 是 指 磁头 只 部 分 写 入 了 对 应 的 扁 区 ， 就 返回 成 功 信号 了 ， 此 时 
视 已 经 覆盖 的 数据 量 的 多 少 ， 如 果 太 多 ， 那 么 有 限 的 ECC 位 不 能 够 纠 
错 如 此 多 的 不 一 至 数据， 就 算 覆 盖 的 比较 少 ，ECC 可 以 纠 错 ， 那 么 纠 


错 之 后 ， 也 会 是 这 个 扇 区 未 履 盖 前 所 对 应 的 数据 ， 数 据 依然 丢失 了 。 
Misredirect Write 是 指 ， 磁 头 在 写 入 某 个 扇 区 内 容 的 时 候 ， 定 位 不 准 ， 
将 内 容 写 到 了 目标 局 区 旁边 的 扇 区 中 ， 或 者 由 于 Firmware 等 的 bug， 写 
到 了 讨 根 与 目标 扇 区 没有 任何 物理 近邻 关系 的 位 置 相隔 很 远 的 局 区 
中 ， 接 着 返回 成 功 信号 ， 此 时 ECC 无 能 为 力 。Lost Write 发 生 的 原因 尚 
无 准确 的 结论 ，Misredirect Write 的 原因 大 部 分 是 外 界 扰动 ，Torn Write 
的 细节 原因 ， 我 也 无 法 知晓 。 这 些 限 于 微观 状态 的 动作 ， 其 原因 定位 
非常 因 难 。 


为 此 ， 需 要 一 种 更 加 智能 的 一 致 性 侦 测 手段 。 这 种 手段 就 是 在 数 
据 区 增加 一 个 DIF (Data Integrity Field， 一 种 由 T10 制 定 的 标准 ) 区 段 
用 来 记录 一 些 上 层 的 信息 而 不 仪 是 校 验 值 。 对 于 FC 或 者 SAS 磁 盘 ， 厂 
商 一 般 在 低级 格式 化 的 时 候 将 每 个 局 区 格式 化 为 520B 而 不 是 常规 的 
512B (SATA 盘 使 用 512B 扁 区) 。 多 出 来 的 那 8B 就 是 DIF。SATA 盘 为 
何不 低 格 为 520B 局 区 呢 ? 这 么 做 是 有 原因 的 ， 因 为 SATA 盘 一 般 不 用 
于 企业 级 存储 系统 中 ， 而 FC 与 SAS 则 是 面向 高 端 应 用 ， 需 要 严格 保证 
数据 一 致 性 。 但 是 近年 来 随 着 数据 海量 增长 以 及 成 本 要 求 不 断 降低 ， 
SAIA 盘 越 来 越 多 地 被 用 于 企业 级 存储 系统 中 ， 但 是 其 512B 扇 区 的 设 
计 依然 未 变 ， 并 且 SAIA 盘 稳定 性 相对 FC 与 SAS 更 低 ， 所 以 也 迫切 需要 
采取 手段 来 保护 SATA 盘 数据 的 一 致 性 。 我 们 下 面 将 会 讨论 这 一 点 。 


如 图 18-53 所 示 为 DIF 区 段 在 整个 扇 区 中 所 处 的 位 置 以 及 其 内 部 细 
节 结 构 。 其 中 Guard 字 段 为 2B 的 CRC 校 验 字段 ;Application Tag 这 个 2B 
的 字段 则 是 可 自 定义 的 任何 信息 ， 比 如 这 个 块 属于 哪个 LUN， 或 者 属 
于 哪个 文件 系统 、 哪 个 目录 甚至 哪个 文件 ID 等 ， 都 可 以 ， 由 阵列 设计 
者 而 定 ; 4B 的 Reference Tag 字 段 则 为 本 局 区 对 应 的 LBA 地 址 。 


图 18-53 ”DIF 区 段 的 结构 


DIF 区 段 会 随 着 每 次 局 区 的 IO 请 求 一 同 被 读 出 或 者 与 入 。 


下 面 我 们 就 来 看 一 下 DIF 是 如 何 帮 助 系统 侦 测 到 LW、TW 以 及 MW 
的 。 


(1) DIF 如 何 解 决 Torn Write 问 题 


先 说 一 下 TW， 也 就 是 某 局 区 中 的 数据 只 被 写 入 了 一 部 分 就 返回 
了 ， 这 种 情况 下 ， 局 区 中 当前 DIF 字 段 中 的 CRC 校 验 码 是 与 数据 区 数 
据 计算 出 的 校 验 码 不 一 致 的 ， 当 这 个 局 区 被 读 出 时 ， 底 层 将 执行 一 致 
性 校 验 ， 此 时 便 可 以 侦 测 出 数据 不 一 致 。 那 么 后 续 该 怎么 解决 呢 ? 负 
责 一 致 性 的 模块 此 时 需要 将 这 个 错误 上 报到 上 层 ， 比 如 RAID 层 ， 此 时 
RAID 层 先 读 出 这 个 扇 区 所 在 条 带 中 的 所 有 Segment 数 据 ， 依 次 做 检 
碍 ， 如 果 其 他 所 有 局 区 数据 都 一 致 ， 那 么 此 时 RAID 才 可 以 ， 才 敢 使 用 
这 个 扇 区 所 在 的 RAID 条 带 上 其 他 成 员 盘 以 及 Parity 盘 上 的 Segment 一 起 
来 做 XOR 反 运算 ， 从 而 得 出 这 个 不 一 致 的 扇 区 原本 的 内 容 ， 然 后 再 次 
覆盖 一 遍 ， 从 而 恢复 了 这 个 局 区 原本 应 有 的 数据 。 而 如 果 RAID 在 检查 
的 时 候 发 现 这 个 条 带 中 出 现 了 多 个 位 于 不 同 Segment 中 的 扇 区 的 内 容 自 
身 CRC 校 验 不 一 致 ， 那 么 RAID 此 时 就 傻眼 了 ， 因 为 此 时 相当 于 多 盘 失 
效 ， 已 经 无 法 重 算出 正确 数据 了 ， 只 能 向 上 层 报销 。 


(2) DIE 如 何 解决 Misredirect Write 问题 


再 看 一 下 MW。 假 设 某 时 刻 系统 向 LBA1 处 进行 了 写 入 操作 ， 但 是 
这 份 数据 却 被 写 到 了 LBA1000 中 。 那 么 现在 的 状况 是 : LBA1000 处 之 
前 的 数据 丢失 了 ， 需 要 找 回 ，LBA1 处 当前 的 数据 并 不 能 使 用 ， 因 为 是 
一 份 过 期 的 数据 。 此 时 ， 系 统 面临 着 很 复杂 的 境况 ， 即 LBA1 与 
LBA1000 所 在 的 条 带 都 是 不 一 致 的 (Raid 层 下 发 IO 时 是 一 致 的 ， 但 是 


磁盘 自己 写 俩 了 ， 实 际 上 当然 就 不 一 致 了 ) ，RAID 校 验 层 可 以 通过 计 
算 来 察觉 到 这 种 不 一 致 ， 因 为 对 数据 区 的 XOR 结 果 根 本 不 会 等 于 Parity 
区 ， 但 是 RAID 不 会 去 主动 实时 的 校 验 每 一 个 条 带 的 ， 甚 至 当 设 备 在 读 
出 整个 条 帝 数 据 到 内 存 里 之 后 也 不 会 主动 做 条 带 校 验 ， 因 为 这 样 太 耗 
费 资源 。 有 些 设备 在 低 负 载 时 可 以 触发 主动 的 后 台 一 致 性 Parity 扫 描 检 
查 来 尽量 发 现 这 些 不 一 致 ， 但 终究 只 是 做 到 了 “尽量 *”。 下 面 例子 中 会 
举 出 系统 如 何 “ 埋 雷 ” 的 例子 。 


如 果 本 次 MW 发 生 之 后 ， 紧 接着 的 下 一 个 针对 LBA1 或 者 LBA1000 
所 在 条 带 的 其 他 LBA ( 非 LBA1 和 LBA1000) 任何 一 个 的 IO 是 写 IO 的 
话 ， 那 么 就 可 能 会 出 现 连 环 污染 或 者 数据 永久 丢失 ， 而 且 上 层 根 本 无 
法 感知 到 静默 丢失 。 比 如 ， 本 次 MW 发 生 之 后 ， 又 有 针对 LBA1 处 的 正 
常 写 入 操作 ， 那 么 如 果 RAID 组 为 校 验 型 RAID (比如 RAID 5) ， 那 么 
此 时 系统 会 利用 旧 LBA1 的 数据 、 新 LBA1 的 数据 以 及 | 日 Parity 共 同 算出 
新 Parity (如 果 恰 好 为 针对 该 条 带 的 整 条 写 或 者 重 构 写 则 不 会 出 问题 ， 
本 例假 设 为 读 改写 ) ， 此 时 这 份 新 Parity 依 然 是 错误 的 ， 相 当 于 把 错误 
发 生 了 转移 ， 本 来 是 LBA1 是 错误 的 ， 现 在 转移 到 Parity 上 去 了 ， 当 
然 ， 上 层 是 无 法 区 分 到 底 是 LBA1 还 是 Parity 有 问题 ， 此 时 如 果 进 行 整 
条 带 校 验 计算 ， 会 发 现 仍 然 是 不 一 致 的 。 但 如 果 是 重 构 写 ， 则 会 修正 
该 条 带 之 前 的 错误 ， 也 就 是 第 二 次 写 入 的 LBA1 会 覆盖 之 前 的 原始 旧 
LBA1 (第 一 次 写 入 的 LBA1 此 时 依然 处 于 LBA1000 处 ) ， 同 时 读 出 该 
条 带 剩余 的 Segment， 共 同 计算 Parity 后 覆盖 | 旧 Parity， 此 时 整 条 带 是 一 
致 的 ，LBA1 的 错误 被 新 LBA1 的 数据 修正 了 。 所 以 这 便 成 了 一 个 不 可 
预知 的 状态 ， 完 全 看 运气 。 但 是 如 果 在 系统 未 发 现 条 带 不 一 致 之 前 ， 
针对 LBA1 或 者 LBA1000 所 在 条 带 的 其 他 LBA ( 非 LBA1 和 LBA1000) 
的 任何 一 个 IO 是 写 IO， 而 且 是 读 改 写 的 话 ， 那 么 这 份 错误 的 LBA1 或 
者 LBA1000 的 数据 便 被 “合法 化 "了 ， 因 为 此 时 该 条 带 是 可 以 被 校 验 通 


过 的 。 这 颗 “ 地 雷 ” 就 永远 被 埋藏 于 此 了 ， 上 层 应 用 此 时 只 能 使 用 这 份 
逻辑 上 错乱 的 数据 ， 而 绝对 不 会 知道 正确 的 数据 是 什么 。 这 种 情况 就 
被 称 为 Parity pollution， 即 校 验 值 污染 。 


通过 上 述 过 程 的 分 析 我 们 可 以 得 出 结论 ， 也 就 是 如 果 有 一 种 方法 
可 以 让 系统 感知 到 发 生 了 MW， 那 么 在 特定 条 件 下 ， 系 统 可 以 成 功 纠 
错 。 每 个 扇 区 的 DIF 区 段 里 的 reference tag 记 录 了 该 局 区 所 属 的 LBA 
号 ， 系 统 在 内 存 里 会 为 每 笔 IO 数据 贴 上 其 “应 该 ?对 应 的 LBA 号 ， 这 样 
就 可 以 让 系统 感知 到 MW 现象 了 。 比 如 ， 当 MW 发 生 之 后 的 第 一 个 针 
对 LBA1000 的 请 求 为 读 请 求 或 读 改写 请 求 〈 读 改写 会 先 读 出 LBA1000 
原 有 数据 ) ， 总 之 系统 读 出 了 LBA1000 里 的 数据 ， 此 时 系统 发 现 该 扇 
区 DIF 区 段 里 的 LBA 号 竟然 是 LBA1 (之 前 被 磁盘 自身 写 偏 ) 而 不 是 
LBA1000， 那 么 就 知道 发 生 了 MW， 系 统 此 时 会 立即 判断 是 否 “还 来 得 
及 ”， 还 来 得 及 做 什么 ? 当然 是 纠 错 。 之 前 提 到 过 ， 污 染 是 可 以 被 传递 
的 ， 已 经 被 传递 的 污染 是 不 可 挽回 的 。 比 如 ， 假 设 在 系统 发 现 
LBA1000 里 的 数据 其 实 应 该 属于 LBA1 之 前 ， 该 条 带 的 其 他 Segment 没 
有 发 生 写 入 操作 ， 那 么 此 时 系统 发 现 了 MW 之 后 ， 便 可 以 利用 该 条 带 
其 他 Segment 来 校 验 出 LBA1000 之 前 被 错误 覆盖 的 数据 ， 判 断 是 否 该 条 
带 其 他 Segment 曾 经 在 MW 之 后 发 生 了 写 入 的 办 法 就 是 计算 该 条 带 当前 
的 校 验 是 否 通过 ， 如 果 不 通过 ， 证 明 尚 未 有 写 入 操作 ， 也 就 是 污染 未 
被 传递 ; 如 果 校 验 通过 ， 则 可 以 判断 发 生 了 污染 传递 ， 此 时 系统 无 法 
判断 从 MW 发 生 到 被 发 现 之 间 这 段 时 间 之 内 系统 对 该 条 带 上 哪个 
Segment 做 了 写 入 操作 〈 如 果 能 够 判断 出 是 对 非 LBA1000 做 了 写 入 ， 那 
么 还 是 可 以 挽回 的 ， 但 是 系统 判断 不 出 来 ) ，LBA1000 之 前 被 错误 有 覆 
盖 的 数据 就 无 可 挽回 了 。 


但 是 ， 上 述 的 判断 方法 成 立 的 前 提 是 发 现 某 局 区 的 确 出 现 了 
MW， 也 就 是 对 应 的 reference tag 中 的 LBA 号 与 当前 其 所 处 的 LBA 号 不 
同 。 如 果 未 出 现 MW， 仅 仅 是 校 验 无 法 通过 的 话 ， 上 述 判断 就 不 能 适 
用 。 比 如 这 个 场景 ，MW 发 生 之 后 ， 接 着 收 到 一 个 针对 LBA1000 的 正 
常 的 写 操 作 ， 此 时 原本 应 当 落 在 LBA1 的 数据 就 会 被 永久 覆盖 掉 并 且 永 
远 找 不 回来 。 同 时 ， 如 果 是 读 改 与 ， 则 会 将 逻辑 错误 传递 到 Parity 上 
去 ， 并 且 每 个 扇 区 的 reference tag 中 的 LBA 号 与 其 所 处 的 LBA 也 是 对 应 
的 ， 结 果 就 是 系统 即便 发 现 了 该 条 带 不 一 致 ， 也 永远 不 会 知道 其 实 该 
条 审 的 数据 Segment 此 时 已 经 都 是 一 致 的 了 ， 系 统 此 时 会 判断 出 并 没有 
发 生 MW (其 实 是 发 生 过 但 是 没 来 得 及 被 发 现 之 前 就 被 正确 的 
LBA1000 扇 区 内 容 又 覆盖 写 了 ) ， 只 能 向 上 层 报错 。 


假设 我 们 运气 很 好 ， 系 统 挽回 了 LBA1000 的 旧 数 据 并 做 了 恢复 ， 
那么 这 个 原本 应 该 覆盖 到 LBA1 的 局 区 ， 此 时 是 否 可 以 顺水 推 舟 的 履 盖 
到 当前 的 LBA1 处 ? 一 样 ， 也 需要 对 LBA1 所 在 的 条 带 判 断 是 否 发 生 了 
污染 传递 ， 如 果 示 发生 ， 则 可 以 覆盖 ， 如 果 已 经 发 生 ， 则 不 能 覆盖 ， 
因为 系统 无 法 判断 出 是 否 LBA1 在 MW 发 生 和 被 发 现 这 段 时 间 内 是 否 发 
生 了 写 操作 ， 不 能 擅自 覆盖 。 


如 果 无 法 纠 错 ， 则 系统 直接 报 unrecoverable error， 告 诉 上 层 说 这 
个 错误 我 恢复 不 了 了 ， 你 该 怎么 办 就 怎么 办 吧 。 此 时 上 层 可 以 使 用 比 
如 恢复 数据 、 快 照 回 滚 等 方法 来 恢复 数据 ， 大 不 了 几 天 的 活 白 干 了 ， 
重新 处 理 计 算 一 遍 ， 也 不 能 明知 系统 内 有 地 雷 而 依然 向 上 层 掩盖 这 个 
事实 。 


静默 损毁 属于 定时 炸弹 ， 一 旦 被 损毁 的 数据 属于 高 精 尖 行业 比如 
卫星 导弹 ， 后 果 不 可 设想 ， 比 如 卫星 偏离 轨道 之 类 。 


(3) DIE 如 何 解决 Lost Write 问题 


Lost Write (LW) 算是 最 难 解 决 的 问题 之 一 。 因 为 LW 在 现场 根本 
不 会 留 下 任何 犯罪 证 据 。TW 会 留 下 局 区 自身 CRC 校 验 不 一 致 的 线 
素 ，MW 会 在 错误 重 定向 之 后 的 局 区 留 下 表 里 不 一 的 线索 ， 而 LW 呢 ? 
大 家 想 一 下 ，LW 是 指 磁盘 根本 没有 去 碰 对 应 的 目标 局 区 ， 就 向 上 层 返 
回 写 入 成 功 了 ， 此 时 ， 除 非 事先 就 知道 发 生 了 LW， 否 则 你 根本 无 法 知 
道 是 否 发 生 了 LW。 然 而 ， 一 点 办 法 都 没有 了 么 ? 非 也 。 系 统 底层 肯定 
是 无 法 感知 到 LW， 那 么 就 只 能 靠 上 层 来 解决 。DIF 区 段 中 还 有 一 项 叫 
做 Application Tag 的 字段 ， 它 就 是 来 解决 LW 问题 的 。 


比如 ， 系 统一 定 可 以 知道 某 个 局 区 具体 属于 哪个 LUN， 对 于 
NAS， 也 一 定 会 知道 某 个 扇 区 具体 属于 哪个 文件 系统 、 目 录 ID、inode 
ID 等 ， 如 果 每 次 写 入 遍 区 的 时 候 ， 都 将 对 应 的 这 些 高 层 信息 更 新 到 
DIF 中 的 Application Tag 并 且 一 起 写 入 局 区 ， 那 么 如 果 今 后 一 旦 发 生 
LW， 当 系统 再 次 读 出 对 应 的 局 区 时 ， 可 能 这 个 局 区 原本 对 应 的 文件 
ID、LUN ID、inode 号 等 是 另外 一 个 文件 或 者 LUN 的 ， 而 不 是 当前 正 
在 操作 的 文件 或 者 LUN 的 ， 那 么 此 时 系统 便 会 知道 发 生 了 LW， 便 会 报 
错 。 但 是 绝 大 多 数 时 候 是 不 可 能 检测 到 LW 的 ， 因 为 基本 上 大 部 分 写 入 
动作 都 属于 覆盖 写 ， 也 就 是 某 个 局 区 之 前 属于 哪个 文件 ， 一 般 都 会 一 
直属 于 这 个 文件 ， 对 其 更 改 之 后 ，inode 不 会 变化 ， 发 生 了 LW 之 后 ， 
其 inode 也 依然 不 会 变化 ; 除非 某 个 局 区 对 应 的 文件 被 删除 ， 又 有 新 文 
件 占 用 了 这 个 局 区 ， 然 后 在 发 生 第 一 次 写 入 时 ， 恰 好 遇 到 了 LW， 和 那么 
此 时 系统 便 可 以 通过 两 次 inode 不 一 致 来 判断 发 生 了 LW。 而 对 于 LUN 
来 讲 ， 基 本 上 用 这 种 方法 就 无 法 检测 LW 了 ， 因 为 LUN 一 旦 被 创建 ， 其 
位 置 基本 上 是 固定 的 了 ， 除 非 做 了 Row 的 snapshot 之 类 ， 既 然 总 是 固 
定 ， 那 么 不 管 写 入 某 个 局 区 多 少 次 ， 都 属于 覆盖 写 ，LUN ID 都 不 变 ， 


也 就 无 法 检测 到 LW 了 。 所 以 基本 上 目前 能 够 检测 LW 的 存储 厂商 屈指 
可 数 。 


提示 : LW 对 于 一 般 存 储 系统 来 讲 基本 上 属于 必 杀 级 别 ， 一 
旦 发 生 基 本 上 所 有 产品 都 无 法 感知 到 ， 当 然 ， 它 们 一 定 不 会 
告诉 客户 它们 无 法 检测 到 LW， 只 能 说 这 种 事件 发 生 几率 非常 
低 ， 发 生 了 的 话 你 也 就 冬 矿 认 了 吧 。 但 是 有 一 家 广 商 却 攒 借 
其 独特 的 数据 排 布 架构 而 能 够 检测 到 LW， 这 家 厂商 就 是 
NetApp。 这 里 我 绝对 不 带 有 崇拜 或 者 推广 的 意思 。 


NetApp 的 WAFL 文 件 系统 ， 之 前 也 介绍 过 ， 每 次 写 入 都 会 写 到 空 
闲 空 间 ， 不 会 覆盖 写 ， 这 种 机 制 决定 了 它 可 以 天 然 的 检测 到 LW 的 发 
生 。WAFL 的 文件 系统 Tree ID 会 随 着 每 次 刷 盘 而 变化 ， 只 要 系统 读 出 
某 个 扇 区 之 后 发 现 这 个 扇 区 中 DIF 区 段 Application Tag 字 段 中 包含 的 
Tree ID 并 不 等 于 上 一 次 刷 盘 的 Tree ID ， 那 么 就 可 以 判断 上 一 次 刷 盘 时 
这 个 局 区 发 生 了 Lost Write， 此 时 便 可 以 通过 RAID 层 面 的 Parity 来 重 算 
出 这 个 扇 区 原本 应 当 写 入 的 数据 并 做 覆盖 ， 其 具体 步骤 与 上 文 所 述 的 
相同 。 


(4) 如 何在 SATA 盘 中 存放 DIF 信 息 


SATA 盘 每 扁 区 被 低 格 为 512B， 那 么 就 没有 空余 的 空间 来 存放 DIF 
言 息 了 。 此 时 就 必须 在 上 层 强 行 分 配 DIF 空 间 ， 有 多 种 手段 。 如 图 18- 
54 所 示 即 为 一 种 方式 ， 也 即 是 直接 把 磁盘 当做 一 个 连续 地 址 空间 ， 管 
你 一 个 扇 区 多 大 ， 我 就 在 每 512 字 节 之 后 放 8 字 节 的 DIF 内 容 。 这 样 做 
会 导致 520 字 节 的 逻辑 局 区 与 512 字 节 的 物理 扇 区 错位 ， 导 致 每 读 出 一 
个 逻辑 扇 区 ， 就 要 同时 读 出 其 横 跨 的 左右 两 个 物理 扇 区 ， 写 也 一 样 ， 
会 产生 大 量 的 读 写 惩罚 。 


图 18-54 SATA 盘 中 的 DIE 放置 方法 1 


另外 一 种 方法 则 利用 一 种 扩大 粒度 的 思想 。 由 于 每 512 字 节 需 要 8 
字 节 的 DIF， 那 么 64 个 512 字 节 ， 恰 好 总 共 需 要 64x8B 三 512B 的 DIF 内 
容 ， 这 恰好 又 是 一 个 512B 扇 区 的 容量 ， 那 么 就 可 以 将 这 个 专门 存放 
DIF 的 扇 区 追加 到 每 64 个 扇 区 之 后 。 如 图 18-55 所 示 即 为 这 种 思想 的 一 


个 示意 图 。 
图 18-55 ”SATA 盘 中 的 DIF 放 置 方法 2 


但 是 这 种 做 法 有 个 问题 ， 由 于 每 次 读 出 任何 一 个 扇 区 ， 都 需要 顺 
融 读 出 对 应 的 DIF 信 息 ， 所 以 如 果 仅 仅 读 出 比如 第 5 个 局 区 ， 那 么 磁头 
此 时 就 需要 等 待 盘 片 继续 旋转 到 DIEF 扇 区 位 于 磁头 之 下 时 ， 将 其 读 
出 ， 增 加 了 等 待 时 间 ; 并 且 ， 如 果 在 设计 DIF 启 区 所 处 的 位 置 时 ， 比 
如 可 以 放 在 每 64 扇 区 的 首部 或 者 尾部 ， 如 果 这 种 设计 没有 考虑 盘 片 旋 
转 方向 与 扇 区 排 布 方向 的 话 ， 那 么 可 能 磁头 会 先 划 过 DIF 局 区 ， 再 划 
过 其 对 应 的 64 个 数据 局 区 ， 那 么 此 时 磁头 就 只 能 在 读 取 对 应 的 数据 局 
区 之 后 ， 等 待 盘 片 旋转 一 大 轿 ， 再 转 回 到 DIF 扇 区 时 ， 从 而 将 其 读 
出 ， 所 以 这 一 点 一 定 要 考虑 到 ， 当 划 过 DIF 时 就 将 其 读 出 从 而 节省 时 
间 。 其 次 如 果 遇 到 DIF 扇 区 与 其 对 应 的 64 个 数据 局 区 位 于 不 同 磁道 的 
时 候 ， 还 要 额外 产生 寻 道 操作 ， 这 就 更 降低 了 性 能 。 


经 过 实际 测试 ， 即 便 是 考虑 了 时 间 先 后 问题 ，SATA 盘 此 时 所 表现 
出 来 的 性 能 确实 也 有 不 小 的 降低 ， 就 是 因为 等 待 时 间 与 寻 道 开销 导 
致 。 所 以 ， 有 些 广 家 的 设备 不 得 不 选择 降低 粒度 ， 比 如 每 8 个 局 区 后 面 
追加 一 个 DIF 扇 区 ， 这 样 的 话 ，8x8B 二 64B， 这 个 DIF 扇 区 中 就 只 有 前 
64 字 节 被 利用 了 起 来 ， 浪 费 掉 了 448B， 鉴 于 此 ， 可 以 将 这 个 DIF 扇 区 
后 面 紧 邻 的 8 个 数据 扇 区 的 DEF 信息 也 存放 在 其 中 ， 也 就 是 一 个 DIF 扇 


区 的 左右 各 8 个 共 16 个 扇 区 的 DIE 可 以 共用 这 一 个 DIE 扇 区 ， 这 样 就 降 
低 了 浪费 程度 ， 变 为 384B 的 浪费 值 。 同 时 提升 了 性 能 。 可 以 调整 为 16 
局 区 或 者 32 局 区 这 样 的 粒度 ， 从 而 在 性 能 与 容量 浪费 之 间 取 得 平衡 。 


(5) 实现 DIF 计 算 和 检查 的 角色 及 其 所 处 位 置 


首先 ， 阵 列 中 的 HBA 上 的 FC、SAS 控 制 器 已 经 普遍 支持 DIF 的 计 
算 、 插 入 与 剥离 操作 。 当 写 数据 IO 被 由 主机 下 发 到 阵列 前 端 HBA 卡 中 
的 控制 器 已 片 之 后 ， 心 片 可 以 计算 (计算 出 CRC， 并 插入 对 应 的 LBA 
地 址 ) 并 向 每 个 IO 中 插入 DIF 区 段 ， 之 后 将 已 经 插入 DIE 的 数据 IO 继续 
下 发 到 IO 路 径 下 层 。 不 仅 前 端 ， 阵 列 后 端 连 接 磁盘 扩展 柜 的 HBA 控 制 
器 也 可 以 实现 DIF 的 计算 可 插入 。 对 于 SATA 磁 盘 ， 到 底 在 阵列 前 端 就 
实现 还 是 在 后 端 实现 ， 取 决 于 阵列 设计 者 的 全 盘 考 虑 。 


其 次 ， 阵 列 操作 系统 内 核 软 件 模块 也 可 以 实现 DIE 的 计算 与 插 
入 ， 不 过 就 需要 耗费 一 定 的 主 CPU 资 源 了 ， 但 是 如 果 要 实现 诸如 LW 上 监 
测 这 种 级 别 的 DIF， 那 么 就 一 定 需要 在 阵列 系统 内 核 中 用 软件 实现 
了 。 


然后 某 些 SATA-FC，SATA-SAS 转 接 卡 上 的 控制 芯片 也 可 以 做 到 
DIF 计 算 与 插入 ， 这 些 心 片 除 了 要 计算 DIF 之 外 ， 还 需要 考虑 SATA 盘 
的 512 字 节 扇 区 对 齐 的 问题 ， 需 要 实现 底层 地 址 的 屏蔽 透明 转换 操作 。 
有 些 SATA 转 接 芯 片 则 自己 不 计算 DIF， 只 提供 512 字 节 到 520 字 节 的 地 
址 映射 翻译 工作 ， 这 样 就 可 以 让 上 层 部 件 来 计算 和 插入 DIF 了 。 


如 图 18-56 所 示 为 一 个 典型 系统 路 径 下 DIF 的 插入 、 校 验 转发 、 写 
入 、 读 出 、 删 除 动作 流程 示意 图 。 可 以 看 到 阵列 前 端 FC 控 制 器 实现 了 
DIF 区 段 的 插入 ( 写 入 阵列 时 ) 与 删除 ( 读 出 阵列 时 操作， 系统 路 


径 之 下 每 个 支持 DIF 的 组 件 ， 比 如 后 端 HBA， 都 会 对 收 到 的 IO 数据 进 
行 校 验 ， 通 过 就 继续 向 上 层 或 者 下 层 转 发 ， 一 旦 发 现 不 一 致 则 向 其 上 
游 报 错 ， 从 而 上 游 可 以 重新 发 送 或 者 连环 向 更 上 游 组 件 报错 从 而 推动 
问题 的 解决 。 


图 18-56 ”实现 DIF 的 角色 与 位 置 


另外 ， 有 些 磁盘 (比如 日 立 ) 自身 可 以 实现 DIF 区 段 的 计算 与 插 
入 ， 对 上 层 透明 为 512 字 节 遍 区。 在 使 用 支持 DIF 的 各 种 组 件 时 ， 需 要 
统筹 掌握 和 利用 ， 从 而 在 路 径 上 各 个 点 处 保持 良好 的 配合 。 


3. 数据 一 致 性 保护 总 结 


经 过 本 节 的 介绍 ， 想 必 大 家 已 经 可 以 深入 了 解 DIF 属 于 一 致 性 保 
护 的 方式 ， 以 及 TW、MW 和 LW 三 种 典型 的 使 数据 不 一 致 的 现象 。 由 
于 主机 侧 的 组 件 众 多 ， 所 以 目前 业界 也 一 直 在 研究 如 何 保证 端 到 端的 
数据 一 致 性 ， 让 数据 从 被 主机 侧 应 用 程序 生成 ， 一 直到 最 后 写 入 磁 
盘 ， 都 能 够 保证 每 个 环节 的 一 致 性 。 


DIF 依 然 不 是 万 能 药 ， 其 所 能 解决 的 一 致 性 也 是 比较 有 限 的 。 另 
外 ，XOR 校 验 也 并 不 能 保证 100% 几 率 检测 到 不 一 致 ， 比 如 一 旦 一 串 
数据 中 的 两 个 部 位 同时 发 生 畸 变 ， 一 处 由 0 畸变 为 1， 而 另 一 处 由 1 畸变 
为 0， 则 此 时 这 串 数 据 的 XOR 校 验 值 是 相同 的 ， 系 统 不 会 认为 数据 不 
一 致 。ECC 纠 错 算法 则 可 以 检测 到 这 种 不 同位 置 的 循环 畸变 。 


另外 ， 此 系统 发 现 某 条 带 的 数据 存在 不 一 致 现象 ， 但 是 每 个 扇 区 
自身 的 校 验 都 是 一 致 的 ， 那 么 此 时 系统 就 无 法 判断 出 到 底 是 谁 导致 的 
不 一 致 。 而 如 果 使 用 RAID 6 双 校 验算 法 ， 就 可 以 利用 二 元 方程 来 判断 


Lost Write， 最 令 人 头疼 的 难题 ， 也 不 是 不 能 解决 ， 可 以 使 用 Write 
and Verify 这 个 SCSI 指 令 ， 即 每 次 写 入 之 后 立即 读 出 这 个 扇 区 来 判断 是 
否 真 的 成 功 写 入 ， 但 是 这 样 做 会 耗费 相当 大 的 资源 ， 不 具 实 用 价值 ， 
除非 对 数据 一 致 性 确 有 苛刻 要 求 而 又 可 以 容忍 性 能 降低 的 情况 下 。 


现在 业界 出 现 了 一 种 近 线 (Nearline，NL) SAS 或 者 近 线 FC 磁 
盘 ， 这 种 磁盘 其 原型 其 实 为 那 种 带 有 SATA-FC 或 者 SATA-SAS 转 接 卡 
的 SATA 盘 ， 由 于 磁盘 阵列 后 端 一 般 都 使 用 FC Loop 或 者 SAS Expander 
网 络 来 连接 FC 或 者 SAS 磁 盘 ， 而 SATA 盘 若 要 用 于 这 种 磁盘 扩展 柜 中 ， 
就 需要 加 转 接 卡 ， 各 个 厂商 都 去 选择 各 种 转 接 卡 ， 导 致 型 号 、 协 议 都 
不 同 ， 兼 容 性 也 不 同 ， 浪 费 资 源 。 所 以 磁盘 厂商 干脆 推出 了 将 转 接 心 
片 集 成 到 磁盘 自身 的 SATA ， 这 也 就 是 所 谓 NL-SATA 磁 盘 了 。 不 仅 如 
此 ，NL-SAIA 并 不 仅仅 是 这 点 变化 ， 由 于 用 于 企业 级 存储 系统 中 ， 所 
以 厂商 在 低 格 的 时 候 ， 对 NL-SATA 盘 也 直接 低 格 成 520 字 节 扇 区 的 格 
式 以 便 实现 DIF。 


第 19 章 ”过 关 斩 将 
及 优化 


系统 IO 路 径 


@LUN 分 布 及 虚拟 化 

@ 系统 IO 路 径 图 

@ IO 优化 

四 Cache 

@ OS 内 核 IO 流 程 

@ 存储 控制 器 IO 处 理 过 程 


真正 的 存储 系统 性 能 优化 是 在 研发 机 构 的 实验 室 中 。 要 做 到 真正 
彻底 的 性 能 优化 ， 需 要 从 底层 设计 上 彻底 优化 。 目 前 大 多 数 工 程 师 所 
做 的 优化 只 不 过 是 让 底层 已 经 设计 好 的 架构 充分 发 挥 其 应 有 的 性 能 ， 
严格 来 讲 ， 这 不 叫 优化 ， 因 为 其 本 来 就 是 应 该 被 完成 的 。 本 章 首 先 介 
绍 系统 IO 路 径 上 面 的 各 个 层次 的 固有 的 设计 上 的 优化 动作 ， 然 后 会 给 
出 一 些 如 何 将 这 些 固 有 设计 发 挥 出 来 ， 或 者 说 如 何不 拖 它 们 后 腿 的 经 
验方 法 。 


本 章 的 精髓 在 于 系统 IO 路 径 架 构图 。 围 绕 这 张 图 来 论述 图 中 各 个 
模块 和 路 径 是 怎样 影响 系统 IO 的 。 要 想 优 化 性 能 ， 必 须 胸 有 成 图 。 作 
者 精心 制作 了 这 张 图 ， 请 读者 务必 牢记 。 


要 理解 存储 系统 ， 首 先 要 理解 计算 机 系统 本 身 。 人 存储 系统 中 任何 
主体 都 是 计算 机 ， 理 解 了 计算 机 IO 路 径 ， 也 就 理解 了 整个 IT 系统 的 IO 
路 径 ， 只 有 这 样 才能 目 无 全 牛 ， 胸 有 宏图 ， 才 谈 得 上 最 后 去 做 优化 分 
析 工 作 ， 厚 积 薄 发 。 


正 像 电影 《黑客 和 帝国》 中 所 反映 的 那样 ， 要 真正 地 理解 计算 机 都 
做 了 些 什么 ， 我 们 只 有 变 身 Nio 去 钼 入 其 中 一 探究 竟 。 但 是 目前 做 不 到 
这 一 点 ， 目 前 所 做 的 是 用 程序 来 监测 程序 本 身 ， 比 如 debug 程 序 。 我 们 
作为 计算 机 世界 的 造物 主 ， 可 能 有 时 候 也 永远 无 法 探究 到 被 我 们 造 出 
来 的 物种 可 能 并 没有 按照 我 们 规定 的 步骤 去 做 。 这 也 就 是 进化 的 开 


人 
口 o 


本 书 前 面 的 内 容 大 部 分 都 是 游 走 于 系统 表层 的 一 些 功 能 表象 ， 本 
章 将 刺 破 表 层 ， 到 达 存 储 系统 的 内 部 来 一 探究 竟 ， 看 存储 系统 到 底 是 
怎么 处 理 IO 请 求 的 。 


如 图 19-1 所 示 ， 本 章 开 篇 即 给 出 了 一 幅 系统 IO 路 径 架 构图 (传统 
基于 Block 协 议 访问 的 磁盘 阵列 ) ， 这 幅 图 宫 括 了 主机 与 存储 系统 与 数 
据 IO 相 关 的 全 部 主要 逻辑 模块 与 数据 流 的 每 个 停 站 以 及 所 有 停 站 对 数 
据 所 做 的 处 理 动作 和 功能 模块 。 作 者 认为 ， 要 涉足 性 能 优化 方面 ， 就 
必须 在 大 脑 中 形成 这 样 一 张 图 ， 并 且 随 手 可 以 画 出 。 在 计算 机 中 ,一 
个 IO 请 求 始 于 应 用 程序 ， 终 于 磁盘 ， 在 这 条 路 径 上 ， 有 形形色色 的 角 
色 将 对 这 个 IO 请 求 进行 或 转发 ， 或 地 址 映射 ， 或 排队 ， 或 拆 分 ， 或 合 
并 等 动作 。 


图 19-1 系统 IO 路 径 模 块 架 构图 


19.1 “理解 并 记忆 主机 端 IO 路 径 架 构图 


总 体 来 讲 ， 系 统 IO 路 径 所 包括 的 主要 角色 模块 就 是 上 面 列 出 来 的 
这 些 ， 一 个 IO 会 依次 经 过 每 个 角色 ， 在 物理 上 跨越 主机 与 存储 系统 之 
间 的 网 络 ， 在 应 用 程序 和 磁盘 之 间 双 向 流动 。 本 节 论 述 IO 的 起 源 地 也 
就 是 主机 端的 IO 路 径 模块 架构 。 


提示 : 本 章 的 所 有 论述 均 基 于 机 械 硬 盘 ， 不 考虑 SSD。 
19.1.1 ”应 用 程序 层 


应 用 程序 是 计算 机 系统 内 主动 发 起 10 请求 的 大 户 ， 但 计算 机 系统 
内 可 以 向 底层 存储 设备 主动 发 起 IO 请 求 的 角色 不 仅 限 于 应 用 程序 ， 其 
他 处 于 操作 系统 内 核 层 的 模块 ， 比 如 文件 系统 自身 、 卷 管理 层 自身 、 
适配器 驱动 层 自身 等 ， 都 可 以 主动 发 起 IO。 当 然 ， 只 有 应 用 程序 发 起 
的 IO 才 可 以 修改 用 户 实 体 数 据 的 内 容 ， 其 他 角色 发 起 的 IO 一 般 只 是 对 
数据 进行 移动 / 重 分 布 / 校 验 /压缩 /加 密 等 动作 ， 并 不 会 修改 用 户 层面 的 
实际 数据 内 容 。 


应 用 程序 在 读 写 数据 的 时 候 一 般 是 直接 调用 操作 系统 所 提供 的 文 
件 系 统 API 来 完成 文件 数据 的 读 写 等 操作 。 有 的 应 用 程序 可 以 直接 调 
用 卷 管理 层 或 者 适配器 驱动 层 API 从 而 直接 操控 底层 的 卷 或 者 LUN， 
比如 一 些 数据 库 程序 ， 它 们 直接 操控 卷 而 不 需要 使 用 文件 系统 提供 的 
功能 ， 它 们 自己 来 管理 数据 在 底层 卷 上 的 分 布 。 


应 用 程序 发 起 的 IO 的 类 型 是 影响 IO 性 能 的 最 首要 因素 。 本 书 第 4 
章 介绍 了 7 对 IO 类 型 ， 每 一 对 中 包含 的 两 个 类 型 是 相反 关系 。 在 此 将 
这 7 对 共 14 种 IO 类 型 做 成 了 一 个 表格 并 且 简要 地 列 出 了 每 种 IO 对 系统 
整体 相对 性 能 的 影响 。 


其 中 ， 最 优 的 IO 方式 为 连续 并 发 1O0 ， 如 果 追 求 吞 吐 量 ， 则 应 当 使 
用 大 块 连续 并 发 IO， 如 果 追 求 IOPS， 则 应 当 使 用 小 块 连续 并 发 IO。 最 
差 的 IO 方式 为 随机 顺序 IO， 这 种 模式 下 不 管 是 吞吐 量 还 是 IOPS 都 是 相 
对 很 低 的 。 比 如 某 应 用 程序 更 改 大 量 文件 的 文件 名 或 者 访问 时 间 等 属 
性 ， 如 果 程 序 为 单线 程 同 步调 用 方式 ， 则 每 次 操作 只 能 发 起 一 次 IO， 
每 一 轮 只 能 更 改 一 个 文件 ， 如 果 有 几 万 个 或 者 更 多 的 文件 ， 那 么 此 时 
处 理 速度 将 会 非常 慢 。 解 决 办 法 是 改 为 异步 调用 ， 或 者 多 线程 同步 调 
用 ， 让 IO 并 发 执行 ， 充 满 IO Queue。 


表 19-1 IO 属 性 对 性 能 的 影响 


表 19-1 给 出 了 各 种 IO 形式 对 整体 性 能 的 影响 ， 这 些 影响 都 是 相对 
的 ， 即 总 体 来 讲 的 普遍 影响 ， 不 具有 特殊 情况 下 的 意义 。 


每 个 应 用 程序 都 会 有 自己 的 Buffer 用 来 存 取 有 待 处 理 的 数据 。 应 
用 程序 向 文件 系统 请 求 读数 据 之 后 ， 文 件 系统 首先 将 对 应 的 数据 从 底 
层 卷 或 者 磁盘 读 入 文件 系统 自身 Buffer， 然 后 再 将 对 应 的 数据 复制 到 
对 应 应 用 程序 的 Buffer 中 。 应 用 程序 也 可 以 选择 不 使 用 系统 内 核 缓 
存 ， 这 时 FS 将 IO 请 求 透明 地 翻译 并 转发 给 底层 处 理 ， 返 回 的 数据 将 直 
接 由 OS 放 到 应 用 程序 Buffer 中 。 当 应 用 程序 向 文件 系统 请 求 写 入 数据 
时 ， 文 件 系 统 会 先 将 应 用 程序 Buffer 中 对 应 的 数据 复制 到 文件 系统 
Buffer 中 ， 然 后 在 适当 的 时 刻 将 所 有 FS Buffer 内 的 Dirty Page 写 入 硬 
盘 ; 同样 ， 如 果 不 使 用 系统 内 核 缓存 ， 则 写 入 的 数据 经 过 FS 文件 一 块 
地 址 翻译 后 直接 由 OS 提 交 给 FS 下 层 处 理 。 文 件 系 统 的 动作 是 可 控 的 ， 
我 们 将 在 下 一 节 摘 述 文件 系统 的 相关 细节 参数。 


1. 同步 调用 和 异步 调用 


应 用 程序 可 以 选择 两 种 IO 执行 方式 : 第 一 种 是 同步 IO 调用 ， 另 一 
种 是 异步 IO 调用 。 


如 图 19-2 所 示 ， 前 者 指 某 线程 向 OS 发 起 IO 请 求 之 后 便 一 直 处 于 等 
待 挂 起 状态 ， 直 到 OS 将 IO 结果 返回 给 这 个 线程 ; 后 者 指 某 线程 向 OS 
发 起 IO 请 求 之 后 ，OS 立 即 返 回 一 个 “已 接受 ”信号 ， 线 程 此 时 就 可 以 继 
续 执行 后 续 代码 〈 后 续 代 码 可 以 执行 对 以 前 接收 到 的 数据 的 分 析 处 理 
或 者 继续 对 OS 发 起 后 续 的 IO 请 求 ; ， 当 0OS 将 IO 数据 从 相应 介质 读 入 
或 者 写 入 完成 后 ， 会 利用 某 种 方式 让 线程 知道 (比如 Windows 系 统 异 
步 IO 常 用 的 IO Completion Port 机 制 ) 。 有 人 可 能 会 在 此 产生 疑问 ， 如 
果 遇 到 某 个 程序 必须 等 待 当 前 IO 数据 返回 ， 不 返回 的 话 就 无 事 可 做 而 
挂 起 呢 ? 这 种 情况 是 有 的 ， 如 果真 的 遇 到 这 种 情况 ， 只 能 说 明 存储 系 
统 或 者 数据 链 路 的 速度 太 慢 已 经 影响 程序 性 能 了 ， 但 是 这 里 请 注意 ， 
如 果 使 用 了 异步 IO 调用 ， 则 可 以 在 短 时 间 内 发 送 大批 IO 请 求 到 OS， 从 
而 接收 到 大 批量 数据 返回 ， 如 果 这 时 应 用 程序 依然 没 被 喂 饱 ， 那 么 说 
明 存 储 系统 性 能 无 法 跟 上 ; 而 如 果 程 序 虽然 使 用 了 异步 1O 调 用 但 是 却 
与 同步 IO 时 做 相同 的 动作 ， 即 一 个 IO 请 求 发 出 后 ， 程 序 虽 然 没 有 被 阻 
塞 但 是 依然 自我 等 待 ， 一 个 IO 一 个 IO 的 来 ， 那 么 实际 也 是 没有 任何 效 
果 的 。 


图 19-2 ”同步 异步 IO 示意 图 


前 文中 所 述 的 并 发 TO ， 其 在 应 用 层 〈 并 发 IO 在 每 个 层次 都 有 对 应 
的 意义 ) 的 意义 就 是 指 异 步 IO 模式 ， 批 量 发 起 IO 从 而 喂 饱 底层 存储 系 
统 ， 榨 取 极 限 性 能 而 又 不 能 让 其 过 载 。 过 载 的 后 果 就 是 IO 响应 时 间 急 
剧 增加 而 IOPS 和 带宽 吞吐 量 根 本 疫 怎 么 增加 。 


IO 请 求 发 送 到 OS 内 核 之 后 到 内 核 将 IO 请 求 对 应 的 数据 读 取 或 者 写 
入 完成 这 段 时 间 会 贡献 为 0S 内 的 IOWait 指 标 增高 ，IOWait 指 标 一 旦 升 
高 到 高 于 60% 左 右 的 百分比 ， 那 么 就 需要 考虑 后 端 存 储 系 统 所 提供 的 
性 能 是 否 已 经 不 能 满足 条 件 了 ， 需 要 检查 各 项 配置 以 确认 是 否 是 存储 
系统 本 身 能 力 有 限 还 是 配置 没有 最 优化 。 


同步 IO 调用 如 果 不 加 任何 参数 的 话 一 般 是 操作 系统 提供 的 默认 调 
用 方式 ， 也 是 一 般 应 用 程序 首选 的 IO 调用 方式 。 一 般 情 况 下 ， 如 果 遇 
到 数据 链 路 速度 或 者 存储 介质 速度 很 慢 的 情况 ， 比 如 通过 低速 网 络 进 
行 IO 〈Ethernet 上 的 NFES、CIFS 等 ) ， 或 者 使 用 低速 Flash 心 片 等 时 ， 
使 用 异步 IO 方式 是 一 个 很 好 的 选择 。 第 一 是 因为 IO 请求 发 出 后 线程 可 
立即 执行 后 续 功 能 ， 比 如 继续 处 理 已 接收 到 的 数据 等 ; 第 二 是 因为 异 
步 IJO 调 用 可 以 接连 发 出 多 个 IO 请 求 ， 一 同 发 向 目标 ， 目 标 在 接收 到 这 
些 IO 请 求 之 后 可 以 一 并 处 理 ， 增 加 效率 。 比 如 SAIA 硬 盘 的 NCQ 功 
能 ， 如 果 应 用 层 只 有 一 个 线程 ， 而 且 整 个 IO 链 路 上 都 是 同步 调用 的 ， 
那么 这 个 Queue 中 永远 就 只 有 一 个 IO 请 求 ， 想 排队 优化 都 不 可 能 ， 磁 
头 臂 只 能 按照 IO 顺序 寻 道 。 


要 实现 与 单线 程 异步 IO 类 似 的 结果 ， 可 以 采用 另 一 种 方法 ， 即 生 
成 多 个 线程 或 进程 ， 每 个 线程 或 进程 各 自 进行 同步 IO 调用 。 然 而 ， 维 
护 多 个 线程 或 进程 需要 耗费 更 多 的 系统 资源 ， 而 采用 单线 程 异步 10 调 
用 虽然 需要 更 复杂 的 代码 来 实现 ， 其 相 比 多 线程 同步 1O 的 方式 来 说 仍 
然 更 加 高 效 。 


注意 : 在 windows 系 统 中 ， 如 果 应 用 程序 在 打开 某 文件 进行 
读 写 操作 时 未 指定 特殊 参数 ， 则 文件 系统 默认 是 使 用 自身 缓 
存 来 加 速 数据 读 写 操作 的 。 并 且 ， 这 种 情况 下 异步 调用 多 数 
情况 下 会 自动 变 为 同步 调用 ， 结 果 就 是 IO 发 出 后 操作 系统 不 


会 返回 任何 消息 直到 IO 完成 为 止 ， 这 段 时 间 内 线程 处 于 挂 起 
状态 。 为 何 会 这 样 呢 ? 有 三 个 原因 。 


(1) 预 读 和 Write Back。 文 件 系统 缓存 的 预 读 机 制 可 以 增加 IO 读 
操作 的 命中 率 ， 励 其 是 小 块 连续 IO 操作 ， 命 中 率 几 乎 百分之百 。 在 这 
种 情况 下 ， 每 个 读 IO 操作 的 响应 时 间 会 在 微 秒 级 别 ， 所 以 OS 会 自动 将 
异步 调用 变 为 同步 调用 以 便 节约 异步 10 所 带 来 的 系统 开销 。 


(2) 尽量 保持 IO 顺序 。 异 步 IO 模式 下 ， 应 用 程序 可 以 在 单位 时 
间 内 发 出 若干 IO 请 求 而 等 待 OS 批 量 返回 结果 。OS 对 于 异步 IO 结果 的 
返回 顺序 可 能 与 IO 请 求 所 发 送 的 顺序 不 同 ， 在 不 使 用 文件 系统 缓存 的 
情况 下 ，OS 不 能 缓存 底层 返回 的 IO 结果 以 便 重 新 对 结果 进行 排序 ， 只 
能 够 按照 底层 返回 的 实际 顺序 来 将 数据 返回 给 应 用 程序 ， 而 底层 设备 
比如 磁盘 在 执行 IO 的 时 候 不 一 定 严 格 按照 顺序 执行 ， 因 为 文件 系统 之 
下 还 有 多 处 缓存 ，IO 在 这 里 可 能 会 被 重 拍 或 者 有 些 IO 命 中 ， 有 些 则 必 
须 到 存储 介质 中 读 取 ， 命 中 的 IO 不 一 定 是 先 被 发 送 的 IO。 而 应 用 程序 
在 打开 文件 的 时 候 如 果 没 有 给 出 特殊 参数 ， 则 默认 行为 是 使 用 文件 系 
统 缓存 的 ， 此 时 系统 内 核 缓存 便 会 严格 保持 IO 结果 被 顺序 地 返回 给 应 
用 程序 ， 异 步调 用 变 为 同步 模式 。 


(3) 系统 内 核 缓 存 机 制 和 处 理 容 量 决定 。 文 件 系统 一 般 使 用 
Memory Mapping 的 方式 来 进行 IO 操作 ， 将 映射 到 缓存 中 一 定数 量 的 
page 中 ， 目 标 文件 当 需 要 的 数据 实际 内 容 没 有 位 于 对 应 page 中 时 ， 便 
会 产生 Page Fault， 需 要 将 数据 从 底层 介质 读 入 内 存 ， 这 个 过 程 OS 自身 
会 强行 使 用 同步 IO 模式 向 下 层 存 储 发 起 IO。 而 OS 内 存在 一 个 专门 负责 
处 理 Page Fault 情 况 的 Worker 线 程 池 ， 当 多 个 应 用 程序 单位 时 间 使 用 异 
步 10 向 OS 发 送 大 量 请 求 时 ， 一 开始 OS 还 可 以 应 付 ， 接 收 一 批 10 对 其 
进行 异步 处 理 ， 但 是 随 着 IO 大 量 到 来 ， 缓 存 命中 率 逐 渐 降 低 ， 越 来 越 


多 的 Page Fault 将 会 发 生 ， 诸 多 的 Worker 线 程 将 会 参与 处 理 Page Fault， 
线程 闻 将 迅速 耗 尽 。 此 时 OS 只 能 将 随后 到 来 的 IO 变 为 同步 操作 ， 不 再 
给 其 回应 直到 有 Worker 线 程 空 朵 为止 。 如 果 应 用 程序 在 打开 文件 进行 
操作 时 明确 要 求 不 使 用 文件 系统 缓存 ， 那 么 就 不 会 受 上 述 情 况 的 制 
约 ，OS 会 直接 返回 “接收 ”信号 给 应 用 程序 同时 将 请 求 发 送 到 文件 系统 
做 文件 一 块 地 址 翻译 后 转发 到 下 层 处 理 。 


导致 Windows 将 异步 强行 变 为 同步 的 原因 不 只 有 系统 内 核 缓存 的 
原因 ， 其 他 一 些 原因 也 可 以 导致 其 友 生 。 在 Windows 系 统 中 ， 访 问 
NTEFS 自 身 压缩 文件 、 访 问 NTFS 自 身 加 密 文件 、 任 何 扩展 文件 长 度 的 
操作 都 会 导致 异步 变 同 步 操作 。 要 实现 真正 的 异步 IO 效果 ， 最 好 在 打 
开 文 件 时 给 出 相关 参数 ， 不 使 用 内 核 文件 系统 缓存 。 但 是 不 使 用 文件 
系统 缓存 会 引起 读 IO 请 求 过 慢 ， 采 用 越过 缓存 并 且 使 用 异步 IO 的 应 用 
程序 都 是 经 过 严格 优化 的 ， 它 们 自身 会 实现 预 读 操 作 从 而 将 数据 预先 
读 入 自身 的 缓存 。 这 种 不 使 用 内 核 文 件 系 统 缓存 的 IO 方式 又 被 普遍 称 
为 “Direct IO0? 或 者 *DIO”。 异 步 IO 模式 又 衫 称 为 “AIO? 即 “Asynchronous 
IO"”。 


2。Windows 系 统 下 的 Asynchronous Explorer 


在 这 里 向 大 家 介绍 一 个 工具 : Asynchronous Explorer。 这 个 工具 为 
一 位 国外 高 手 开发 ， 他 为 了 研究 异步 IO 的 行为 而 专门 开发 了 这 个 工 
具 。 它 可 以 让 你 直截了当 地 判断 在 执行 IO 操作 时 Windows 系 统 底层 都 
做 了 什么 事情 ， 发 生 了 什么 ， 是 否 某 处 有 缓存 在 发 生 作用 等 。 有 兴趣 
的 读者 可 以 在 作者 的 博客 留 下 E-mail 以 便 作者 将 这 个 工具 发 送 过 去 。 


如 图 19-3 所 示 为 Asynchronous Explorer 的 主 界面 。 程 序 首 先 需 要 在 
磁盘 上 任意 目录 生成 一 个 结构 化 的 文件 ， 这 个 文件 中 存放 着 大 小 为 


1KB 的 若干 条 记录 ， 初 始 时 需要 创建 这 个 文件 ， 指 定 其 包含 记录 的 条 
数 。 创 建 完 后 ， 在 窗口 中 部 区 域 填 入 测试 将 要 发 送 的 IO 请 求 数 量 ， 每 
个 请 求 会 读 出 文件 中 的 一 条 记录 ， 也 就 是 每 个 读 IO 请 求 为 IKB (两 个 
扇 区 ) 大 小 。 然 后 单 击 Generate 按 钮 生成 测试 需要 发 送 的 IO 列表 ， 生 
成 的 IO 完全 是 随机 IO。 然 后 单 击 Run 按 钮 ， 程 序 便 会 以 异步 IO 模式 向 
OS 发 起 请 求 ， 所 有 IO 将 尽量 一 次 性 发 出 。 


图 19-3 Asynchronous Explorer 主 界面 


窗口 中 部 给 出 了 可 选 的 参数 ，Scan Suggestions 在 下 一 节 介 绍 。 其 
中 有 个 调用 参数 比较 重要 ， 即 FILE_FLAG_NO_BUFFERING ， 勾 选 这 
个 参数 表示 应 用 程序 在 打开 文件 进行 IO 的 时 候 不 使 用 文件 系统 缓存 

( 读 和 写 IO 都 不 进入 系统 内 核 缓存 而 直接 进入 卷 或 者 设备 驱动 IO 层 
面 ) ，FILE_FLAG_WRITE_THROUGH 在 下 一 节 介 绍 。 


窗口 下 部 为 本 次 测试 的 结果 标示 图 ， 每 一 个 黑 点 表示 一 个 IO， 对 
角 线 为 同步 线 ， 即 如 果 某 个 黑 点 落 在 了 这 条 线 上 ， 那 么 就 表示 这 个 IO 
的 结果 是 被 按照 请 求 发 出 的 顺序 返回 给 应 用 程序 的 ， 如 果 黑 点 落 在 同 
步 线 之 上 ， 则 证 明 IO 结 果 早 于 被 发 出 的 顺序 被 返回 ， 黑 点 落 在 同步 线 
下 方 则 表示 这 个 IO 结果 晚 于 被 发 出 的 顺序 返回 。 图 中 有 波动 幅度 的 曲 
线 为 IO 结 果 返 回 的 时 间 与 10 地 址 偏 移 量 的 遂 数 曲线 。 


现在 我 们 来 分 析 一 下 图 19-3 中 的 曲线 和 IO 分 布 情况 并 做 出 几 个 判 
断 。 测 试 时 由 于 选择 了 FILE_FLAG_NO_BUFFERING， 所 以 本 次 测试 
为 纯 异 步 IO 模式 ， 所 有 IO 在 最 短 的 时 间 内 批量 发 送 到 了 OS 内 核 。 然 而 
OS 返 回 的 结果 却 不 是 按照 IO 被 发 出 时 的 顺序 返回 的 ， 有 早 有 晚 ， 基 本 
上 平均 分 布 ， 这 种 现象 的 原因 是 因为 FS 之 下 某 处 有 某 种 Queue 在 发 生 
作用 ， 典 型 的 例子 就 是 硬盘 中 的 Queue， 比 如 SATA 盘 的 NCQ。 Queue 


会 将 IO 按照 当前 磁头 臂 所 在 的 位 置 按 照 电梯 原理 进行 优化 重 排 ， 使 得 
磁头 壁 降低 寻 道 次 数 和 寻 道 跨度 从 而 优化 性 能 。 这 一 点 可 以 从 IO 偏 移 
量 曲线 判断 ， 可 以 看 到 IO 结 果 基 本 上 是 按照 偏 移 量 递增 的 顺序 返回 
的 ， 而 IO 发 送 的 时 候 却 是 完全 随机 的 ， 所 以 这 里 判断 底层 的 某 个 
Queue 对 随机 的 IO 按照 偶 移 量 做 了 重 排 ， 使 得 倍 头 臂 顺序 地 并 且 小 跨 
度 地 寻 道 依次 完成 了 所 有 IO 的 读 取 动 作 并 且 返 回 结果 。 偏 移 量 曲线 产 
生 了 4 次 平滑 波动 ， 第 一 次 向 下 ， 第 二 次 长 时 间 平 缓 向 上 ， 第 三 次 陡峭 
向 下 ， 第 四 次 陡峭 向 上 ， 可 以 判断 这 些 波动 对 应 了 磁头 臂 的 摆动 方 
向 ， 磁 头 臂 做 了 四 次 大 幅度 摆动 ， 而 每 次 摆动 周期 内 伴随 着 多 次 小 跨 
度 换 道 操作 ， 这 种 磁头 辟 寻 道 方式 是 很 优秀 的 。 


在 主 界面 中 选择 Processing Time Plot 单 选 按钮 可 以 切换 到 另 一 种 结 
果 显 示 模 式 ， 即 IO 发 送 顺序 与 对 应 IO 响应 时 间 及 IO 偏 移 量 的 曲线 图 ， 
如 图 19-4 所 示 。 上 部 曲线 为 IO 响 应 时 间 ， 范 围 跨度 比较 大 的 曲线 仍然 
表示 IO0 偏 移 量 曲线 。 可 以 看 到 IO 偏 移 量 是 来 回 控 动 非常 随机 的 。 由 于 
Bypass 掉 了 文件 系统 缓存 ， 所 以 IO 响应 时 间 的 数量 级 上 升 到 了 100ms 
的 级 别 。 


图 19-4 ”响应 时 间 和 偏 移 量 曲线 


我 们 再 来 看 一 下 使 用 系统 内 核 缓 存 之 后 的 IO 变化 情况 ， 如 图 19-5 
所 示 。 虽 然 程序 依然 使 用 异步 IO 调用 ， 但 是 此 时 OS 已 经 强制 变 为 同步 
IO 操作 并 且 保 持 了 IO 结果 返回 的 顺序 符合 发 送 时 的 顺序 。 可 以 看 到 每 
个 IO 都 落 在 了 同步 线 上 ， 两 个 模式 显示 的 偏 移 量 曲线 相同 ， 表 示 IO 结 
果 返 回 的 顺序 与 发 送 时 的 顺序 相同 ， 并 且 由 于 系统 内 核 缓存 预 读 的 影 
响 ， 测 试 文件 大 部 分 已 经 处 于 缓存 中 ， 所 以 IO 响应 时 间 下 降 到 了 100 
微 秒 级 别 ， 降 低 了 1000 倍 。 


图 19-5 ”使 用 系统 内 核 缓存 之 后 的 IO 变化 


进行 完 上 面 的 测试 之 后 ，FS 下 层 某 处 的 Buffer (比如 磁盘 自身 组 
存 ) 一 定 残留 有 之 前 预 读 的 部 分 数据 。 为 了 验证 这 一 点 ， 我 们 即刻 勾 
选 FILE_FLAG_NO_BUFFERING ， 并 且 不 再 重新 Generate 新 的 IO 列 
表 ， 使 用 原 有 的 列表 以 保证 缓存 命中 率 。 立 即 Run 起 来 。 结 果 验 证 了 
这 个 说 法 。 


如 图 19-6 所 示 ，IO 发 起 之 初 一 段 时 间 内 结果 返回 非常 迅速 ， 延 迟 
在 100 微 秒 级 别 ， 全 部 落 在 了 同步 线 上 。 既 然 没有 使 用 系统 内 核 缓存 ， 
这 么 快 的 响应 速度 是 从 哪里 来 的 呢 ? 答案 只 有 一 个 ， 即 FS 下 层 某 处 必 
定 有 一 处 或 者 多 处 缓存 在 发 生 作 用 ， 这 个 或 者 这 些 缓存 内 残留 有 之 前 
程序 读 取 过 的 数据 部 分 ， 所 以 开始 的 一 部 分 IO0 命 中， 直接 从 缓存 返回 
给 了 应 用 程序 ， 而 且 可 以 发 现 偏 移 量 曲线 随机 跳跃 ， 表 明 IO 结 果 是 按 
照发 送 顺 序 迅 速 被 返回 的 。 而 随后 的 IO 命 中 率 变 得 越 来 越 低下 ， 最 终 
成 发 散 形状 分 布 ， 这 时 底层 的 Queue 优 化 效用 又 被 显现 出 来 ， 偏 移 量 
曲线 变 得 平滑 ， 响 应 时 间 也 相对 上 升 到 了 10ms 级 别 。 


图 19-6 ”验证 FS 下 层 某 处 缓存 的 作用 效果 


测试 时 勾 选 了 一 个 选项 ， 即 显示 IO 发 送 和 IO 返回 的 追逐 条 ， 如 图 
19-7 所 示 。 上 面 的 条 表示 IO 被 发 送出 去 的 完成 量 ， 下 面 的 条 显示 IO 结 
果 返 回 的 完成 量 ， 缓 存 命 中 时 两 个 条 的 行进 速度 是 相同 的 ， 而 缓存 不 
命中 时 IO 完成 量 进度 条 就 会 落后 于 IO 发 送 进度 条 。 本 测试 样 例 中 ， 起 
初 一 段 时 间 两 个 条 行进 速度 相同 ， 随 后 IO 完成 量 条 逐渐 变 慢 ， 对 应 了 
测试 结果 。 如 果 降 低 测 试 读 取 的 数据 量 ， 比 如 读 取 1x100 条 记录 ， 那 
么 100KB 的 数据 对 于 磁盘 缓存 来 讲 是 个 小 数目 ， 被 完全 留 在 磁盘 缓存 


的 几率 会 增加 ， 此 时 再 次 测试 就 会 发 现 偶尔 会 出 现 IO 完全 落 在 同步 线 
上 的 情况 ， 虽 然 Bypass 了 系统 内 核 缓存 。 


图 19-7 异步 IO 的 追逐 条 


下 面 ， 我 们 用 Asyn Explore 来 验证 一 下 在 纯 异 步 IJO 模 式 下 ， 应 用 
程序 的 IO 是 否 是 批量 发 送 的 。 我 们 使 用 iSCSI 协议 来 连接 一 个 外 部 存储 
系统 中 的 LUN， 并 在 主机 端 利 用 Wireshark 工 具 来 抓 包 分 析 。 如 图 19-8 
所 示 ， 在 5 号 TCP 包 中 竟然 一 次 性 包含 了 30 个 SCSI Read 请 求 IO ， 可 见 
异步 IO 确实 是 在 短 时 间 内 批量 被 发 出 的 ， 以 至 于 30 个 IO 一 次 性 被 打包 
在 了 一 个 TCP 包 中 传送 。 后 面 的 几 个 加 长 的 包 同 样 是 这 种 情况 ， 当 然 
也 夹杂 着 只 包含 一 个 IO 请 求 的 TCP 包 。 对 IO 的 Response 结 果 会 在 随后 
一 个 一 个 地 被 返回 。 另 外 ， 从 每 个 IO 请 求 的 长 度 =2 来 看 ， 确 实 符 合 
Async Explore 每 次 读 IO 请 求 1KB 数 据 相 符 (2x512B 二 1KB) 。 


图 19-8 ”验证 纯 异 步 IO 的 批量 发 送 


注意 : 在 使 用 ISCSUNAS 等 基于 TCPIP 的 存储 协议 时 ， 并 且 
是 随机 IO 环境 下 ， 利 用 Bypass 文 件 系统 缓存 的 纯 异 步 IO 模 式 
会 大 大 减少 网 络 传输 的 开销 。 因 为 如 果 使 用 文件 系统 缓存 ， 
则 OS 强 制 变 为 同步 IO 模式 ，IO 一 个 一 个 地 执行 ， 所 以 每 个 IO 
请 求 就 需要 被 封装 到 单独 的 TCP 包 和 以 太 网 帧 中 ， 在 IO 量 巨 
大 的 时 候 ， 这 种 浪费 是 非常 惊人 的 。 图 19.8 所 示 的 例子 中 ， 
纯 异 步 IO 模 式 下 的 抓 包 数据 文件 只 有 120KB ， 而 如 果 使 用 FS 
缓存 之 后 ， 同 样 的 IO 列表 ， 抓 包 数 据 变 为 490KB ， 开 销 是 前 
者 的 4 倍 ， 这 是 个 绝对 不 容 忽视 的 地 方 。 

注意 : 不 管 windows 还 是 Linuxz， 都 是 “用 户 程 序 一 OS 内 核 一 
存储 设备 ”这 种 架构 ， 用 户 程序 和 0OS 内 核 之 间 存 在 一 套 IO 接 


口 。 同 样 ，OS 内 核 与 存储 设备 之 间 一 样 存 在 着 IO 接口 ， 也 有 
异步 同步 、Write Through、Write Back 等 参数 。Linux 操 作 系 
统 的 IO 行为 与 Windows 有 很 多 不 同 之 处 。 

注意 : 在 Windows 系 统 下 ，OS 内 核 与 存储 设备 之 间 的 IO 行为 
完全 与 用 户 程 序 与 OS 内 核 之 间 的 IO 行为 对 应 ， 即 上 层 为 同步 
调用 则 底层 也 同步 ， 上 层 为 异步 调用 则 底层 也 异步 (在 不 使 
用 FS 缓存 时 ) 。 

而 在 Linux 系 统 下 ， 上 层 的 IO 与 底层 不 一 定 是 对 应 关系 ， 比 
如 ， 如 果 使 用 文件 系统 进行 IO 并 且 Mount 之 后 ， 底 层 对 磁盘 
的 操作 会 严格 按照 Mount 时 给 出 的 选项 (Async 或 者 Sync) 来 
执行 ， 并 且 ， 如 果 Async Mount 而 同时 用 户 程序 进行 同步 调 
用 ， 则 底层 依然 是 异步 操作 。 对 于 不 使 用 文件 系统 进行 IO 的 
情况 ， 比 如 使 用 dd 程序 直接 操作 设备 层 ， 由 于 dd 采用 同步 调 
用 ， 而 底层 卷 设备 不 可 能 有 预 读 机 制 ， 所 以 对 于 dd 的 同步 读 
操作 ， 在 底层 也 反映 为 对 磁盘 设备 的 同步 读 操作 ; 但 是 对 于 
Write Back 模 式 的 写 操作 ， 由 于 底层 卷 处 存在 缓存 ， 这 个 缓 
存 会 在 接收 写 操 作 之 后 即 返回 成 功 给 上 层 ， 然 后 对 IO 进行 优 
化 〈IO Combination 等 ) ， 然 后 批量 异步 Flush 到 物理 存储 设 
备 。 卷 处 的 缓存 不 但 可 以 Write Back， 而 且 还 拥有 读 缓存 作 
用 (虽然 它 不 可 进行 预 读 操 作 ， 但 是 之 前 被 读 入 数据 会 残留 
一 定时 间 ) ， 如 果 上 层 在 短 时 间 内 发 起 重复 地 址 的 读 操作 ， 
会 先 从 卷 缓存 处 寻求 命中 ， 不 命中 后 再 读 取 人 磁盘 。 

注意 : 这 里 还 需要 理解 一 点 ， 即 如 果 使 用 文件 系统 缓存 ， 那 
么 Windows 会 强行 将 异步 IJO 变 为 同步 阻塞 模式 ， 即 应 用 无 法 
在 短 时 间 内 发 送 大 批 IO 了 。 这 样 做 虽然 使 用 了 文件 系统 缓存 
的 加 速 作 用 ， 但 却 也 降低 了 IO 并 发 度 。 而 如 果 在 FS 下 位 某 处 
的 缓存 同样 具有 加 速 IO 的 作用 ， 那 么 不 使 用 FS 的 缓存 从 而 让 


应 用 层 处 可 以 产生 并 发 的 无 阻塞 异步 IO ， 而 这 些 IO 命 中 于 FS 
下 位 的 某 处 缓存 ， 这 样 就 可 以 一 箭 双 雕 了 。 本 例 中 由 于 测试 
只 是 用 了 台式 机 单 块 磁盘 ， 磁 盘 缓 存 容量 小 且 处 理 能 力 有 
限 ， 所 以 IO 响应 很 快 升 高 。 如 果 底 层 设 备 为 具有 大 容量 缓存 
和 高 处 理 能 力 的 智能 存储 设备 ， 那 么 缓存 命中 率 会 大 大 增 
加 ， 这 种 情况 下 就 会 获得 更 快 的 响应 时 间 ， 是 最 优 的 实现 方 
式 。 如 图 19-9 所 示 ， 测 试 使 用 一 台 外 部 NAS 存 储 系 统 ， 具 有 
大 容量 缓存 和 高 处 理 能 力 ， 即 使 使 用 了 
FILE_FLAG_NO_BUFFERING 参 数 ， 依 然 得 到 了 比较 高 的 响 
应 速度 和 向 同步 线 归 拢 趋势 的 IO 分 布 。 分 别 利 用 CIFS 和 
iSCSI 作为 访问 协议 ， 得 到 了 相同 的 结果 。 左 面 是 CIFS 的 结 
果 ， 右 面 是 iSCSI 的 结果 。iSCSI 环 境 下 读 取 了 1000 条 记录 ， 
所 以 IO 分 布点 比 CIFS 多 ， 后 者 读 取 了 100 条 记录 。 


图 19-9 ”FS 下 层 有 缓存 的 效果 


注意 几 种 表述 方式 : 异步 IO 不 一 定 不 使 用 缓存 ， 同 步 1O 不 一 
定 使 用 缓存 。 同 步 异 步 和 Write Back/Through 没 有 直接 关系 。 


3。Network IO 


有 时 候 文件 并 不 存放 在 本 地 磁盘 ， 而 是 存放 于 另外 一 台 计 算 机 
上 ， 需 要 通过 某 种 网 络 比 如 TCP/P 来 访问 对 方 的 计算 机 ， 并 且 还 需要 
某 种 网 络 文件 访问 协议 比如 CIFS/NEFS 等 来 对 位 于 网 络 另 一 端的 计算 机 
上 的 文件 进行 IO 操作 ， 这 便 是 Network IO ， 即 网 络 IO。 


如 图 19-10 所 示 为 网 络 IO 的 示意 图 。 其 中 有 一 个 关键 模块 为 
Network Redirector。Redirector 的 作用 是 将 上 层 的 IO 请 求 翻 译 成 网 络 文 
件 访问 协议 后 发 送 到 对 端 ， 这 样 ， 应 用 程序 就 可 以 像 访问 本 地 文件 一 
样 通过 网 络 来 访问 其 他 计算 机 上 的 文件 了 。 


图 19-10 ”Network IO 流程 
Network IO 的 过 程 如 下 。 
应 用 层 向 OS 发 起 IO 请 求 读 写 位 于 某 网 络 映射 盘 符 下 的 某 个 文件 。 


OS 接 收 到 这 个 IO 请 求 之 后 ， 交 给 Network Redirector 处 理 。 
Redirector 接 收 到 IO 请 求 之 后 ， 将 这 个 IO 翻译 并 封装 成 对 应 网 络 协议 与 
网 络 文件 访问 协议 相 匹 配 的 数据 包 并 将 其 发 送 到 对 应 的 远程 计算 机 。 


远程 计算 机 上 的 Network Redirector 接 收 到 这 个 IO 请 求 之 后 ， 对 源 
计算 机 进行 认证 ， 认 证 通过 之 后 ， 远 程 计 算 机 根据 IO 请 求 中 的 具体 信 
息 对 本 地 的 目标 文件 进行 IO 操作 ， 然 后 将 数据 通过 Redirector 返 回 给 源 
计算 机 。 


源 计 算 机 收 到 远程 计算 机 的 数据 之 后 ， 将 数据 返回 给 发 起 IO 的 应 
用 程序 。 


注意 : 网 络 IO 的 响应 时 间 普 遍 较 长 ， 有 时 甚至 会 出 现 超时 的 
情况 ， 应 用 程序 必须 做 好 准备 ， 延 长 IO 等 待 超时 时 间 。 

由 于 外 部 网 络 稳 定性 不 比 内 部 总 线 ， 所 以 会 经 常 发 生 中 断 现 
象 从 而 导致 TCP 连 接 中 断 而 网 络 文件 访问 协议 栈 也 会 Reset。 
此 时 Client 端 应 用 程序 并 不 会 感知 这 一 点 ， 可 能 依然 会 使 用 之 
前 对 文件 进行 打开 操作 时 所 获得 的 文件 句柄 对 文件 进行 操 


作 ， 而 Server 端 由 于 协议 栈 Reset 导 致 句 柄 失效 ， 所 以 会 返回 
句柄 过 期 的 通知 给 客户 端 Redirector，Redirector 便 向 上 层 报 
错 ， 应 用 程序 此 时 需要 重新 进行 打开 文件 操作 以 获得 新 句 
柄 。 这 种 现象 在 使 用 NFS 协 议 时 非常 常见 。 


4。Network IO 下 的 缓存 机 制 


由 于 网 络 IO 速 度 远 比 不 上 本 地 IO ， 所 以 如 果 在 Client 端 保持 一 个 
缓存 的 话 是 非常 有 效果 的 。 网 络 IO 的 Client 端 缓存 可 以 同时 加 速 读 和 写 
IO。NFS 和 CIFS 都 可 以 使 用 缓存 。 


CIFS 下 的 缓存 和 IO 机 制 
下 面 介 绍 Buffered IO 和 非 Buffered IO 模式 下 的 读 行 为 。 


使 用 系统 缓存 是 程序 在 Open 一 个 文件 时 默认 的 选项 ， 不 管 对 于 
CIFS 还 是 本 地 文件 。 在 此 ， 很 多 程序 员 不 会 去 过 多 考虑 这 一 点 ， 但 恰 
恰 就 是 这 一 步 有 失 考虑 ， 在 特定 情况 下 却 可 能 造成 程序 IO 性 能 极 差 。 
我 们 来 做 一 个 疯狂 实验 。 


使 用 Async Explorer 在 一 个 CIFS 协 议 映 射 的 网 络 驱 动 器 中 生成 一 个 
测试 用 文件 。 然 后 生成 一 份 测试 地 址 列表 ， 勾 选 
FILE_FLAG_NO_BUFFERING 不 使 用 系统 内 核 缓存 ， 异 步 地 随机 读 取 
文件 中 的 100 条 记录 (每 条 为 1KB 大 小 ) ， 开 启 Wireshark 工 具 抓 取 网 络 
上 的 CIFS 协 议 数据 流 ， 然 后 单 击 Run 按 钮 ， 得 到 的 结果 如 图 19-11 所 示 

(只 列 出 了 部 分 结果 ) 。 


图 19-11 不 使 用 缓存 异步 IO 


我 们 从 结果 中 可 以 看 到 ， 在 Bypass 系 统 缓存 后 ，Network IO 模块 
完全 透 传 了 应 用 层 的 IO 请 求 ，IO 类 型 确实 是 只 有 异步 模式 才 可 能 让 单 
线程 发 出 的 并 发 IO ， 而 且 每 个 IO 大 小 都 是 IKB。 当 然 第 一 个 IO 为 
0.5KB 并 且 是 同步 的 ， 这 有 可 能 是 程序 故意 而 为 ， 比 如 读 取 文件 标识 
等 信息 。 可 以 看 到 35 人 40 号 包 表 示 了 接连 发 出 的 6 个 并 发 IO 请 求 。 而 
且 每 个 IO 针对 的 文件 Offset 也 都 是 随机 的 。 


我 们 现在 再 使 用 同样 的 IO 地 址 列表 ， 针 对 相同 的 文件 ， 做 相同 的 
测试 ， 唯 一 区 别 就 是 不 勾 选 FILE_ FLAG_NO_BUFFERING， 也 就 是 使 
用 系统 缓存 。 测 试 结 果 如 图 19-12 所 示 (只 列 出 了 部 分 结果 ) 。 


图 19-12 ”使 用 缓存 ， 读 惩罚 


从 以 上 结果 看 来 ，OS 确 实 将 异步 操作 强制 变 为 了 同步 操作 ， 除 此 
之 外 ， 还 有 一 点 最 大 的 不 同 ， 即 IO Size 变 为 了 4KB 或 者 KB 了 。 但 是 
程序 明明 给 出 的 是 1KB 的 IO 请 求 ， 为 何 到 了 底层 反而 被 扩大 了 如 此 之 
多 呢 ? 考虑 到 4KB 和 8KB 这 种 数值 ， 我 们 首先 应 该 想到 操作 系统 的 
Memory Page 大 小 为 4KB， 这 里 是 不 是 OS 使 用 了 Memory Mapping 方 式 
来 将 IO 的 目标 映射 到 页 面 内 存 地 址 空间 了 ， 从 而 针对 这 些 目 标的 读 写 
都 会 以 Page 为 单位 呢 ? 要 调查 这 一 点 ， 我 们 就 要 首先 假设 这 个 结论 成 
立 ， 而 如 果 结 论 成 立 ， 那 么 OS 在 读 取 对 应 Page 的 时 候 一 定 是 从 Page 的 
边界 开始 读 的 ， 也 就 是 说 ， 每 个 IO 请 求 的 Offset 值 必定 可 以 除 4KB 而 除 
尽 。 我 们 可 以 算 一 算 ， 上 图 中 的 每 个 Offset 都 是 可 以 除 尽 4KB 的 ， 所 
以 ， 这 就 充分 证 明了 这 个 结论 。 另 外 ， 由 于 两 次 测试 需要 读 取 的 文件 
偏 移 地 址 列表 是 相同 的 ， 但 是 第 二 次 测试 结果 中 每 个 IO 的 Offset 却 并 
不 等 于 第 一 次 测试 结果 中 对 应 的 值 (高 位 大 臻 相同) ， 这 也 说 明了 ， 
第 二 次 测试 ，Network IO 模块 并 没有 透 传 上 层 的 IO 请 求 到 CIFS Server 
上 ， 而 就 是 走 入 了 Page Fault 缺 页 处 理 流 程 。 


细心 的 读者 可 能 已 经 发 现 ， 测 试 1 中 的 37 号 包 对 应 的 Offset 为 2560 
的 IO 请 求 ， 在 测试 2 的 结果 中 不 见 了 ， 并 没有 对 应 的 IO 被 发 送 到 CIFS 
Server。 这 是 怎么 回 事 呢 ? 我 们 算 一 算 ， 这 个 请 求 的 Offset 是 从 第 
2560B 开 始 的 后 1024B，2560 十 1024 二 3584B， 而 文件 被 映射 到 内 存 的 
第 一 个 Page 大 小 是 4096B ，3584<4096， 落 入 Page 范 围 内 ， 那 么 0S 应 
该 读 入 这 个 Page 的 啊 ， 为 何 第 二 次 测试 结果 并 没有 读 入 呢 ? 我 们 立即 
可 以 推断 ， 由 于 第 一 个 IO 的 oOffset 是 0， 长 度 是 512B， 同 样 也 落 入 第 一 
个 Page， 是 不 是 OS 会 对 已 经 读 入 的 Page 做 一 定时 间 的 缓存 呢 ? 测试 结 
果 充 分 证 明了 这 个 行为 ， 正 因为 37 号 包 对 应 的 第 4 个 IO 请 求 发 生 了 
Read Cache Hit， 所 以 第 二 次 测试 时 Network IO 模块 根本 没有 将 这 个 IO 
请 求 发 送 给 CIFS Server。 


那么 为 何 会 出 现 8KB 尺 寸 的 IO 呢 ? 要 解释 这 个 问题 很 简单 ， 我 们 
依然 将 两 次 测试 结果 来 进行 比较 。 在 第 一 次 测试 结果 中 找到 与 二 次 结 
果 中 的 63 号 包 相 对 应 的 包 ， 即 42 号 包 ， 一 次 结果 中 42 号 包 对 应 的 IO 请 
求 为 : 从 2334208 开 始 的 1024 字 节 ，2334208 十 1024 三 2335232B ， 而 
2334208~2335232 这 个 Offset 范 围 会 落 入 哪个 Page 呢 ? 大 家 可 以 计算 一 
下 ， 结 果 是 前 一 部 分 落 入 一 个 Page， 后 一 部 分 落 入 下 一 个 Page， 这 比 
较 槛 输 ， 所 以 OS 会 读 出 这 两 个 Page， 也 就 是 共 8KB 的 内 容 来 应 对 这 个 
IO 请 求 。 


还 可 以 从 测试 结果 发 现 ， 即 使 Open 文 件 的 时 候 ， 程 序 选 择 了 使 用 
缓存 ， 客 户 端 文件 系统 也 丝 军 不 会 做 任何 程度 哪怕 是 最 小 力度 的 试探 
性 预 读 操作 ， 但 是 却 可 以 缓存 已 经 被 读 入 的 Page。 


在 客户 端 使 用 Filemon 监 测 工具 图 19-13 Filemon 监测 结 
同样 监测 到 了 相同 的 结果 ， 在 另 一 
个 测试 中 ， 出 现 了 同样 的 结果 ， 如 图 19-13 所 示 。 带 星 号 的 表示 非 程序 


发 起 的 IO 请求 ， 说 明 是 由 OS 内核 自己 发 起 的 IO 请 求 。 其 中 
IRP_MJ_READ 是 内 核 IOM 提 供 的 功能 函数 ， 详 见 本 章 后 面部 分 。 


提 示 : FILE_FLAG_NO_BUFFERING 或 者 
FILE_FLAG_WRITE_THROUGH 这 两 个 参数 对 于 写 IO 请 求 来 
讲 具 有 大 致 类 似 的 效果 ， 但 是 对 于 读 IO 来 讲 ， 想 越过 FS 缓存 
就 只 能 使 用 前 者 。 如 果 目 标 文 件 位 于 网 络 另 一 端 ， 那 么 
FILE_FLAG_NO_BUFFERING 这 个 参数 只 会 对 客户 端 发 生效 
果 ， 当 请 求 被 传送 到 服务 器 端 时 ， 对 于 读 请 求 ， 这 个 参数 不 
会 产生 任何 效果 ， 服 务 器 总 是 可 以 首先 进行 目标 文件 在 其 本 
地 缓存 的 Cache Hit 流 程 ; 但 是 对 写 请 求 会 有 效果 ， 服 务 端 在 
SMB 协 议 中 会 检测 这 个 参数 对 应 的 标记 以 便 做 出 相应 动作 ， 
设置 了 标记 的 请 求 ， 服 务 端 会 保证 将 其 写 入 硬盘 之 后 才 返 回 
完成 信号 。 如 图 19-14 所 示 为 只 设置 了 前 者 (上 半 图 ) 和 只 设 
置 了 后 者 (下 半 图 ) 时 数据 包 中 不 同 的 位 被 置 1。 另 外 ， 这 两 
个 参数 是 有 本 质 上 的 区 别 的 ， 详 见 下 文 。 

另外 在 其 中 我 们 还 可 以 看 到 其 他 本 章 前 文 所 描述 的 一 些 
FLAG， 比 如 控制 随机 或 连续 IO 的 FLAG。 


图 19-14 ”Wirtie Through 和 No Buffer 位 


至 此 我 们 得 出 了 结论 : 对 于 小 块 随机 IO 读 ， 使 用 CIFs 方 式 访问 数 
据 的 情况 下 ， 客 户 端 在 调用 API 时 使 用 缓存 的 两 个 坏处 是 : 异步 变 同 


说 到 写 惩罚 大 家 很 熟悉 ， 但 是 读 惩罚 确实 也 存在 。 所 以 我 们 要 尽 
力 避 免 读 惩罚 ， 由 于 开发 人 员 在 设计 程序 时 如 果 没有 显 式 地 认识 到 这 
个 问题 ， 一 般 都 会 直接 使 用 默认 参数 ， 没 有 越过 系统 内 核 的 缓存 ， 而 


这 恰恰 就 是 导致 性 能 低下 的 原因 。 而 对 于 大 块 连续 IO 读 ， 更 没有 必要 
使 用 客户 端 缓存 ， 因 为 内 核 在 CIFS 的 IO 方式 下 不 会 预 读 ， 还 要 它 做 什 
么 甚 呢 ? (实验 证 明 ， 即 使 使 用 Async Explorer 在 打开 文件 时 指定 
FILE_FLAG_SEQUENTIAL SCAN 参数 来 刺激 FS 预 读 也 是 无 济 于 事 ， 
试验 结果 就 不 再 引入 了 ) 使 用 客户 端 缓存 唯一 能 够 有 加 速效 果 的 情 
况 ， 是 小 块 连续 IO 读 ， 比 如 512B 的 IO。 这 样 ， 客 户 端 每 读 入 1 个 
Page， 就 相当 于 预 读 了 后 面 7 个 IO 所 需要 的 数据 。 称 这 种 行为 为 预 读 尚 
且 有 些 自欺欺人 ， 况 且 连 续 小 块 读 这 种 行为 在 应 用 层 就 应 该 尽量 将 这 
些 连续 的 小 块 合并 为 大 块 才 是 正路 ， 不 应 该 不 负责 任 地 增加 底层 的 负 
担 。 


曾经 有 人 在 Windows Vista 64B 版 本 上 遇 到 了 同样 的 问题 ， 而 且 读 
惩罚 更 加 严重 ， 每 次 需要 读 入 32KB 的 数据 ， 但 是 这 里 作者 不 能 确认 是 
否 Windows Vista 64B Edition 的 Page Size 确 实 是 32KB。 所 能 确认 的 是 ， 
上 文 测试 中 的 4KB 确 实 是 Page Size 在 起 作用 而 不 是 FS 格式 化 时 指定 的 
Block Size 在 起 作用 。 退 一 步 讲 ，CIFS 协 议 本 身 并 没有 引入 Server 端 向 
Client 端 通告 Server 本 地 FS Block Size 的 机 制 ， 所 以 客户 端 既然 不 知道 
Server 的 FS Block 大 小 ， 那 么 上 文 测试 中 的 4KB 也 就 与 FS Block Size 无 
关 。 为 了 证 明 这 一 点 ， 下 面 做 一 个 试验 给 大 家 看 一 看 。 


如 图 19-15 所 示 ，F 盘 是 一 个 本 图 19-15 ”Filemon 写 惩罚 监测 结 
地 磁盘 ， 被 格式 化 为 FS Block Size 三 
2048KB。 图 中 第 一 行 表示 程序 向 F 盘 下 面 的 一 个 文件 发 起 了 Offset 三 
19949，Length 三 1024B 的 随机 Offset 写 IO ， 这 一 定 会 产生 写 惩 罚 。 果 
然 ， 第 二 行 带 星 号 ， 表 示 这 是 内 核 自 动 发 起 的 IO ， 是 一 个 读 请 求 ， 可 
以 看 到 这 个 读 请 求 的 Offset=16384，Length 三 4096B。 其 Offset 可 以 被 
4096 除 尽 ， 表 示 OS 自 动 读 入 了 1 个 Page 大 小 的 数据 ，Page 在 内 存 中 都 


是 以 4KB 为 单位 的 ， 所 以 这 个 IO 的 起 始 Offset 也 是 出 于 Page 的 边界 上 。 
虽然 FS 被 格式 化 为 2048B 为 一 个 Block， 但 是 这 里 OS 依然 使 用 了 4KB 的 
IO Size， 这 就 充分 说 明了 上 文 的 结论 。 


另外 ， 根 据 这 个 图 我 们 还 可 以 看 得 出 来 ，OS 读 入 这 个 Page 之 后 ， 
第 一 行 的 IO 会 落 入 这 个 Page， 图 中 所 显示 的 所 有 IO 请 求 也 都 落 入 了 这 
个 Page， 所 以 OS 再 没有 发 起 其 他 Page 的 读 IO 请 求 ， 因 为 图 中 所 有 的 IO 
都 会 Cache Hit。 当然 这 里 只 是 特殊 情况 ， 因 为 可 以 看 到 图 中 的 所 有 IO 
的 起 始 Offset 根 本 没 相差 几 个 字 节 ， 测 试用 程序 也 是 故意 定制 成 这 样 
的 。 如 果 遇 到 一 个 起 始 Offset 没 有 深入 已 读 入 Page 沁 围 的 IO 请 求 ， 那 么 
内 核 依然 还 要 读 取 对 应 的 Page。 本 章 后 面 章节 讲述 的 块 设备 IO 的 IO 
Size 等 也 都 会 受 Page Size 的 影响 。 


对 于 小 块 连续 读 ， 使 用 Buffered IO 会 有 一 定 的 缓存 命中 率 ， 但 是 
由 于 底层 没有 主动 预 读 ， 所 以 带 来 的 提速 是 微乎其微 的 。 


提示 : FS Block Size 大 部 分 情况 下 并 不 决定 FS 预 读 或 者 写 惩 
罚 读 的 单位 ，FS 往 往 是 以 内 存 页 面 的 大 小 来 决定 读 入 数据 单 
位 的 ， 包 括 下 面 章节 要 讲 的 AIX 系 统 下 FS 预 读 ， 也 是 使 用 
Page 来 作为 单位 的 。FS Block Size 的 最 大 一 个 作用 其 实 就 是 
单纯 地 作为 FS 对 文件 空间 进行 分 配 时 的 最 小 单位 。 所 以 ， 这 
里 请 准确 理解 OS RAM Page Size 和 FS Block Size 的 角色 和 作 
用 。 


上 面 论述 了 CIFS 环 境 下 的 读 行为 ， 现 在 我 们 再 来 看 看 写 行 为 。 对 
于 写 IO， 如 果 程 序 明 确 指出 了 使 用 FILE_FLAG_NO_BUFFERING 或 者 
FILE_ FLAG_WRITE_THROUGH 的 话 ， 那 么 底层 会 完全 透 传 上 层 程序 
发 出 的 写 IO ， 并 且 这 个 请 求 到 了 CIEFS Server 端 也 会 被 Server 以 Write 


Through 的 方式 写 入 磁盘 后 才 会 返回 完成 信号 。 而 如 果 程 序 没有 使 用 这 
两 个 参数 的 任何 一 个 ， 那 么 客户 端 系统 会 默认 使 用 缓存 进行 写 IO。 


我 们 首先 来 调查 系统 对 非 Buffered IO 的 写 行 为 。 非 Buffered IO 又 
分 为 WriteThrough 方 式 和 NO_BUFFER 方 式 ， 上 文 小 提示 中 给 出 了 二 者 
的 本 质 区 别 ， 这 里 我 们 用 实践 来 检验 之 。 


非 Buffered IO (Direct IO) 模式 下 的 写 行 为 如 下 。 


下 面 我 们 分 析 在 CIFS 访问 方式 下 ， 使 用 
FILE_FLAG_NO_BUFFERING 参 数 打 开 目 标 文 件 之 后 ， 系 统 内 核 是 否 
还 会 发 生 惩罚 行为 。 


如 图 19-16 所 示 ， 使 用 测试 软件 以 相同 的 其 他 测试 参数 ， 分 别 用 
WT 模 式 和 FILE_ FLAG_NO_BUEFFERING 方 式 打 开 目 标 文 件 进行 513B 
(注意 ， 非 512B 对 齐 ) IO Size 的 随机 读 测试 。 


图 19-16 ”WT 模式 与 NOBUFFER 模 式 读 对 比 测试 


图 中 右 侧 下 部 1 号 记录 显示 了 在 使 用 
FILE_FLAG_NO_BUFFERING 参 数 打 开 文 件 后 ， 底 层 所 监测 到 的 
NoBuffer Access 。 下 部 左 侧 的 CIFS 协 议 数 据 包 中 对 应 的 
FLAG“Intermediate Bufferding” 也 置 了 1， 两 者 一 一 对 应 。 两 次 测试 给 
出 的 内 核 IO 惩 罚 完全 不 同 : WT 模式 下 惩罚 严重 ， 而 NoBuffer 模 式 下 根 
本 没有 惩罚 。 而 且 还 得 出 了 另外 一 个 结论 ， 即 如 果 底 层 采 用 CIFS 协 议 
来 访问 目标 文件 ， 则 上 层 程序 在 使 用 FILE_FLAG_NO_BUFFERING 之 
后 ， 可 以 发 出 iosize 不 等 于 局 区 整数 倍 的 IO 请 求 ， 而 且 这 些 请 求 被 完全 


地 透 传 到 CIFS 层 执行 。 这 个 设计 是 合理 的 ， 因 为 CIFS 协 议 自身 并 没有 
规定 读 写 请 求 的 offset 必 须 与 某 个 单位 对 齐 。 而 对 于 底层 直接 使 用 物理 
磁盘 IO 的 情况 ， 就 必须 要 求 使 用 NoBuffer 模 式 的 程序 发 出 扇 区 对 齐 的 
IO 请 求 了 。 


使 用 了 NoBuffer 模 式 之 后 ， 针 对 CIFS 目 标 文 件 的 读 和 写 请 求 均 被 
完全 透 传 。 如 图 19-17 所 示 为 同样 使 用 了 NoBuffer 模 式 对 目标 文件 进行 
567B 的 随机 写 入 ， 发 现 IO 请 求 被 完全 透 传 到 底层 ， 没 有 任何 读 或 者 写 
惩罚 存在 。 


图 19-17 ”NoBuffer 模 式 写 测试 


提示 : CIFS 访 问 方式 下 ， 使 用 NoBuffer 模 式 打 开 文 件 进行 IO 
的 程序 没有 必要 一 定 发 出 扁 区 对 齐 的 IO 请 求 ， 此 时 内 核 完全 
透 传 上 层 的 IO 请 求 。 但 是 IO 请 求 到 了 CIFS Server 端 之 后 ， 依 
然 会 在 Server 端 本 地 产生 对 应 的 惩罚 ， 所 以 ， 从 全 局 角度 来 
讲 ， 程 序 任何 情况 下 都 发 出 扇 区 对 齐 的 IO 请 求 是 最 理想 的 状 
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5。Buffered IO 模式 下 的 写 行 为 


这 里 需要 区 分 概念 ，Buffered IO 一 样 可 以 使 用 Write Through 
(WT) 。WT 并 不 是 说 IO 请 求 不 经 过 内 核 缓存 ， 而 是 先进 入 缓存 但 是 
系统 需要 将 数据 彻底 写 入 底层 介质 之 后 才 返 回 成 功 。 


对 一 个 文件 进行 写 入 操作 有 两 种 方式 : 一 种 是 追加 写 ， 另 一 种 是 
覆盖 写 。 这 两 种 模式 对 系统 底层 的 10 行 为 影响 锭 异 。 下 面 会 分 别 介 


S| 
绍 。 


1) Buffered IO 下 使 用 wRITE THROUGH 模 式 写 


首先 我 们 对 WT 模式 做 一 系列 疯狂 实验 。 在 Windows 系 统 下 使 用 某 
测试 工具 打开 CIFS Server 上 某 文件 进行 测试 ， 打 开 时 只 指定 WRITE 
THROUGH 参 数 ， 然 后 从 文件 头 部 开始 做 1KB 每 次 的 同步 写 操作 。 从 
如 图 19-18 所 示 的 底层 IO 输 出 结果 来 看 ， 产 生 了 严重 的 读 和 写 惩 罚 。 


图 19-18 ”WT 模式 连续 小 块 写 测试 


中 左 侧 为 Client 与 Server 之 间 的 IO 请 求 输出 ， 右 侧 为 Client 本 地 
使 用 Filemon 底 层 过 滤 驱 动 检 测 到 的 本 地 所 发 生 的 IO 请 求 输出 ， 发 现 二 
者 是 一 一 对 应 关系 。 


为 了 满足 第 一 个 offset 二 0 length 二 1KB 的 写 操 作 ， 系 统 首先 需要 读 
入 4KB 大 小 的 Page0 也 就 是 offset 二 0 lengh 三 4KB 的 数据 (对 应 右 侧 带 
星 号 的 75 号 记录 ) ， 然 后 将 读 入 的 page 的 前 1KB 在 内 存 中 替换 为 IO 请 
求 的 数据 。 由 于 设置 了 WT 参数 ， 所 以 此 时 系统 还 必须 再 次 将 此 修改 
后 的 page0 写 入 ， 所 以 紧 接着 发 生 了 4KB 的 写 入 请 求 (对 应 右 侧 带 星 号 
的 76 号 记录 ) ， 第 一 次 1KB 写 IO 至 此 完成 。 第 二 次 程序 继续 发 起 写 
IO ， 由 于 是 连续 地 址 写 ， 这 次 IO 为 offset=1024， length 三 1024。 但 是 
这 次 ， 系 统 不 再 读 入 page0 ， 因 为 前 一 轮 修改 后 的 Page0 依 然 在 缓存 
中 ， 此 时 系统 直接 使 用 这 个 page0 即 可 ， 将 page0 中 从 offset1024 开 始 之 
后 的 1024B 替 换 为 本 次 IO 对 应 的 数据 ， 然 后 立即 发 起 向 CIFS Server 的 
写 入 请 求 ， 写 入 修改 后 的 page0。 对 于 再 往 后 的 2 次 写 入 ， 系 统 依然 不 
需要 从 Server 端 读 入 page0， 所 以 ， 对 一 开始 发 生 的 4 个 写 IO 请 求 ， 系 
统 只 读 入 了 一 次 page0， 却 写 入 了 4 次 修改 后 的 page0。 依 此 类 推 ， 对 下 
4 次 写 IO， 系 统 需要 读 入 pagel1， 然 后 执行 相同 过 程 。 


总 体 来 讲 使 用 WT 模式 ， 并 没有 完全 Bypass 系 统 内 核 的 缓存 ， 所 以 
直接 导致 了 严重 的 读 写 惩罚 ， 产 生 了 4 倍 的 总 惩罚 量 ， 计 算 公 式 为 (总 
读 入 十 总 写 入 一 应 写 入 ) /应 写 入 。 图 中 右 侧 1 号 记录 中 可 以 看 到 过 滤 
驱动 监测 到 了 上 层 打开 文件 时 指定 的 WT 参数 ， 带 星 号 的 记录 表示 这 
个 请 求 是 内 核发 起 的 而 不 是 程序 发 起 的 。 


同 理 ， 如 果 将 上 面 的 测试 程序 发 起 的 IO Size 改 为 2KB， 那 么 推导 
可 得 出 每 2 次 上 层 IO 就 会 对 应 内 核 的 1 次 读 page 和 2 次 写 page 动 作 ， 
19-19 给 出 了 结果 ， 惩 罚 倍 数 为 2 倍 。 同 理 可 得 ， 如 果 上 层 IO Size 为 
512B， 那 么 惩罚 倍数 将 达到 8 倍 。 


图 19-19 ”WT 模式 2KB 写 入 测试 


同 理 还 可 得 ， 如 果 程 序 发 起 的 IO Size 为 4KB， 那 么 惩罚 倍数 二 1， 
也 就 是 没有 惩罚 ， 如 图 19-20 所 示 。 如 果 程 序 发 起 page size 也 就 是 4KB 
对 齐 的 IO 请 求 ， 系 统 底 层 是 否 还 会 产生 惩罚 ?可 以 看 到 系统 底层 并 未 
出 现任 何 惩罚 量 。 右 侧 的 监测 记录 也 表示 程序 发 起 的 IO 写 与 内 核发 起 
的 I0 写 一 一 对 应 。 


图 19-20 WT 模式 4KB 对 齐 IO 测 试 


上 面 的 测试 用 例 全 部 是 连续 地 址 写 入 ， 从 结果 也 可 以 判断 ， 连 续 
地 址 写 入 模式 下 ， 由 于 会 有 部 分 IO 缓存 命中 ， 所 以 一 定 程度 上 降低 了 
惩罚 倍数 ， 惩 罚 倍 数 =pagesize/iosize， 最 小 为 1。 下 面 我 们 设计 另外 
的 用 例 来 避免 缓存 命中 ， 看 一 看 此 时 惩罚 倍数 的 变化 。 如 图 19-21 所 示 
为 WT 模式 下 随机 1KB 写 入 行为 测试 结果 。 可 以 看 到 ， 随 机 模式 下 由 于 
缓存 命中 率 几 乎 为 0， 所 以 每 次 程序 发 起 的 IO 都 会 导致 内 核 产生 1 个 


page 的 读 和 1 个 page 的 写 操作 ，1KB 的 惩罚 倍数 为 7 倍 ， 同 理 可 得 512B 
的 惩罚 倍数 为 15 倍 。 


图 19-21 WT 模式 随机 1KB 写 测试 
2) 追加 写 底层 IO 行 为 


在 Windows 系 统 中 使 用 测试 工具 从 0 开始 追加 写 一 个 文件 ， 每 次 写 
1KB， 同 步 十 连续 十 BufferedIO 模 式 。 结 果 如 图 19-22 所 示 。 


图 19-22” 以 1KB 为 单位 追加 写 


在 图 19-22 中 ， 左 侧 为 在 操作 系统 底层 过 滤 驱 动 监 测 到 的 本 地 IO 行 
为 ， 右 侧 则 为 CIFS 服 务 端 检测 到 的 实际 接收 到 的 客户 端 1O。 在 左 侧 的 
窗口 中 我 们 可 以 看 到 ， 程 序 确实 以 IKB 为 单位 不 断 写 入 文件 。 这 里 无 
法 看 出 是 追加 还 是 覆盖 ， 但 是 我 们 可 以 确定 就 是 追加 ， 因 为 程序 是 以 
这 种 模式 执行 的 。 由 于 发 生 的 IO 过 多 ， 图 片 中 作者 人 为 地 删 掉 了 1000 
多 行 记 录 ， 最 终 程 序 从 0 写 入 了 共 523264 十 1024 三 524288B。 随 后 ， 程 
序 发 起 了 一 个 FLUSH_BUFFER 操 作 ， 通 知 操作 系统 将 方才 写 入 的 数据 
Flush 到 存储 介质 ， 当 然 这 里 的 存储 介质 其 实 是 CIFS 服 务 端 。 所 以 我 们 
看 到 操作 系统 将 缓存 的 数据 写 了 出 去 ， 对 应 左 侧 的 带 星 号 的 记录 ， 同 
时 对 应 了 右 侧 的 632 号 之 前 的 包 。 可 以 看 到 客户 端 是 以 64KB 为 单位 写 
入 CIFS Server 的 。 随 后 ， 系 统 内 核发 起 了 一 个 Cleanup 操 作 ， 这 个 操作 
被 透 传 到 了 CIFS Server 执 行 ， 所 以 在 右 侧 可 以 看 到 Server 接 收 到 了 
Flush Request ， 并 在 数据 成 功 写 入 Server 本 地 磁盘 之 后 ， 返 回 


Responseo 


综 上 所 述 ，Buffered IO 模式 下 的 追加 写 操作 ， 是 不 会 引发 任何 写 
惩罚 的 ， 其 原因 是 因为 待 写 入 的 部 分 原来 并 不 存在 ， 文 件 长 度 是 逐渐 
增加 的 ， 所 以 客户 端 内 核 不 可 能 读 入 一 个 并 不 存在 的 Page 了 映射 块 。 追 
加 写 模式 下 ， 内 核 会 将 写 IO 数 据 暂 存 并 做 合并 操作 ， 合 并 为 更 大 的 
IO， 提 升 了 效率 ， 所 以 追加 写 使 用 Buffered IO 会 受益 顾 多 。 


3) 覆盖 写 底层 IO 行为 


我 们 再 来 看 一 下 Buffered IO 模式 的 覆盖 写 对 应 的 底层 行为 。 如 果 
文件 本 身 已 经 有 一 定 尺寸 ， 其 长 度 并 不 是 0， 当 覆盖 写 入 其 中 某 些 区 域 
时 ， 此 时 因为 内 核 已 经 可 以 将 文件 的 对 应 区 域 映 射 到 Page Cache 中 
了 ， 那 么 就 会 产生 写 惩 罚 ， 读 入 Page， 修 改 ， 写 回 。 但 是 Buffered IO 
模式 下 的 写 惩罚 还 是 与 WT 模 式 下 有 些 不 一 样 的 地 方 。 


如 图 19-23 所 示 ， 使 用 测试 程序 对 目标 文件 做 从 0 开始 的 覆盖 写 ， 
每 次 写 1KB 内 容 ， 同 步 十 连续 十 Buffered IO 模式 。 还 是 先 来 看 左 侧 窗 
口 ， 可 以 看 到 与 WT 模式 相同 ， 产 生 了 写 惩 罚 ， 但 是 与 图 19-6 对 比 ， 结 
果 是 有 差异 的 ， 即 本 例 中 只 有 惩罚 读 ， 并 没有 惩罚 写 。 惩 罚 读 的 倍数 
与 WIT 模 式 下 相同 ， 惩 罚 写 的 倍数 为 1， 即 没有 写 惩 罚 。 可 以 看 到 左 侧 
带 星 号 的 记录 ， 这 些 写 操 作 都 被 缓存 在 内 核 中 ， 当 程序 发 起 一 个 
FLUSH_BUFFER 操 作 后 ， 内 核 将 这 些 数据 合并 为 多 个 Dirty Page， 以 
64KB (16 个 Dirty Page) 为 单位 ， 发 向 CIFS Server。 右 侧 的 结果 也 对 
应 了 这 个 结论 ， 前 面 是 一 系列 连续 的 读 操作 (省略 了 近 千 行 ) 而 没有 
任何 写 操作 。 而 当 程 序 发 起 FLUSH_BUFFER 操 作 后 ，Server 才 接收 到 
以 64KB 为 单位 的 写 操作 ， 然 后 又 接收 到 了 FLUSH Request， 这 个 
Request 对 应 了 程序 最 后 所 发 出 的 CLEANUP 操 作 。 


图 19-23 ”以 1IKB 为 单位 覆盖 写 
读 惩罚 、 写 惩罚 、 惩 罚 读 、 惩 罚 写 


注意 : 这 里 请 一 定 注 意 这 几 个 词 的 区 别 和 用 法 。 读 惩罚 和 写 
惩罚 是 指 在 程序 发 起 读 操 作 和 写 操作 的 时 候 ， 系 统 底 层 产生 
了 不 必要 的 额外 IO， 而 这 些 不 必要 的 10 可 能 有 读 ， 也 有 写 ， 
产生 的 惩罚 IO 为 额外 谈 ， 那 么 融 叫 惩罚 读 ; 如果 额外 的 IO 为 
写 ， 那 么 就 称 惩罚 写 。 比 如 WT 模 式 下 的 不 规则 小 块 写 入 ， 
会 产生 写 惩罚 ， 写 惩罚 里 既 有 惩罚 读 ， 也 有 惩罚 写 。 


从 结果 可 以 判断 ， 内 核 的 智能 有 待 进一步 优化 。 比 如 ， 应 当 暂 存 
写 IO 到 一 定 程度 然后 再 判断 是 否 需要 读 入 Page， 而 不 是 每 接收 到 一 个 
上 层 的 写 IO 就 先 去 执行 Readpage。 如 果 内 核 在 这 方面 优化 的 足够 彻 
底 ， 本 实验 中 是 不 会 产生 任何 惩罚 读 的 。 


对 于 随机 十 Buffered IO 十 覆盖 写 十 小 块 属性 的 写 IO ， 由 于 数据 合 
并 为 连续 的 Dirty Page 的 几率 非常 小 ， 所 以 其 产生 的 惩罚 写 和 惩罚 读 几 
乎 相同 ， 与 WT 模式 无 异 。 


对 于 Network IO 来 说 ， 应 用 程序 需要 在 选择 使 用 缓存 和 不 使 用 缓 
存 方面 着 慎 决 定 。 综 上 所 述 ， 一 般 情况 下 使 用 CIFS 时 最 好 使 用 
NoBuffer 模 式 以 杜绝 任何 读 写 惩罚 ， 并 且 同 时 保证 iosize 为 4KB 的 整数 
音 ， 这 样 可 以 杜绝 从 Client 到 Server 端 整个 IO 路 径 中 的 惩罚 现象 。 仪 仪 
在 以 下 情况 考虑 使 用 Buffered IO 模式 : 小 块 连续 读 、 小 块 连续 写 。 至 
于 WRITETHROUGH 模 式 ， 完 全 是 鸡肋 ， 建 议 不 要 使 用 。 


另外 ， 使 用 Network IO 的 程序 还 需要 适当 降低 对 IO 响应 时 间 的 要 
求 ， 还 有 ， 在 网 络 异 常 中 断 或 者 服务 端 异 常 重启 之 后 需要 重新 Open() 


对 应 的 目标 文件 以 便 获 得 最 新 的 File Handle。 在 其 他 包括 调用 接口 以 
及 程序 设计 等 方面 均 与 本 地 IO 无 异 。 


提示 : Windows 系 统 下 的 Network IO 操作 是 由 操作 系统 内 核 
的 Network IO Redirector (NIR) 完成 的 。 Network IO 

(NIO) 相对 本 地 文件 系统 IO (LIO) 的 一 个 最 大 不 同 是 NIO 
根本 不 需要 文件 一 块 映射 计算 ， 由 于 NIO 底 层 使 用 CIFS 等 协 
议 ， 这 些 网 络 文 件 系统 协议 并 不 像 SCSI 等 块 协议 一 样 规 定 IO 
Size 必 须 为 扇 区 倍数 大 小 。 既 然 这 样 ，NIR 就 完全 可 以 透 传 上 
层 程序 的 IO 请 求 直接 给 CIFS Server 处 理 ， 然 后 由 CIFS Server 
自身 来 做 文件 一 块 映 射 运算 。 所 以 ， 在 Client 端 ，NIR 根 本 用 
到 本 地 文件 系统 比如 NTFS 的 块 映 射 运 算 ， 用 到 的 只 是 本 地 
文件 系统 的 表示 层 〈 见 19.1.2 节 1) 功能 。NIR 管 理 着 NIO 层 的 
缓存 ， 这 个 缓存 使 用 Page 为 单位 进行 Page In 和 Page Out 操作 

( 见 19.1.4 节 ) 。 如 果 用 户 程序 使 用 Buffered IO 模式 ， 则 NIR 
会 首先 进行 Read Cache Hit 或 者 Cache Write Back 操 作 ， 如 果 
读 未 命中 ， 则 进行 Page In 操作 读 入 对 应 的 Page。 既 然 涉及 到 
Page 操 作 ， 那 么 NIO 对 CIFS Server 的 IO 单位 就 会 从 原来 的 不 
规则 程度 变 为 以 Page Size 为 单位 对 齐 规则 长 度 的 IO。 当 然 ， 
如 果 用 户 程 序 使 用 DIO ， 则 可 以 完全 越过 系统 内 核 任 何 的 
Page Cache， 在 用 户 缓存 空间 与 NIR 驱 动 之 间 建 立 一 条 直通 路 
径 ， 这 样 ， 程 序 的 不 规则 长 度 IO 就 又 会 被 透 传 到 CIFS Server 
了 。 


如 图 19-24 所 示 为 NIR 在 系统 IO 路 径 中 所 处 的 逻辑 位 置 以 及 其 与 内 
核 其 他 组 件 之 间 的 关系 。 


图 19-24 ”NIR 在 系统 路 径 中 的 位 置 


4) 多 进程 访问 缓存 一 致 性 问题 解决 办 法 : Opportunistic Lock 


本 节 前 文 所 叙述 的 全 部 都 是 在 单 Client 单 进程 访问 目标 文件 时 所 发 
生 的 情况 。 而 网 络 文件 系统 的 一 个 最 大 好 处 是 可 以 同时 让 多 人 台 Client 共 
同 访问 同一 个 文件 ， 当 然 这 不 应 该 算是 个 好 处 ， 本 来 就 是 它 应 该 做 到 
的 ， 因 为 CIFS/NFS 等 协议 本 身 就 是 本 地 文件 系统 访问 接口 的 一 种 网 络 
化 透 传 实现 方法 。 既 然 本 地 文件 可 以 被 多 个 进程 同时 访问 ， 那 么 网 络 
上 的 文件 也 没有 理由 不 可 以 被 多 个 进程 或 者 多 个 Client 访 问 。 涉 及 多 进 
程 同 时 访问 ， 就 一 定 会 涉及 到 缓存 一 致 性 问题 。 


对 于 本 地 文件 的 共享 式 访问 方法 有 多 种 ， 具 体 如 下 。 


第 一 种 最 普通 ， 就 是 在 Open() 的 时 候 什 么 也 不 做 ， 不 使 用 额外 
的 参数 ， 默 认 方式 下 ， 目 标 文 件 是 可 以 共享 读 写 访问 的 ， 即 可 
以 同时 被 多 个 进程 打开 并 读 写 。 显 然 这 样 做 有 很 大 的 安全 问题 
以 及 数据 同步 问题 ， 如 果 使 用 Buffered IO 方式 ， 每 个 进程 都 会 
有 目 己 的 缓存 。 比 如 在 读数 据 的 时 候 ， 内 核 会 将 所 请 求 的 数据 
复制 到 用 户 程序 缓存 ， 如 果 有 多 个 程序 都 读 取 这 个 文件 ， 那 么 
每 个 程序 自身 缓存 都 会 被 复制 入 对 应 的 被 请 求 数据 ， 这 些 缓存 
在 用 户 程序 缓存 中 的 数据 随后 可 以 被 程序 多 次 参考 而 无 须 再 向 
内 核发 起 读 请 求 ; 而 此 时 这 个 程序 并 不 知道 ， 可 能 有 其 他 的 程 
序 早 已 修改 了 目标 文件 的 一 些 数据 ， 而 这 些 被 修改 的 内 容 并 没 
有 实时 地 被 更 新 到 自身 的 缓存 中 ， 自 身 正在 参考 的 是 早已 过 期 
的 数据 。 

第 二 种 共享 访问 方法 高 级 一 些 ， 程 序 在 Open() 目 标 文件 的 时 候 
可 以 指定 Share Mode， 比 如 不 允许 其 他 进程 对 目标 文件 进行 
读 、 写 、 读 或 写 、 删 等 操作 ， 相 当 于 对 目标 文件 加 了 一 个 全 局 
锁 。 这 样 ， 加 锁 的 程序 就 可 以 肆 无 尽 悦 地 在 程序 自身 缓存 空间 


对 文件 进行 读 或 者 写 缓 存 而 不 用 担心 其 他 人 中 途 对 文件 进行 修 
改 。 

第 三 种 更 高 级 ， 由 于 全 局 锁定 一 个 文件 会 导致 其 他 进程 根本 无 
法 访问 文件 的 任何 部 分 ， 有 时 候 某 个 程序 只 是 想 要 更 改 文件 中 
的 一 小 部 分 地 址 上 的 数据 ， 此 时 程序 可 以 使 用 内 核 提 供 的 
Lockfile() 功 能 ， 对 文件 进行 以 字 节 为 单位 的 而 不 是 整个 文件 的 
锁定 ， 想 要 操作 哪些 字 节 段 ， 就 加 锁 哪些 字 节 段 。 多 个 程序 可 
以 共同 加 锁 一 个 文件 不 同 的 字 节 段 ， 加 锁 后 的 字 节 上段 可 以 复制 
到 程序 缓存 进行 读 写 ， 然 后 适当 时 刻 批 量 向 内 核发 起 IO 请 求 以 
永久 保存 到 底层 存储 介质 ， 这 样 效率 就 有 了 整体 提高 。 

第 四 种 最 高 级 ， 程 序 可 以 使 用 mmap0 功 能 来 将 目标 文件 映射 到 
程序 自身 缓存 但 是 并 不 复制 其 内 容 ， 程 序 针对 映射 缓存 的 读 与 
就 等 于 读 写 了 目标 文件 。 多 个 程序 如 果 都 使 用 这 种 mmap() 功 能 
进行 共享 映射 ， 那 么 目标 文件 在 任何 时 刻 只 有 一 份 复制 ， 处 于 
系统 内 核 当中 ， 任 何 用 户 程 序 在 任何 时 刻 所 看 到 的 文件 内 容 都 
是 一 样 一 致 的 ， 在 mmapO 的 基础 上 上， 程序 依然 可 以 使 用 
Lockfile() 来 对 文件 进行 Byte Range 加 锁 以 排 开 其 他 进程 的 访 
问 。 

第 五 种 ， 也 就 是 将 要 介绍 的 Oplock， 见 下 文 详 述 。 


缓存 和 数据 一 致 性 有 多 个 层次 ， 有 时 序 上 的 一 致 性 《保证 每 个 程 
序 所 读 入 的 都 是 最 新 的 源 数据 )  ， 也 有 逻辑 上 的 一 致 性 (保证 多 个 进 
程 轮流 对 某 一 区 域 进行 更 改 而 不 是 同时 并 行 写 入 ) 。 只 有 Lockfile() 才 
能 够 保证 最 高 级 别 的 一 致 性 ， 即 时 序 和 逻辑 上 共同 的 一 致 性 。 也 瓯 是 
说 同一 个 文件 的 同一 个 区 域 ， 任 何 时 刻 只 能 有 1 个 进程 对 其 做 写 入 操 
作 ， 多 个 进程 同时 对 同一 区 域 写 入 时 ， 必 须 轮流 串 行 地 进行 。 既 然 多 
个 进程 访问 同一 个 文件 区 域 ， 那 么 这 多 个 进程 一 定 都 知道 自己 在 做 什 


么 ， 谁 先 谁 后 都 是 进程 之 间 决 定好 的 ， 如 果 本 来 应 该 后 写 入 的 进程 却 
先 写 入 了 ， 那 么 后 来 的 写 入 就 会 覆盖 之 前 的 数据 ， 造 成 逻辑 上 的 不 一 
致 。 如 果 不 使 用 Lockfile0， 如 果 进 程 之 间 通 过 另外 的 机 制 来 实现 串 行 
写 入 ， 也 是 可 以 的 ， 但 终究 不 保险 。 而 对 于 使 用 共享 式 mmapO 进 行文 
件 访 问 的 多 个 进程 ， 虽然 此 时 可 以 保证 读 时序 上 的 一 臻 性， 但 如 果 不 
使 用 Lockfile()， 一 样 也 无 法 保证 与 逻辑 上 的 一 致 性 。 


而 对 于 网 络 文件 系统 ， 同 样 需要 解决 多 客户 端 访问 同一 个 目标 时 
的 缓存 一 致 性 问题 。 网 络 文件 系统 的 处 理 方 法 基本 上 就 是 本 地 文件 系 
统 处 理 方 法 的 透 传 。 网 络 上 每 个 Client 端 内 核 的 NIO 层 缓存 就 相当 于 使 
用 本 地 文件 系统 IO 时 单 台 机 器 上 每 个 应 用 程序 自身 的 缓存 ， 而 对 于 
CIFS Server 端 来 说 ， 每 个 Client 端 就 仿佛 是 一 个 用 户 程 序 ， 这 些 程序 所 
发 送 的 文件 操作 请 求 会 由 Server 端 的 NIR 模 块 翻译 为 针对 Server 端 本 地 
文件 系统 的 请 求 。CIFS 协 议 其 实 本 质 上 是 将 大 部 分 本 地 文件 系统 的 操 
作 API 翻 译 封装 到 网 络 数 据 包 里 了 。 


CIFS 协 议 处 理 多 客户 端 共享 同一 目标 文件 的 方法 包含 了 上 文 描述 
的 四 种 。 第 一 种 就 是 没有 任何 限制 的 自由 访问 模式 ， 这 种 模式 下 根本 
不 能 保证 缓存 一 致 性 。 第 二 种 也 就 是 ShareMode 模 式 全 局 锁 ， 当 Client 
端 程序 在 Open() 时 指定 这 个 参数 内 容 之 后 ，CIFS 协 议会 将 这 个 信息 放 
到 网 络 数据 包 中 传递 给 Server 端 ，Server 端 NIR 驱 动 解析 之 后 做 对 应 的 
处 理 动作 ， 安 全 透 传 程序 的 请 求 给 Server 端 。 如 图 19-25 所 示 为 一 个 
CIFS 协 议 的 Open0 操 作 数 据 包 内 表示 ShareMode 的 字段 ， 可 以 看 到 这 
个 程序 允许 其 他 程序 对 目标 进行 读 和 写 但 是 不 允许 删除 操作 。 


图 19-25 ”Share Mode 字 段 


图 19-26” 字 节 Lock 字 段 


第 三 种 为 Byte Range Lock 方 法 ， 程 序 对 某 个 远程 文件 发 起 
Lockfile() 操 作 之 后 ，CIFS 协 议 完 全 透 传 这 个 请 求 给 Server 端 。 如 图 19- 
26 所 示 为 一 个 程序 发 起 的 Lockfile() 请 求 被 封装 在 数据 包 之 后 的 表示 ， 
可 以 看 到 这 一 个 数据 包 中 包含 了 三 段 字 节 锁 ， 每 个 长 度 都 是 IB ， 这 是 
用 MS Office 程 序 打 开 一 个 Word 文档 时 抓 取 的 ， 被 锁 的 1B 看 来 是 文档 
中 的 关键 字 节 。 


第 四 种 方式 ， 也 就 是 任何 时 刻 ， 目 标 文 件 只 有 一 个 副本 ，CIFS 方 
式 下 要 做 到 这 一 点 ， 唯 有 让 所 有 访问 这 个 目标 文件 的 程序 都 使 用 DIO 
模式 打开 ， 这 样 所 有 程序 所 做 的 更 改 都 会 即刻 被 体现 到 CIFS Server 端 
内 核 缓存 中 。 这 样 的 话 就 可 以 保证 Server 端 任何 时 刻 只 保存 目标 文件 
的 一 份 复制 ， 在 Server 端 内 核 之 外 没有 任何 缓存 的 数据 。 


网 络 10 与 本 地 IO 最 大 的 一 个 不 同 就 是 本 地 IO 的 调用 处 理 过 程 都 发 
生 在 内 存 中 ， 只 有 底层 数据 块 读 写 发 生 在 比较 慢 速 的 存储 介质 处 ， 而 
网 络 IO 过 程 的 调用 处 理 过 程 本 身 需要 通过 慢 速 网 络 发 送 到 Server 端 处 
理 ， 实 体 数据 的 读 写 也 要 经 过 同一 个 网 络 ， 相 对 于 本 地 IO 来 讲 效率 是 
比较 低 的 。 既 然 这 样 ， 如 果 在 客户 端 使 用 缓存 则 会 大 大 降低 一 些 不 必 
要 的 网 络 传输 但 是 却 无 法 保证 缓存 一 臻 性。 当然 ， 如 果 程 序 都 使 用 
Lockfile()， 那 么 不 会 有 任何 问题 ， 即 使 缓存 在 客户 端 也 不 会 出 现任 何 
不 一 致 情况 〈Lockfile0 之 后 ， 缓 存 依然 不 允许 Write Back， 只 人 允许 
Read Ahead Hit) ， 但 是 不 是 任何 程序 都 去 考虑 字 节 锁 的 ， 有 些 程序 不 
需要 逻辑 上 一 致 ， 而 只 需要 在 时 序 上 一 致 即 可 。 使 用 DIO 模 式 更 加 直 
截 了 当地 避免 了 时 序 一 致 性 问题 ， 但 同时 可 能 增加 网 络 流量 。 不 想 加 
锁 又 要 同时 实现 客户 端 本 地 缓存 ， 还 要 保证 时 序 上 的 一 致 性 ， 似 乎 挺 


A 
复杂 。 


面 对 这 种 情况 ， 内 核 提供 了 另外 一 种 独立 的 缓存 一 致 性 管理 方 
法 ， 称 为 Opportunistic Lock (Oplock) ， 强 行 翻译 过 来 就 是 机 会 锁 ， 
当然 也 可 以 叫 它 撞 大 运 锁 。Oplock 为 Windows 内 核 的 功能 ， 而 并 不 局 
限于 网 络 IO ， 多 个 进程 本 地 IO 也 可 以 使 用 Oplock 来 申请 程序 自身 缓存 
一 致 性 保证 。 


试想 ， 如 果 某 个 时 刻 只 有 一 个 CIFS 客 户 端 打开 文件 进行 操作 而 其 
他 客户 端 都 没有 打开 这 个 文件 ， 那 么 此 时 这 个 文件 的 内 容 可 以 被 缓存 
在 这 个 客户 端 上 ， 可 以 Read Hit 也 可 以 Write Back， 不 存在 缓存 一 致 性 


问题 。 


而 如 果 在 这 个 客户 端 尚 未 Close(0 这 个 文件 之 前 ， 另 有 一 个 客户 端 
也 向 Swerver 发 起 针对 这 个 文件 的 Open0 请 求 ， 那 么 Server 端 必须 通知 
第 一 个 打开 这 个 文件 的 客户 端 将 其 缓存 中 的 Dirty Page 全 部 Flush 到 
Server 端 ， 因 为 有 另外 的 人 要 看 ， 需 要 最 新 的 数据 。 同 时 第 一 个 客户 
端 也 被 告知 它 将 不 再 允许 Write Back (每 次 写 都 需要 直接 将 数据 发 向 
Server 端 ， 类 似 DIO 模 式 ) ， 而 Read Hit 还 是 可 以 的 ， 因 为 第 二 个 客户 
端 此 时 并 没有 向 文件 中 写 入 任何 内 容 ， 第 一 个 客户 端 缓存 中 的 数据 依 
然 是 最 新 的 。 随 后 ， 客 户 端 2 打 算 向 文件 中 写 入 内 容 ， 那 么 在 写 入 内 容 
之 前 ，Server 会 通知 第 一 个 客户 端 其 缓存 全 部 作废 ， 因 为 客户 端 2 已 经 
发 起 了 写 操 作 ， 已 经 不 能 保证 客户 端 1 的 缓存 中 都 是 最 新 的 数据 了 ， 客 
户 端 1 接 到 这 个 通知 后 的 10 行 为 会 转变 DIO 模 式 ， 完 全 Bypass 掉 内 核 的 
缓存 了 。 


同样 ， 客 户 端 2 从 一 开始 就 以 DIO 模 式 行动 了 ， 因 为 此 时 已 经 有 两 
个 客户 端 同时 读 写 同一 个 文件 ， 任 何 一 方 也 不 能 保有 缓存 ， 双 方 均 以 
DIO 模 式 运行 (一 种 情况 除外 ， 就 是 如 果 某 客户 端 向 Server 申 请 了 
LockfileO0 字 节 锁 ， 则 对 应 的 字 节 段 可 以 被 读 缓存 ， 但 依然 不 能 被 写 缓 


存 ) 。 以 上 这 种 思想 就 是 Oplock 的 设计 思想 ， 即 Oplock 充 分 保证 在 只 
一 台 客 户 端 打开 文件 的 时 候 能 够 给 其 充分 的 缓存 自由 ， 一 旦 有 其 他 
客户 端 打 开 文 件 ， 但 是 没有 做 写 入 操作 时 ， 所 有 客户 端 都 有 保有 Read 
Hit 缓 存 也 就 是 读 缓 存 的 自由 ， 一 旦 某 个 客户 端 尝试 写 入 文件 了 ， 那 么 
所 有 人 的 读 缓存 自由 也 被 剥夺 ， 全 部 以 DIO 模 式 运行 。 所 以 称 其 为 撞 
大 运 锁 ， 如 碰巧 你 是 第 一 个 来 的 ， 那 么 你 就 能 获得 缓存 ， 如 果 再 有 人 
来 ， 对 不 起 ， 写 缓存 剥 守 ， 如 果 其 他 人 也 要 写 ， 对 不 起 ， 所 有 人 都 别 
缓存 了 。 


注意 ; 一 切 Write Back 缓 存在 没有 电池 保护 的 内 存 的 情况 下 
均 会 导致 Down 机 之 后 的 数据 丢失 ，Network IO 的 缓存 也 不 例 
外 。Oplock 只 能 保证 数据 时 序 一 致 性 ， 不 能 保证 数据 不 丢 
失 。 


Oplock 在 Windows 7 之 前 的 操作 系统 有 4 种 ，Windows 7 开始 增加 了 
4 种 。 这 里 只 介绍 前 面 4 种 中 的 3 种 : Batch Oplock()、Exclusive/Levell 
Oplock (RW Lock) 、Level2 Oplock (ReadOnly Lock) ， 第 4 种 也 就 
是 Filter Oplock 不 做 介绍 (因为 笔者 也 没 读 懂 它 的 具体 规范 ) 。 


注意 : Oplock 的 申请 是 由 Network Redirector 自行 向 CIFS 
Server 端 进行 的 ， 一 般 在 用 户 程序 调用 Open0 时 ，NIR 会 自动 
在 发 向 CIFS Server 端 的 Open 请 求 包 中 请 求 Batch 十 Exclusive 的 
Oplock，Server 在 应 答 包 中 给 出 审批 结果 ， 客 户 端的 NIR 根 据 
结果 来 判断 是 否 使 用 缓存 、 读 写 还 是 只 读 缓存 。 

然而 ， 用 户 程序 也 可 以 主动 发 起 Oplock 申 请 ， 不 过 只 能 够 在 
打开 本 地 文件 时 才 可 以 ， 也 就 是 说 Oplock 在 多 进程 共同 访问 
同一 个 本 地 文件 时 也 可 用 。 但 是 要 注意 一 点 ， 申 请 本 地 文件 
Oplock 时 ， 用 户 程 序 必 须 使 用 异步 IO 方式 打开 文件 ， 因 为 锁 


的 申请 和 批准 以 及 断 锁 通 知 过 程 必 须 使 用 异步 通知 机 制 。 本 
地 Oplock 的 申请 和 批准 过 程 都 是 在 本 地 内 存 中 进行 的 。 网 络 
Oplock 则 需要 将 信息 通过 网 络 发 送 到 Server 端 申请 。 


客户 端 程序 直接 申请 CIFSs Server 上 文件 的 Oplock 是 不 被 允许 的 ， 
NIR 会 自动 为 程序 申请 。 


(1) Exclusive/Levell Oplock 


申请 到 这 种 锁 的 客户 端 可 以 进行 Read Ahead/Hit 以 及 Write Back 模 
式 的 缓存， 读 和 写 都 可 以 在 本 地 缓存 内 进行 ， 在 适当 的 触发 条 件 下 ， 
Dirty Page 才 会 被 批量 Flush 到 CIFS Server 端 ， 节 约 了 不 必要 的 网 络 流 
量 。Exclusive Oplock 又 被 称 为 Levell Oplock。 


(2) Level2 Oplock 


相对 于 Levell Oplock， 这 种 Lock 在 效果 上 下 降 了 一 级 。 如 果 客 户 
端 申请 到 的 是 这 种 Lock， 则 表示 目前 有 多 个 客户 端 同时 打开 了 目标 文 
件 ， 但 是 并 没有 客户 端 尝 试 修改 这 个 文件 ， 所 以 所 有 客户 端 都 可 以 保 
有 读 缓存 ， 缓 存 中 的 内 容 与 Server 上 目标 文件 的 内 容 一 致 。 


(3) Batch Oplock 


申请 到 这 种 Lock 的 客户 端 是 最 幸运 的 ， 因 为 不 仅 读 和 写 等 操作 可 
以 在 客户 端 本 地 缓存 中 执行 ， 就 连 Open0、Close0 都 可 以 在 本 地 执 
行 。 一 些 批 处 理 脚本 经 常会 在 执行 脚本 的 每 一 行 时 都 对 目标 进行 打开 
操作 ， 执 行 完 后 就 关闭 ， 然 后 在 执行 下 一 行 时 再 次 打开 关闭 ， 如 果 批 
处 理 脚 本 有 太 多 行 ， 每 次 打开 关闭 操作 就 会 耗费 太 多 不 必要 的 网 络 流 
量 。Netwrok Redirect 在 申请 到 Batch Oplock 之 后 ， 用 户 程 序 每 次 针对 


目标 文件 的 打开 和 关闭 操作 不 会 再 被 发 送 到 CIFS Server 端 处 理 ， 而 是 
由 NIR 拦 截 并 擅自 做 了 响应 。Batch Oplock 在 级 别 上 与 Levell Oplock 相 
同 ， 只 不 过 后 者 不 能 缓存 Open() 和 Close()。 


(4) Oplock 申 请 与 批准 过 程 示例 


这 里 只 举 出 Batch Oplock 申 请 和 批准 交互 实例 ， 对 于 Exclusive 
Oplock 的 交互 过 程 相 比 Batch Oplock 除 了 在 客户 端 Open()、Close() 时 必 
须发 送 到 Server 端 之 外 ， 其 他 没有 任何 区 别 。 如 图 19-27 所 示 为 几 轮 
Oplock 申 请 和 批复 的 动作 流程 。 


图 19-27 ”Oplock 申 请 和 批准 过 程 


Q) 客户 端 A 向 服务 端 发 起 Open0) 请 求 打开 文件 *test"， 并 同时 申请 
Batch Lock。 


@) 由 于 目前 客户 端 A 是 唯一 一 个 请 求 打开 这 个 文件 的 客户 端 ， 所 
以 服务 端 把 Batch Lock 给 客户 端 A。 


@3) 客户 端 A 发 起 读 请 求 。 

4) 服务 端 返 回 读 请 求 的 数据 ， 这 些 数 缓存 在 客户 端 A， 随 后 针对 
同 地 址 的 读 请 求 可 以 不 必 发 向 服务 端 。 同 样 ， 写 请 求 也 不 必 了 立即 发 向 
服务 端 。 

(3) 客户 端 A 随 后 对 这 个 文件 进行 的 Open0、Close0、SeekO 等 操作 


全 部 可 以 在 缓存 中 执行 ， 由 Network IO Redirector 向 程序 返回 成 功 响 
应 ， 不 再 发 向 服务 端 。 


(9) 客户 端 B 向 服务 端 发 起 Open0 请 求 打开 *test" 文 件 ， 在 Open0O 请 
求 的 Access Mask 中 并 没有 指定 任何 写 Flag， 只 有 读 Flag， 同 时 也 在 请 
求 中 申请 Batch Lock。 


@) 服务 端 暂 挂 对 B 的 响应 ， 首 先 发 送 一 个 Lock Break 请 求 数据 包 
给 A， 并 在 这 个 数据 包 中 通知 将 锁 降 级 为 Level2 Oplock。 (如 果 步 又 
G) 中 的 打开 操作 指定 了 任何 与 写 相 关 的 Flag， 则 本 步 中 只 会 Break Lock 
而 不 会 同时 灌 以 Level2 Lock。) 


客户 端 A 接 收 到 Lock Break 通 知 后 ， 如 果 当 前 这 个 文件 处 于 打 
开 状态 ， 并 未 Close， 则 客户 端 A 会 将 Write Back 缓 存 里 的 Dirty Page 写 
入 Server， 然 后 向 服务 端 回应 一 个 Lock Break 响 应 包 ， 或 者 不 回复 响应 
包 而 直接 向 服务 端 发 起 Close0 ， 根 据 程 序 设计 决定 。Close0 之 后 就 不 
会 保有 目标 文件 的 任何 缓存 了 。 如 果 人 A 接收 到 Lock Break 通 知 时 ， 目 标 
文件 已 经 处 于 Close 状 态 ， 由 于 Batch Lock 模 式 的 缓存 不 会 将 之 前 的 
Close0 发 送 给 服务 端 ， 所 以 接收 到 Lock Break 通 知 后 需要 由 Network IO 
Redirector 向 服务 端 再 发 起 一 个 Close0) 操 作 以 表示 接受 。 


(9) 本 例 选择 了 步骤 G@) 里 的 第 二 种 情况 ， 人 A 发 送 Close()， 服 务 端 返 
回响 应 。 


服务 端 继续 处 理 步 又 人 @ 中 暂 挂 的 对 B 的 响应 ， 将 响应 发 送 给 
B。 由 于 人 A 已 经 在 步骤 8) 中 Close 了 目标 文件 ， 所 以 当前 只 有 B 一 个 人 
预 打 开 这 个 文件 ， 所 以 服务 端 在 响应 中 灌 以 Batch Lock 给 B。 


QD 客户 端 A 再 次 发 起 Open0 请 求 打开 目标 文件 ， 并 在 请 求 中 置 了 
写 相 关 Flag， 同 时 请 求 Batch Oplocko 


@3 服务 端 暂 挂 A 的 请 求 ， 同 时 发 送 一 个 Lock Break 通 知 给 B ， 通 知 
中 并 没有 将 锁 降级 为 Level2 Oplock， 因 为 当前 A 的 Open() 请 求 中 有 写 入 
期 望 。 


(3 B 接 收 到 断 锁 通 知 后 执行 Dirty Page Flush 操 作 ， 然 后 可 以 返回 
一 个 Lock Ack 给 服务 端 (Lock Ack 基 本 上 是 Lock Break 数 据 包 的 复 
制 ) ， 或 者 干脆 发 送 一 个 Close0 给 服务 端 表 示 不 再 操作 这 个 文件 。 


服务 端 继续 处 理 A 的 暂 挂 Open0 请 求 。 如 果 上 一 步 中 客户 端 B 以 
Close0 回 应 ， 则 响应 中 会 灌 以 Batch Lock 给 A; 如 果 上 一 步 客 户 端 B 以 
Lock Ack 回 应 ， 则 表明 B 尚 未 关闭 目标 文件 ， 那 么 针对 A 的 响应 就 不 会 
灌 以 任何 Oplock。 


如 图 19-28 所 示 为 另外 一 个 Oplock 交 互 过 程 。 其 中 在 客户 端 C 发 出 
Open0 之 前 ，A 和 B 都 已 经 拥有 了 Level2 Oplock。 但 是 客户 端 C 的 带 有 
写 Flag 标 记 的 Open0 操 作 将 一 切 美 梦 打 碎 ， 服 务 端 强行 收回 了 A 和 了 B 的 
Oplock，C 自 身 也 没有 得 到 任何 Oplock， 最 终 所 有 客户 端的 IO 请 求 都 
被 透 传 到 服务 疹 执 行 。 


图 19-28 ”Oplock 申 请 和 批准 过 程 


注意 : 针对 Level2 Oplock 的 断 锁 通知 ， 服 务 端 都 不 会 要 求 
Lock Ack。 而 针对 其 他 类 型 的 Oplock 的 断 锁 通知 ， 服 务 端 都 
要 求 一 个 Lock Ack 或 者 Close()。 因 为 Level2 Oplock 所 缓存 的 
都 是 源 文件 尚未 改变 的 信息 ， 通 知 发 过 去 之 后 可 以 不 再 理 
会 。 但 是 其 他 类 型 的 Oplock 缓 存 中 可 能 有 尚未 Flush 的 Dirty 
Page， 所 以 ， 在 客户 端 Flush Dirty Page (一 个 或 者 多 个 
Write() 请 求 ) 之 后 ， 服 务 端 一 定 还 需要 一 个 Lock Ack 来 感知 


客户 端 已 经 完成 了 所 有 Dirty Page 的 Flush 工 作 ， 然 后 才 会 继续 
处 理 其 他 客户 端的 Open0 请 求 。 


如 图 19-29 所 示 为 一 轮 Oplock Break 过 程 的 4 个 数据 包 。1.1.1.3 

(A) 这 人 台 客 户 端 已 经 打开 了 服务 端 1.1.1.1 上 的 1.rar 这 个 文件 并 取得 了 

Batch Oplock， 随 后 ，1.1.1.2 (B) 也 发 起 打开 请 求 ， 我 们 的 数据 包 
Trace 过 程 从 这 里 开始 。 


图 19-29 ”Oplock 申 请 和 批准 过 程 实际 数据 包 交 互 


在 178 号 数据 包 中 我 们 可 以 看 到 这 个 Open() 请 求 (CIFS 协 议 中 
Create() 与 Open() 使 用 同一 类 数据 包 ) 中 明确 请 求 Batch Oplock ( 包 中 
没有 与 写 相 关 的 Flag， 图 片 未 截 出 ) 。 但 是 由 于 A 已 经 打开 这 个 文件 尚 
未 关闭 ， 所 以 服务 端 需要 首先 向 A 发 送 一 个 Lock Break 请 求 ， 反 映 在 
179 号 包 中 (注意 被 置 1 的 Flag 含 义 ) 。 


注意 : 请 注意 加 亮 的 字段 ，“Oplock Level Level 2Oplock 
currently held by client (1) ”， 意 思 也 就 是 原来 是 Batch 
Oplock， 服 务 端 要 求 A 降 级 为 Level2 Oplock。 由 于 Break 的 是 
Batch Oplock， 所 以 服务 端 需要 等 待 A 的 回应 。A 的 回应 反映 
在 180 号 包 中 。 可 见 中 途 并 没有 发 生 A 向 服务 端的 Write0， 证 
明 A 目 从 打开 文件 之 后 并 未 对 其 进行 任何 修改 。180 号 包 是 一 
个 Lock Ack 包 (内容 基 本 都 是 Lock Break 包 的 复制 ) 而 不 是 
Close 包 ， 证 明 A 此 时 还 不 想 Close0 ， 所 以 服务 端 只 能 对 B 也 
灌 以 Level2 Oplock。181 号 包 为 服务 端 对 B 的 响应 ， 注 意 加 亮 
的 字段 :“Level II Oplock Granted (3) ”。 
(1) 或 者 (3) 不 表示 数量 ， 而 是 字段 值 ， 根 据 协议 规定 ， 

每 个 值 代 表 一 种 Oplock Level。 


Lock Break 通 知 /应 答 信息 与 Lockfile() 字 节 锁 信息 被 封装 的 数 
据 包 使 用 的 是 同一 种 数据 包 即 
SMB_COM_LOCKING_ANDX， 在 图 19-23 中 所 示 的 是 这 个 
数据 包 中 最 后 的 部 分 字段 ， 这 个 字段 包含 了 字 节 锁 的 偏 移 量 
和 长 度 。 在 图 19-25 中 所 截取 的 则 是 这 个 数据 包 另 外 的 字段 ， 
这 个 字段 给 出 了 当前 Oplock 的 操作 信息 。 


5) 关于 Oplock Break 过 程 的 一 些 细节 


在 确定 是 否 Break 掉 Level2 lock 之 前 ，Server 需 要 谨慎 判断 ， 尽 可 
能 地 不 Break。 比 如 ，Server 首 先 检查 目标 文件 的 Share Mode， 如 果 第 
一 个 客户 端 Open() 时 不 允许 其 他 客户 端 写 入 而 只 允许 读 ， 那 么 等 于 给 
文件 加 了 全 局 锁 ， 此 时 如 果 有 其 他 进程 尝试 打开 这 个 文件 而 Open0 时 
在 Access Mask 中 指定 了 某 项 写 操作 Flag， 那 么 Server 就 不 会 允许 这 个 
Open0 操 作 (返回 一 个 共享 冲突 错误 ) ， 从 而 也 不 会 去 Break 第 一 个 客 
户 端 的 Exclusive Lock 或 者 Level2 Oplock (里 然 协议 是 这 样 设计 的 ， 但 
是 另外 的 根据 实验 结果 判断 ， 实 际 至 少 在 WinXP 系 统 并 未 这 么 做 ， 而 
是 掠 过 检查 ShareMode 直 接 Break 其 他 客户 端的 Level1 或 者 Batch 锁 ) 。 


如 图 19-30 所 示 ， 图 中 显示 了 Open() 数 据 包 中 包含 的 Access Mask 的 
一 系列 Flag; 而 如 果 某 个 客户 端 在 Open0 时 只 附带 了 只 读 Flag， 那 么 
Server 不 但 不 会 Break 其 他 客户 端的 Level2 Oplock， 同 时 也 会 给 这 个 客 
户 端 灌 以 Level2 Oplock， 但 是 如 果 已 用 拥有 Level2 Oplock 的 任何 客户 
端 发 起 了 写 请 求 ， 那 么 Server 会 立即 剥夺 所 有 客户 端的 任何 形式 的 
Oplocko 


图 19-30 Share Mode 对 Lock Break 过 程 的 影响 


另外 ， 在 赋予 某 个 客户 端 Level2 的 时 候 ，Server 端 不 会 检查 当前 其 
他 已 经 Open0 目 标 文件 之 后 的 客户 端 之 前 在 Open0) 时 是 否 指定 了 Write 
相关 的 Flag。 一 般 情况 下 Server 端 在 Break Levell Oplock 之 后 都 会 在 
Break 的 同时 赋予 Level2 Oplock， 而 且 对 于 新 执行 Open0 操 作 的 客户 端 
也 会 赋予 Level2 Oplock (有 其 他 客户 端 已 经 打开 目标 的 时 候 ， 否 则 会 
直接 赋予 其 Levell Oplock) ， 但 是 一 旦 服务 端 发 现 随后 有 任何 客户 端 
(包括 当前 拥有 Level2 锁 的 客户 端 自身 ) 发 起 写 请 求 时 ，Server 会 将 之 
前 赋予 的 Level2 Oplock 也 剥夺 掉 。 


如 图 19-31 所 示 ，1.1.1.3 (A) 客户 端 某 个 程序 正在 对 服务 端的 文 
件 “1” 进 行 持 续 的 写 入 ， 此 时 我 们 在 客户 端 1.1.1.2 (B) 上 打开 这 个 文 
件 进行 读 操作 ， 服 务 端 与 B 之 间 的 数据 包 Trace 从 这 里 开始 。 


图 19-31 ”Oplock 申 请 和 批准 过 程 实际 数据 包 交 互 (1) 


1 号 数据 包 表 示 B 明 确 要 求 Batch Oplock。 2 号 数据 包 表 示 服 务 端 并 
没有 因为 A 在 对 目标 文件 持续 地 写 入 而 拒绝 给 B 任 何 Oplock， 相 反 ， 服 
务 端 给 了 B 一 个 Level2 Oplock， 很 够 意思 了 。 


但 是 在 瞬 眼 间 ， 由 于 A 持续 地 向 服务 端 发 起 目标 文件 的 写 入 请 
求 ， 在 把 Level2 Oplock 给 B 之 后 ， 服 务 端 接收 到 的 第 一 个 A 的 写 请 求 ， 
将 导致 服务 器 收回 刚才 给 B 的 Level2 Oplock。 所 以 我 们 看 见 11 号 包 ， 
是 服务 端 发 给 B 的 Lock Break， 其 中 标明 了 剥夺 B 的 一 切 锁 。 


前 文中 我 们 说 过 ， 当 一 切 锁 被 剥夺 之 后 ， 客 户 端 读 写 缓存 被 完全 
屏 数 ，IO 行 为 与 DIO 模 式 无 异 。 我 们 看 一 下 图 19-31 最 下 部 ， 两 个 方 框 
中 ， 上 面 方 框 表 示 Lock 尚 未 被 剥夺 之 前 的 系统 IO Size 显 然 为 Page 
Size， 而 之 后 ， 却 完全 透 传 上 层 的 IO Size， 这 里 是 512B 的 连续 读 IO。 


前 文中 也 说 过 ， 读 缓存 只 对 小 块 连续 IO 效果 最 大 ， 这 里 由 于 读 缓存 的 
失败 ， 造 成 了 网 络 流量 升 高 ， 而 客户 端的 实际 吞吐 量 却 并 未 增加 ， 网 
络 流量 所 升 高 的 部 分 都 由 底层 网 络 传输 协议 的 消耗 贡献 。 


我 们 再 来 看 一 下 当 客 户 端 B 挫 和 进来 之 后 ， 客 户 端 A 上 的 行为 变 
化 。 如 图 19-32 所 示 ， 原 本 客户 端 A 上 的 程序 是 在 以 IO Size 二 2048B 针 
对 目标 文件 做 连续 并 且 持 续 写 入 动作 的 。 当 B 发 起 Open() 之 后 ， 我 们 看 
11062 号 包 ， 服 务 端 当 然 要 剥夺 A 上 原本 的 Batch Oplock， 并 且 同 时 灌 
以 Level2 Oplock。11068 号 包 表 示人 A 接受 了 断 锁 请 求 ， 现 在 A 只 有 读 组 
存 ， 写 缓存 被 失效 。 


图 19-32 ”Oplock 申 请 和 批准 过 程 实际 数据 包 交 互 (2) 


但 是 好 景 不 长 ， 有 退 眼 间 ， 在 11073 号 包 中 ， 服 务 端 无 情 地 剥夺 了 A 

的 Level2 Oplock， 为 何 呢 ? 正如 前 文 所 述 ， 拥 有 Level2 锁 的 客户 端 对 

与 是 很 敏感 的 ， 一 旦 有 任何 一 个 客户 端 尝 试 对 目标 进行 瑟 入 操作 ， 那 

么 整个 范围 内 所 有 客户 端 上 的 Oplock 将 发 生 翰 塌 ， 全 部 被 剥夺 。11073 

号 包 与 图 19-31 中 的 11 号 包 是 由 服务 端 在 塌 塌 过 程 中 同时 向 所 有 客户 端 
发 出 的 。 


如 图 19-33 所 示 ，11068 号 包 之 后 ，Batch Oplock 被 剥夺 ， 只 剩 读 组 
存 ，A 上 程序 的 写 IO 请 求 被 完全 透 传 到 服务 端 ; 而 之 前 却 不 是 。 很 显 
然 ， 之 前 有 严重 的 写 惩 罚 存在 〈( 见 上 部 方 框 内 ) ， 而 之 后 ， 写 惩罚 消 
失 了 。 


图 19-33 ”Oplock 申 请 和 批准 过 程 实际 数据 包 交 互 (3) 


6) NIR 的 字 节 锁 缓 释 行 为 以 及 对 Oplock Break 的 影响 


在 下 面 的 疯狂 实验 中 ， 我 们 将 调查 NIR 的 另 一 个 怪诞 行为 ， 即 笔 
者 乱 起 的 一 个 名 字 “ 字 节 锁 组 释 "。NIR 的 这 种 行为 ， 其 流程 如 下 (有 
客户 端 A 和 B 以 及 服务 端 ) 。 


A 首先 打开 目标 文件 并 取得 Batch Olock。 


随后 A 对 目标 文件 的 某 些 部 分 使 用 Lockfile() 加 入 字 节 锁 ， 按 理 说 
NIR 应 该 将 这 些 加 锁 请 求 发 送 给 服务 端的 ， 但 是 由 于 此 时 是 A 独占 这 个 
文件 ， 所 以 NIR 认 为 没有 必要 将 这 些 锁 请 求 发 到 服务 端 ， 而 是 擅自 暂 
存 了 这 些 锁 请 求 。 如 果 随后 A 解锁 了 其 中 某 些 或 者 全 部 的 锁 ， 那 么 NIR 
也 会 将 这 些 解锁 操作 与 当前 暂 存 的 加 锁 操作 做 抵消 。 


随后 ，B 也 申请 打开 这 个 文件 ， 服 务 端 首先 向 A 发 送 锁 降级 通知 ， 
降级 为 Level2 只 读 锁 ， 那 么 此 时 因为 LockfileO 操 作 被 内 核 视 为 一 种 对 
文件 的 独占 操作 ， 现 在 有 其 他 客户 端 要 来 读 这 个 文件 ， 那 么 A 上 的 NIR 
必须 将 这 些 暂 存 的 锁 发 送 到 服务 端 执 行 。 服 务 端 接受 了 这 些 锁 请 求 之 
后 ，A 才 会 发 送 Oplock Break Ack， 之 后 服务 端 才 可 以 响应 B 的 打开 请 
求 。 这 就 是 字 节 锁 缓 释 行 为 。 


这 个 实验 使 用 分 别处 于 两 台 客 户 端 上 的 MS Office Word 程 序 先后 
打开 同一 个 位 于 服务 端的 文件 ， 分 析 整 个 过 程 中 的 关键 CIFS 数 据 包 以 
调查 NIR 以 及 Oplock 行 为 。 


在 客户 端 1.1.1.3 (A) 首先 打开 目标 文件 ， 并 使 用 Filemon 过 滤 驱 
动工 具 监 测 底 层 行 为 ， 发 现 Word 程 序 每 次 都 会 对 文件 的 固定 处 进行 一 
系列 加 锁 和 解锁 过 程 ， 如 图 19-34 所 示 (图 中 去 除了 一 些 非 关 键 记 
录 ) ， 可 以 算出 经 过 加 解锁 过 程 之 后 ， 程 序 最 终 保 留 的 锁 只 有 3 个 ， 即 
偏 移 量 2147483539、2147483559 和 2147483599 三 处 的 长 度 为 1B 的 锁 。 


但 是 在 本 时 间 段 的 CIFS 数 据 包 中 却 并 没有 出 现任 何 发 向 服务 端的 加 解 
锁 请 求 ， 证 明 NIR 驱 动 擅自 暂 存 了 这 些 请 求 。 我 们 在 接 下 来 的 分 析 中 
可 以 发 现 NIR 对 最 终 的 三 个 有 效 锁 的 缓 释 行为 。 


随后 ， 客 户 端 1.1.1.2 (B) 也 申请 打开 这 个 文件 并 申请 Batch 
Oplock， 同 时 B 的 Word 程 序 在 打开 时 指定 了 Access Mask 里 面 的 与 写 相 
关 的 Flag， 以 及 在 Share Mode 里 面 也 指定 了 排他 性 访问 ， 只 人 允许 其 他 
进程 读 取 。 如 图 19-35 所 示 ， 在 B 的 这 个 Open0 请 求 中 ， 充 满 了 B 上 的 
Word 程 序 想 要 以 独占 形式 打开 这 个 文件 的 欲望 。 因 为 B 此 时 并 不 知道 
A 已 经 打开 了 这 个 文件 ， 所 以 B 的 目的 注定 不 能 得 人 证， 因为 此 时 A 已 经 
以 排他 性 模式 打开 了 这 个 文件 ， 所 以 服务 端 一 定 会 返回 共享 模式 冲突 
的 通知 。 


图 19-34 ”程序 加 字 节 锁 的 过 程 图 19-35”B 预 使 用 独占 方式 访问 目标 文件 


如 图 19-36 所 示 ，216 号 包 。 很 遗憾 ， 服 务 端 并 没有 按照 Oplock 的 
本 来 设计 思想 而 首先 去 判断 是 否 B 的 这 个 打开 请 求 与 其 他 已 经 打开 这 
个 文件 的 客户 端 存在 共享 冲突 ， 而 略 过 了 这 一 步 直接 打算 通知 A 断 开 
它 的 Batch Oplock， 降 级 为 Level2 Oplock。 


图 19-36 ”A 将 隐瞒 的 字 节 锁 发 向 服务 端 


而 217 号 包 为 A 对 服务 端的 回应 ， 我 们 看 到 这 个 Lock 数 据 包 中 表示 
的 东西 并 不 是 一 个 Lock Break Ack， 其 中 所 包含 的 是 A 向 服务 端 申 请 的 
三 个 字 节 锁 ， 也 就 是 说 服务 端 向 A 通 知 断 开 Btach 锁 ，A 却 先 不 应 答 反 
而 向 服务 端 申请 字 节 锁 。 这 里 与 上 文 遗 留 的 那 三 个 锁 对 应 ，A 上 的 程 
序 早 在 打开 文件 之 初 就 做 了 一 系列 加 解锁 过 程 而 最 终 保留 了 这 三 个 
锁 ， 由 于 NIR 的 擅自 暂 存 而 一 直 没 被 发 送 到 服务 端 。 


现在 ，A 知 道 服务 端 要 剥夺 它 的 Batch 锁 了 ， 所 以 NIR 不 能 再 隐瞒 
了 ， 只 能 乖 尔 地 将 暂 存 的 三 个 锁 发 向 服务 端 执行 ， 对 应 217 号 包 。218 
号 包 为 服务 端 对 字 节 锁 请 求 的 回应 ， 我 们 不 去 看 它 。 我 们 来 看 219 号 
包 ， 这 个 包 就 是 一 个 Lock Break Ack 包 了 ， 其 接受 了 Batch 锁 降级 为 
Level2 锁 的 通知 。 


在 服务 端 剥夺 A 的 锁 之 后 ， 可 以 对 B 的 打开 请 求 做 应 答 了 。 如 图 
19-37 所 示 ， 果 然 以 STATUS_SHARING_VIOLATION 告 终 。 但 是 我 们 
的 B 依 然 穷 追 不 舍 ， 在 230 号 包 中 再 次 发 送 了 Open() 请 求 ， 这 次 ，B 吃 
一 翘 长 一 智 ， 不 在 Access Mask 中 设置 任何 写 相 关 的 Flag， 但 是 Share 
Mode 中 依然 设置 了 排他 性 的 只 读 模式 ， 即 不 允许 其 他 进程 写 ，B 依 然 
抱 有 幻想 它 可 以 独占 打开 这 个 文件 ， 所 以 它 的 幻想 依然 还 要 破 火 ，230 
号 包 显 示 服 务 端 再 次 拒绝 。 


图 19-37 B 先 后 三 次 尝试 打开 目标 文件 


但 是 B 上 的 程序 是 很 有 角力 的 ， 它 感知 到 只 在 Access Mask 里 妥协 
是 不 行 的 ， 只 有 全 部 妥协 才 可 能 有 机 会 ， 所 以 B 又 一 次 发 起 Open()。 这 
次 它 在 Share Mode 里 允许 其 他 进程 读 和 写 ， 见 235 号 包 相 比 230 号 包 的 
变化 部 分 。236 号 包 中 服务 端 返回 了 成 功 响 应 ， 这 一 次 ，B 终 于 如 愿 以 
兰 获 得 了 服务 端 给 的 File Handle。 


但 是 遗憾 的 是 ， 服 务 端 并 没有 给 B 任 何 Oplock， 见 236 号 包 。 这 似 
乎 有 点 不 可 思议 ， 因 为 前 文中 曾经 提 到 过 ， 服 务 端 给 出 Level2 锁 时 并 
不 判断 之 前 其 他 客户 端的 打开 请 求 中 是 否 带 有 写 相 关 的 Flag， 但 是 这 
次 为 何 服务 端 没 有 给 B 呢 ? 原因 就 在 于 A 上 被 释放 的 字 节 锁 。 任 何 字 节 
锁 均 会 导致 除 加 锁 客户 端 之 外 其 他 所 有 客户 端的 Oplock 锁 拥 声 ， 有 锁 


的 交 出 来 ， 没 锁 的 不 再 给 。 接 下 来 我 们 就 会 看 到 ， 客 户 端 A 的 Level2 锁 
随后 也 因为 此 被 剥 村 了 。 


打开 了 文件 之 后 ，B 上 的 Word 程序 也 需要 对 文件 进行 字 节 区 段 加 
解锁 过 程 (至 于 为 何 加 锁 锁 哪些 区 域 我 们 在 此 不 管 它 ， 程 序 设 计 决 
定 ) ， 如 图 19-38 所 示 。 


图 19-38 B 对 文件 加 字 节 锁 引 起 A 上 的 Level2 锁 雪 塌 


图 19-38 中 上 半 部 分 是 在 B 上 检测 的 Word 程 序 实际 所 做 的 操作 ， 下 
半 部 分 为 这 些 操作 被 发 送 到 服务 端 时 的 监测 数据 ， 可 以 看 到 二 者 一 一 
对 应 ， 除 了 一 个 包 ，247 号 包 。 服 务 端 发 给 了 客户 端 A 一 个 Lock 相 关 的 
包 ， 可 以 看 到 图 中 最 底部 对 应 这 个 包 的 内 容 ， 是 一 个 Level2 锁 断 开 通 
知 。 所 以 ，B 对 文件 的 字 节 锁 操 作 ， 会 导致 A 上 Level2 锁 的 圾 塌 ， 至 此 
所 有 客户 端 都 没有 Oplock 锁 了 。 


当 B 对 文件 进行 了 字 节 锁 操作 之 四 1939 8 并 不 打开 中 实 
后 ，B 上 的 Word 程 序 会 提示 一 个 窗 
口 让 用 户 选 择 ， 如 图 19-39 所 示 。 


这 里 可 能 有 些 需要 解释 的 地 方 ， 按 理 说 程序 应 该 在 收 到 
STATUS_SHARING_VIOLATION 之 后 立即 提示 这 个 窗口 ， 但 是 在 此 笔 
者 也 不 知 为 何 程序 会 在 底层 尝试 最 终 打开 文件 并 且 做 了 字 节 锁 操 作 之 
后 才 提 示 。 在 此 猜测 可 能 因为 程序 需要 保证 用 户 选 择 了 只 读 打 开 后 ， 
程序 必须 可 以 打开 ， 所 以 程序 会 预先 打开 测试 ， 如 果 能 打开 才 提 示 。 
这 当然 只 是 猜测 。 


注意 : 如 果 一 个 客户 端 打开 了 文件 ， 获 取 了 Oplock， 如 果 在 
CIFS Server 上 某 个 程序 通过 本 地 文件 系统 也 打开 这 个 文件 ， 
那么 Server 会 按照 同样 的 策略 来 Break Lock。 另 外 ， 如 果 同 一 
台 客 户 端 上 的 同一 个 程序 先后 两 次 打开 一 个 文件 ， 那 么 第 一 
次 获得 的 Batch Oplock 将 被 降级 为 Level2 Oplock， 第 二 次 打开 
时 获得 Level2 Oplock。 也 就 是 说 服务 端 并 不 管 打开 目标 文件 
的 进程 是 不 是 同一 个 ， 或 者 进程 是 服务 端 本 地 进程 还 是 客户 
端 进程 ， 统 一 对 待 。 

已 经 被 剥夺 的 锁 不 可 能 自动 再 获得 ， 比 如 当 所 有 客户 端 都 关 
闭 目 标 文 件 ， 只 剩 下 一 个 客户 端 时 ， 服 务 端 不 会 再 将 锁 重 新 
灌 给 这 个 客户 端 ， 协 议 中 没有 这 样 的 设计 。 要 想 申请 锁 ， 必 
须 重新 Open() 一 遍 才 有 可 能 获得 。 

客户 端 可 以 在 使 用 Oplock 的 基础 上 使 用 Lockfile0 字 节 锁 。 前 
者 是 靠 运气 而 且 是 全 局 的 ， 后 者 是 注定 的 、 局 部 的 。 


总 的 来 讲 ， 对 于 CIFS 方 式 的 Network IO 模式 下 ， 系 统 内 核 缓存 的 
效率 很 低 ， 多 数 情况 下 都 是 因为 惩罚 值 太 高 而 帮 了 倒 忙 ， 所 以 我 们 还 
是 不 用 为 好 。Oplock 只 在 特定 情况 下 能 够 发 挥 一 点 作用 ， 程 序 设 计 人 
员 需 要 注意 ， 要 时 刻 知道 底层 都 在 做 什么 。 本 书 的 目的 就 是 让 读者 对 
整个 存储 系统 架构 有 一 个 深刻 理解 ， 以 方便 今后 的 管理 维护 和 开发 工 
作 。 


7) NFS 下 的 缓存 和 IO 机 制 


同 为 NAS 网 络 文件 访问 协议 ，NFS 不 管 在 数据 包 结 构 上 还 是 在 交 
互 逻 辑 上 相 比 CIFS 要 简化 许多 ， 但 是 简化 的 结果 就 是 并 不 如 CIFS 强 
大 ，CIFS 之 所 以 复杂 是 因为 CIFS 协 议 中 几乎 可 以 透 传 本 地 文件 系统 的 
所 有 参数 和 属性 ， 而 NFS 携 带 的 信息 很 有 限 。 简 化 同样 也 带 来 了 高 


效 ， 执 行 类 似 的 操作 ，NFS 交 互 的 数据 包 在 单个 包 的 大 小 上 和 整体 发 
包 数 量 都 相对 CIFS 有 很 大 的 降低 。 


与 CIFS 不 同 的 是 ，NFS 提 供 诸多 更 改 的 参数 来 控制 操作 系统 内 核 
底层 IO 行为 。Windows 系 统 可 以 安装 SFU 软 件 来 实现 NFS 的 客户 端 或 者 
服务 端 功能 ， 同 样 也 提供 了 少量 可 更 改 的 参数 。 


在 了 解 NFS 底 层 行为 之 前 ， 我 们 先 看 一 看 NFS 方 面 的 4 个 比较 典型 
的 参数 设置 。 这 4 个 参数 中 ， 前 三 个 都 是 在 mount 的 时 候 可 以 指定 的 ， 
包括 sync、rsize、wsize， 第 四 个 参数 O_DIRECT 是 需要 在 程序 对 文件 
打开 调用 时 指定 的 。 下 面 我 们 分 别 来 调查 这 4 个 参数 对 系统 底层 1O 行 
为 的 影响 ， 但 是 首先 要 来 看 一 下 默认 mount 参 数 下 NFS 底 层 行为 。 测 试 
基于 RHEL5 系 统 ， 内 核 版 本 2.6.18。 


(1) 默认 mount 人 参数 下 的 IO 行为 


NFS 默 认 的 mount 参 数 为 async、rsize 二 wsize 二 65536。 async 人 参数 
表示 系统 内 核 不 会 透 传 程序 的 IO 请 求 给 NFS Server， 对 于 写 IO 会 延缓 
执行 ， 积 累 一 定 的 时 间 以 便 合 并 上 层 的 IO 请 求 以 提高 效率 ， 不 管 是 读 
还 是 写 请 求 ，async 都 会 具有 一 定 效 果 ， 尤 其 是 连续 地 址 的 IO。 


如 图 19-40 所 示 ， 上 半 部 分 为 使 用 dd if=/mnt/3 of 二 /dev/null bs 三 
1500 count 三 100 来 读 取 NFS 文 件 ， 使 用 底层 抓 包工 具 抓 取 的 底层 IO 结 
果 ， 下 半 部 分 为 使 用 dd if==/mnt/3 of 二 /dev/null bs 三 150 count 王 100 时 
的 结果 。Linux 下 的 dd 是 一 个 使 用 同步 调用 十 Buffered IO 模式 的 程序 ， 
但 是 在 图 中 上 半 部 分 却 显示 出 明显 的 底层 异步 IO 行为 ， 即 IO 批量 发 
送 ， 数 据 批 量 返回 。 这 种 IO 行为 是 由 于 文件 系统 的 预 读 造成 的 〈 这 里 
并 不 是 读 IO 被 合并 的 结果 ， 见 下 文 ) 。 可 以 看 到 ， 由 于 dd 进行 的 是 连 


续 读 操作 ， 所 以 导致 了 文件 系统 最 大 力度 的 预 读 ， 每 次 发 向 存储 设备 
的 IO 字 节 数 为 65536， 也 是 Linux 下 rsize 的 最 大 值 。 可 以 算出 系统 共 读 
入 了 409600 十 65536 = 475136B 的 内 容 ， 但 是 dd 所 读 取 的 一 共 是 
1500x100 = 150000B ， 所 以 ， 系 统 预 读 造成 了 475136 一 150000 = 
325136B 的 浪费 。 再 来 看 下 半 部 分 ， 系 统 共 读 入 了 81920B ，dd 请 求 了 
150x100 王 15000B， 浪 费 掉 81920 一 15000 王 66920B。 


图 19-40 ”dd 测试 结果 


还 记得 CIFS 么 ? 相 比 NFS 来 讲 ， 在 连续 读 的 情况 下 ，CIFS 低 效 得 
多 ，CIFS 根 本 没有 做 主动 预 读 的 意思 ， 只 有 被 动 预 读 。 


我 们 再 来 看 图 19-41， 使 用 测试 软件 对 NFS 文 件 做 随机 读 操作 ， 每 
次 请 求 200B 的 数据 ， 可 以 看 到 ， 读 惩罚 产生 了 。 随 机 读 情 况 下 ， 内 核 
底层 读 入 了 1 个 Page 的 内 容 。 这 里 需要 提 一 下 ， 对 于 本 地 文件 系统 ， 
Linux 同 样 使 用 Page Cache 映 射 方式 。 在 Windows 下 ，CIFS 在 随机 读 情 
况 下 也 产生 类 似 的 读 惩罚 ， 但 是 二 者 有 本 质 不 同 : Windows 下 的 CIFS 
的 读 惩罚 是 因为 Page Fault 过 程 ， 底 层 必 须 以 Page 为 单位 ; 而 Linux 下 
NFS 的 读 惩罚 只 是 因为 文件 系统 预 读 的 单位 为 Page。 二 者 虽然 表象 相 
同 ， 但 是 其 出 发 点 却 不 同 。 


图 19-41 产生 惩罚 现象 


我 们 再 来 看 看 写 行 为 。 写 有 两 种 方式 : 追加 写 和 覆盖 写 。 如 图 19- 
42 所 示 ， 使 用 dd it=/dev/zero of 二 /mnt/3 bs 三 1 count 三 100 来 对 /mnty3 这 
个 文件 进行 追加 写 操 作 ， 可 以 看 到 17 号 包 对 应 的 SETATTR 请 求 ，dd 程 
序 将 已 经 存在 的 文件 的 size 设 置 为 0， 然 后 从 尖 开 始 追 加 写 入 这 个 文 
件 ， 每 次 写 1B， 写 100 次 。 但 是 内 核 在 底层 可 并 没有 向 NFS 服 务 端 发 起 


100 次 写 ， 实 际 上 只 发 送 了 一 个 写 请 求 ， 对 应 19 号 包 。offset =0， 
length 三 100， 也 就 是 从 头 开始 写 100B ， 证 明 内 核 将 dd 发 送 的 写 请 求 数 
据 全 部 缓存 并 且 合 并 了 起 来 发 送 给 NFS 服 务 端 。 


图 19-42” 写 合并 的 发 生 


中 最 底部 的 部 分 是 在 使 用 dd if 二 /dev/zero of 二 /mnt/3 bs 三 1500 
count 王 1000 时 抓 取 的 底层 IO 结果 ， 可 以 看 到 dd 为 同步 调用 ， 到 了 底 
层 ， 内 核 将 dd 的 写 IO 数 据 合 并 ， 并 且 以 异步 的 方式 高 效 发 向 NFS 服 务 
端 。 


注意 : 仔细 的 人 可 以 注意 到 ，590 号 包 的 Length 并 不 是 
65536， 这 是 因为 合并 之 后 的 数据 本 身 就 并 不 对 齐 ， 所 以 最 后 
系统 将 余 量 完全 透 传 到 NFS 服 务 器 ， 而 并 不 会 发 生 读 入 一 个 
对 齐 的 单位 ， 修 改 之 ， 然 后 再 写 入 惩罚 现象 。 


再 来 看 一 下 覆盖 写 。 覆 盖 写 又 可 以 分 为 两 种 : 连续 覆盖 写 ， 随 机 
覆盖 写 。 这 里 要 理解 ， 追 加 写 一 定 是 连续 写 ， 而 随机 写 一 定 是 覆盖 
写 。 

如 图 19-43 所 示 ， 使 用 测试 工具 对 一 个 NFS 文 件 进行 以 1B 为 单位 的 


覆盖 写 入 操作 ， 上 半 部 分 为 连续 写 情况 下 的 底层 IO 监 测 结 果 ， 而 下 半 
部 分 则 为 随机 写 的 监测 结果 。 


图 19-43 ”覆盖 写 测 试 结 


可 以 看 到 ， 连 续 履 兰 写 情况 下 ， 内 核 同样 是 对 写 操作 进行 了 合并 
操作 。 而 随机 写 情 况 下 ， 内 核 根本 无 法 合并 写 IO， 所 以 内 核 的 做 法 是 


完全 透 传 用 户 程 序 发 起 的 IO， 而 且 ， 没 有 任何 写 惩 罚 。 


还 记得 Windows 下 的 CIFS 么 ? 在 Windows 下 使 用 CIFS， 患 有 严重 
的 惩罚 综合 症 ， 不 但 读 有 ， 写 更 严重 。Linux 下 使 用 NFS， 对 于 写 操 
作 ， 不 管 offset 是 否 为 Page 或 者 512B 对 齐 ， 都 没有 任何 写 惩罚 的 存在 ， 
而 对 于 读 操作 ， 也 只 有 在 随机 读 的 情况 下 出 现 了 读 惩罚 ， 其 他 任何 情 
况 下 都 没有 惩罚 。 


(2) 指定 sync 参 数 后 的 IO 行为 


默认 mount 使 用 的 是 async 模 式 ， 内 核 可 以 对 IO 进行 合并 以 提高 多 
率 。 这 里 有 一 点 需要 理解 ， 即 内 核 处 理 的 async 或 者 sync 与 上 层 程 序 调 
用 时 的 sync 与 async 紧 密 相 关 。 如 果 上 层 使 用 sync 调 用 ， 则 其 产生 的 读 
IO 一 定 在 内 核 处 也 是 同步 执行 的 ， 因 为 只 有 在 前 一 个 读 请 求 数据 成 功 
地 被 返回 给 程序 ， 程 序 才 会 发 起 下 一 个 读 请 求 ， 对 于 异步 读 调用 ， 内 
核 可 以 在 短 时 间 内 接收 到 多 个 读 请 求 ， 此 时 内 核 可 以 将 这 些 读 请 求 合 
并 处 理 ， 这 就 是 异步 过 程 了 。 对 于 同步 写 调 用 ， 程 序 只 有 在 前 一 个 写 
操作 完成 之 后 才 会 发 起 下 一 个 写 ， 而 如 果 程 序 使 用 了 Buffered IO 模 
式 ， 那 么 一 个 写 操作 会 迅速 瞬时 完成 。 因 为 内 核 只 要 将 待 写 数据 复制 
到 系统 内 核 缓存 即 可 通知 程序 完成 ， 继 而 接着 发 起 下 一 个 写 操 作 ， 那 
么 内 核 在 短 时间 内 即 可 积累 若干 待 写 数据 ， 这 些 数据 并 不 是 没 接收 到 
一 次 就 必须 向 底层 存储 介质 写 一 次 的 ， 此 时 内 核 可 以 合并 这 些 写 ， 这 
也 是 一 个 异步 过 程 。 而 对 于 上 层 的 异步 写 调 用 ， 内 核 处 理 过 程 就 更 是 
异步 了 。 所 以 ， 内 核 的 异步 过 程 ， 只 对 Buffered IO 模 式 下 的 同步 写 、 
异步 与 、 异 步 读 有 意义 。 


我 们 这 就 来 将 内 核 的 这 种 行为 改 一 下 ， 不 让 它 缓 存 IO， 要 求 它 立 
即 执行 每 一 个 IO。 在 mount 的 时 候 我 们 使 用 mount -o sync 来 挂 载 一 个 


NFS Export。 然 后 分 别 使 用 dd 程序 对 目标 文件 进行 1500B 为 单位 的 读 操 
作 和 以 1B 为 单位 的 写 操 作 。 如 图 19-44 所 示 ， 上 半 部 分 为 读 操作 的 监测 
结果 ， 下 半 部 分 为 写 操 作 的 监测 结果 。 


图 19-44” sync 参数 的 影响 


我 们 可 以 看 到 ， 对 于 读 操作 ， 底 层 是 不 是 似乎 将 程序 发 起 的 读 IO 
合并 了 呢 ? 根本 不 是 ， 上 文 曾 经 分 析 过 ， 除 非 程序 自己 使 用 异步 读 IO 
调用 ， 否 则 内 核 底层 不 可 能 在 单位 时 间 内 接收 到 多 个 由 同一 个 进程 发 
起 的 读 请 求 ， 所 以 也 就 无 从 合并 。 出 现 这 种 现象 的 根本 原因 是 文件 系 
统 预 读 行为 导致 的 。sync 参 数 表 示 IO 需 要 被 立即 执行 而 不 得 延迟 ， 但 
是 对 于 读 立 即 执行 和 写 立 即 执行 ， 内 核 却 有 不 同 的 处 理 方式 。 读 立即 
执行 ， 不 一 定 表 示 不 可 以 进行 Prefetch 和 Cache Hit 操 作 ， 但 是 对 于 写 立 
即 执 行 ， 却 绝对 不 可 以 将 待 写 的 数据 缓存 起 来 延迟 处 理 。 正 因 如 此 ， 
图 中 下 半 部 分 说 明 内 核对 写 IO 不 缓存 、 不 延迟 ， 再 接收 到 之 后 ， 立 即 
透 传 给 了 NFS 服 务 端 处 理 。 


8) 指定 rsize/wsize 人 参数 后 的 IO 行为 


NEFS 客 户 端 在 mount 服 务 端 的 exports 时 ， 服 务 端 会 向 客户 端 通告 服 
务 端 自 身 所 能 接受 的 最 大 IO Length。 客 户 端 根据 这 个 Length 来 决定 ， 
如 果 用 户 程序 发 起 的 IO Length 大 于 这 个 值 ， 那 么 NFS 客 户 端 有 责任 将 
程序 的 IO 分 割 为 小 于 等 于 这 个 值 ; 如 果 小 于 这 个 值 ， 可 以 直接 透 传 ， 
也 可 以 合并 成 这 个 值 来 发 送 。 


使 用 mount -o rsize 三 1024， 我 们 将 rsize 从 默认 的 64KB 改 为 1KB， 
看 看 底层 会 发 生 什么 事情 。 首 先 使 用 dd 产生 连续 读 IO 来 触发 内 核 的 预 


读 操作 ， 如 图 19-45 所 示 ， 内 核 预 读 依然 发 生 ， 但 是 向 底层 存储 系统 发 
起 的 IO Length 降 为 1KB， 效 率 大 大 降低 。 


图 19-45 ”rsize 参 数 的 影响 


如 图 19-46 所 示 ， 使 用 测试 程序 产生 小 块 随 机 读 操作 ， 此 时 内 核 会 
产生 读 惩罚 ， 针 对 每 个 读 操作 都 会 读 入 一 个 Page。 但 是 由 于 rsize 的 改 
变 ， 本 来 一 个 IO 就 可 以 读 入 的 Page， 现 在 必须 被 分 割 为 4 个 IO 才 可 以 
读 入 。 注 意 方 框 中 的 offset。 


图 19-46 “ 读 惩 罚 产生 


使 用 mount -o wsize 二 1024 将 wsize 改 为 1KB， 使 用 dd 程序 进行 连续 
写 入 操作 ， 内 核 虽 然 合 并 了 这 些 写 IO ， 但 是 无 奈 ， 合 并 的 IO 最 终 还 会 
被 分 割 成 1KB 的 IO 发 送 到 NFS 服 务 端 ， 如 图 19-47 所 示 。 


图 19-47 ”wsize 人 参数 的 影响 


可 以 看 到 ， 改 变 rsize/wsize， 对 NFS 的 IO 逻辑 没有 任何 影响 ， 受 到 
影响 的 只 是 底层 传输 的 数据 包 数 量 和 大 小 。 任 何 情况 下 均 不 要 降低 
rsize 或 者 wsize， 百 害 而 无 一 利 。 这 个 参数 的 调节 只 是 为 了 使 用 NFS 服 
务 端的 要 求 而 已 。 


注意 : 在 RHEL5 以 及 其 他 一 些 Linux 系 统 上 ， 如 果 使 用 mount 
-0 rsize 二 32KB 这 种 命令 格式 来 更 改 rsize 或 者 wsize 的 话 ， 那 
么 系统 虽然 在 执行 命令 之 后 没有 任何 错误 信息 报 出 ， 但 是 系 
统 内 核 在 底层 却 并 没有 按照 给 出 的 这 个 值 来 分 割 IO 请 求 ， 而 
是 统统 使 用 了 4KB 为 单位 ， 如 图 19-48 所 示 。 

图 19-48 ”底层 使 用 4KB 为 分 割 单位 


而 如 果 使 用 mount -o rsize 三 32768 这 种 命令 格式 ， 此 时 就 没有 
任何 问题 了 ， 如 图 19-49 所 示 。 虽 然 32KB 三 32768B， 但 是 内 
核 似乎 并 不 认同 前 者 ， 使 用 时 一 定 要 倍加 注意 。 分 割 单 位 在 
不 知情 的 情况 下 变 小 ， 会 增加 存储 系统 负担 。 

图 19-49 ”底层 使 用 命令 给 出 的 值 为 分 割 单位 


9) 程序 使 用 O_DIRECT 参 数 后 的 10 行 为 


Linux 下 的 NFS 比 Windows 下 的 CIFS 优 异 ， 表 现在 ， 前 者 有 明显 预 
读 力度 ， 只 在 特定 条 件 下 有 读 惩罚 ， 与 惩罚 一 点 没有 。 正 因 NFS 的 组 
存 如 此 高 效 ， 所 以 在 Linux 2.6 内 核 中 ， 在 mount 时 并 没有 提供 Direct IO 
的 选项 (内核 编译 时 被 禁止 ) ， 但 是 单个 程序 在 Open0 的 时 候 依然 可 
以 指定 O_DIRECT 参 数 来 对 单个 文件 使 用 DIO 模 式 。 与 Windows 下 CIFS 
实现 方式 相同 ， 如 果 选 择 使 用 了 DIO 模 式 ， 那 么 NFS 层 就 会 完全 透 传 
程序 层 的 IO 请 求 。 如 图 19-50 所 示 ， 以 DIO 方 式 读 取 文 件 ， 每 次 1B， 底 
层 完 全 透 传 了 上 层 的 IO 请 求 。 


图 19-50 ”DIO 模式 测试 结果 
10) 多 进程 访问 下 的 缓存 一 致 性 解决 办 法 


在 缓存 一 致 性 的 保证 方面 ，NFS 相 比 CIFS 来 讲 要 差 一 些 。CIFS 使 
用 Oplock 机 制 来 充分 保证 文件 的 时 序 一 致 性 ; 而 对 于 NFS， 除 了 使 用 
字 节 锁 或 者 干脆 使 用 DIO 模 式 之 外 ， 没 有 其 他 方法 能 够 在 使 用 缓存 的 
情况 下 严格 保证 时 序 一 致 性 ，NFS 只 提供 “尽力 而 为 ”的 一 致 性 保证 ， 
而 且 这 种 保证 全 部 由 客户 端 自行 实现 ，NFS 服 务 端 在 这 个 过 程 中 不 作 
为 。 下 面 我 们 就 来 看 一 下 NFS 提 供 的 尽力 而 为 的 一 致 性 保证 机 制 。 


比如 ， 有 两 个 客户 端 共同 访问 同一 个 NFS 服 务 端 上 的 文件 ， 而 且 
这 两 个 客户 端 都 使 用 本 地 NFS 缓 存 ， 那 么 客户 端 A 首先 打开 了 文件 并 
且 做 了 预 读 ， 而 且 A 本 地 缓存 内 还 有 被 缓存 的 写 数 据 。 此 时 客户 端 B 也 
打开 了 这 个 文件 ， 并 且 做 了 预 读 ， 如 果 被 读 入 的 数据 部 分 恰好 是 A 被 
缓存 的 尚未 写 入 的 部 分 ， 那 么 此 时 就 发 生 了 时 序 不 一 致 。 而 这 种 情况 
在 CIFS 下 是 不 会 发 生 的 ， 因 为 B 打 开 时 ， 服 务 端 会 强制 让 A 来 将 目 己 的 
写 缓 存 Flush， 然 后 才 人 允许 B 打 开 ， 此 时 B 读 入 的 就 是 最 新 的 数据 。 


再 回 到 NFS 来 ，B 上 某 进 程 打 开 了 这 个 文件 之 后 ， 内 核 会 将 文件 的 
属性 缓存 在 本 地 ， 包 括 访问 时 间 、 创 建 时 间 、 修 改 时 间 、 文 件 长 度 等 
信息 ， 任 何 需 要 读 取 文 件 属 性 的 操作 ， 都 会 Cace Hit， 直 到 这 个 
Attribute Cache (ac) 达到 失效 时 间 为 止 ， 如 果 ac 达 到 了 失效 时 间 ， 那 
么 内 核 NFS 层 会 向 服务 端 发 起 一 个 GETATTR 请 求 来 重新 取 回 文件 最 新 
的 属性 信息 并 缓存 在 本 地 ，ac 失 效 计 时 器 被 置 0， 重 新 开始 计时 ， 往 复 
执行 这 个 过 程 。 在 ac 缓存 未 超时 之 前 ， 客 户 端 不 会 向 服务 端 发 起 
GETATTR 请 求 ， 除 非 收 到 了 某 个 进程 的 Open() 请 求 。 其 他 诸如 stat 命 
令 等 读 取 文件 属性 的 操作 ， 不 会 触发 GETATTR。 


在 任何 时 刻 ， 任 何 针对 NFS 文 件 的 Open0) 操 作 ， 内 核 均 会 强制 触 
发 一 个 GETATTR 请 求 被 发 送 至 服务 端 以 便 取 回 最 新 的 属性 数据 。 这 样 
做 是 合理 的 ， 因 为 对 于 Open0 操 作 来 说 ， 内 核 必须 提供 给 这 个 进程 最 
新 的 文件 数据 ， 所 以 必须 碍 看 最 新 属性 以 与 ac 缓存 中 的 副本 对 比 。 如 
果 新 取 回 的 属性 信息 中 mtime 相 对 于 本 地 缓存 的 信息 没有 变化 ， 则 内 
核 会 擅自 替代 NFS 服 务 端 来 响应 程序 的 Open0， 并 且 随 后 程序 发 起 的 
读 操作 也 都 首先 去 碰 缓 存 命中 ， 不 命中 的 话 再 将 请 求 发 给 服务 端 ， 这 
一 点 类 似 CIFS 下 的 Batch Oplock; 但 是 如 果 新 取 回 的 文件 属性 中 对 应 
的 mtime 比 缓存 副本 晚 ， 那 么 就 证 明 有 其 他 客户 端的 进程 修改 了 这 个 


文件 ， 也 就 意味 着 本 地 的 缓存 不 能 体现 当前 最 新 的 文件 数据 ， 全 部 作 
废 。 所 以 此 时 ， 内 核 NFS 会 将 这 个 Open() 请 求 透 传 到 服务 端 ， 随 后 发 
生 的 读 写 数据 的 过 程 依旧 先 Cache Hit (由 于 之 前 缓存 作废 ， 所 以 第 一 
次 读 请 求 一 定 是 不 命中 的 ) ， 未 命中 则 从 服务 端 读 取 。 随 着 缓存 不 断 
被 填充 以 最 新 读 入 的 数据 ， 命 中 率 会 越 来 越 高 ， 而 且 直 到 下 次 出 现 同 
样 的 过 程 之 前 这 些 缓存 的 文件 属性 副本 和 数据 副本 不 会 作废 。 


ac 的 超时 值 是 可 控 的 ， 在 mount 的 时 候 可 以 指定 “actimeo 三 秒 数 "这 
个 参数 来 设 定 。 当 然 ， 这 个 值 设 定 的 越 低 ， 客 户 端 发 送 GETATTR 到 服 
务 端的 频率 也 就 越 高 ， 就 能 更 快 地 感知 到 目标 文件 的 变化 。 如 果 将 其 
设置 为 0， 意 味 着 不 缓存 文件 属性 信息 ， 那 么 客户 端 上 的 进程 每 次 查询 
文件 属性 的 操作 〈 比 如 stat 命 令 ) 均 会 触发 一 个 GETATTR 被 发 送 到 服 


LL 
务 端 。 


Mount NES 时 还 有 一 个 选项 叫做 “noac”， 即 No Attribute Cache 缩 
写 ， 这 个 选项 与 actimeo 三 0 的 区 别 是 ，noac 等 价 于 “actimeo 三 0” 十 


“Sync”o 


对 于 读 操 作 ， 使 用 noac 或 者 actimeo 三 0 选项 的 情况 下 ， 如 果 程 序 
没有 使 用 DIO， 那 么 内 核 依然 有 预 读 行 为 。 但 是 ， 为 了 确保 程序 读 入 
的 数据 是 最 新 的 ， 每 次 程序 发 起 read0 ， 如 果 内 核 判 断 这 个 read0 命 中 
了 当前 的 缓存 ， 则 会 同时 触发 getattr 发 向 服务 端 。 如 果 取 回 的 属性 
mtime 未 变 ， 则 从 缓存 中 将 数据 返回 给 程序 ; 如 果 mtime 有 变 ， 则 向 服 
务 端 发 起 read0 取 回 最 新 数据 。 如 果 程 序 发 起 的 read0 未 命中 ， 则 无 须 
触发 GETAITR ， 直 接 向 服务 端 发 起 read0 取 回 数据 。 这 种 做 法 的 好 处 
是 极 大 地 利用 了 预 读 缓存 ， 每 个 read0 用 一 个 GETATTR 为 代价 来 探寻 
缓存 的 文件 属性 是 否 为 最 新 ， 一 旦 走运 为 最 新 ， 那 么 即 可 不 需要 向 服 
务 端 发 起 read0)。 


如 果 使 用 DIO 模 式 ， 每 个 程序 发 起 的 read0) 就 均 会 被 映射 为 内 核 向 
服务 端 发 起 的 read0， 享 受 不 到 预 读 缓存 的 效果 。 使 用 上 面 这 种 方法 ， 
虽然 每 个 read0 均 会 导致 发 送 一 次 GETATTR ， 但 是 GETATTR 消 耗 的 资 
源 相 比 read0 来 讲 是 很 少 的 。 但 是 这 样 做 依然 对 性 能 有 很 大 的 影响 ， 如 
果 整 个 环境 中 只 有 一 台 客 户 端 ， 那 么 使 用 noac 是 严重 浪费 网 络 和 系统 
资源 的 ， 一 个 进程 可 能 在 单位 时 间 内 发 起 大 量 的 read() 操 作 ， 就 算是 这 
些 read() 均 命中 了 缓存 ， 那 么 依然 不 能 避免 内 核 在 底层 会 发 向 与 read() 
调用 等 同 数量 的 GETATTR 请 求 数 据 包 给 NFS 服 务 端 。 网 络 上 可 以 看 见 
成 千 上 万 的 GETATTR， 这 是 多 此 一 举 的 行为 ， 缓 存 的 提速 作用 都 被 外 
部 网 络 的 速度 给 制约 了 ， 根 本 没有 体现 出 来 ， 所 避免 的 仅仅 是 被 假设 
的 可 能 需要 从 服务 端 读数 据 的 过 程 。 


CIFS 的 Oplock 模 式 一 旦 某 个 客户 端 锁 被 剥夺 ， 那 么 除非 进程 再 次 
Open0 ， 否 则 不 可 能 再 使 用 本 地 缓存 。 但 是 NFS 下 可 以 随时 使 用 缓 
存 ， 只 要 GETATTR 取 回 的 信息 中 mtime 未 变 。 就 算 mtime 变 了 ， 本 地 组 
存 作废 ， 之 后 还 会 积累 新 的 缓存 数据 可 供 Read Cache Hit， 直 到 下 一 次 
作废 为 止 。 


总 结 : Linux 下 的 NFS 缓 存 一 致 性 解决 办 法 ， 从 严格 到 不 严格 依次 
为 程序 使 用 DIO 模 式 、 使 用 noac 选 项 来 mount、 降 低 actimeo 阅 值 到 尽量 
低 的 值 、 默 认 mount 参 数 。 按 照 这 个 顺序 ， 客 户 端 获 得 的 性 能 是 递减 
的 ，DIO 模 式 根 本 无 法 使 用 缓存 ，noac 模 式 只 能 靠 发 送 GETATTR 来 碰 
运气 使 用 预 读 缓 存 ，actimeo 超 时 周期 内 则 可 以 肆 无 忌 尽 地 使 用 本 地 缓 
存 而 不 需要 向 服务 端 发 起 GETATTR 来 探 询 。 默 认 mount 人 参数 的 actimeo 
三 60， 也 就 是 1 分 钟 ， 所 以 缓存 发 挥 的 作用 更 大 。GETATITR 是 多 客户 
端 访问 环境 下 NFS 实 现 缓存 一 致 性 的 法 宝 。 


11) Linux 上 使 用 CIFS 与 Windows 上 使 用 NFS 


我 们 知道 ，Linux 上 现在 已 经 可 以 直接 以 CIFS 协 议 来 mount 一 个 
CIFS 服 务 端的 共享 目录 ， 同 时 Windows 上 也 可 以 通过 安装 Microsoft 提 
供 的 Windows Services for UNIX (SFU) 开发 包 来 实现 对 NFS 服 务 端的 
mount。 现在 我 们 来 调查 一 下 这 两 者 的 一 些 行为 与 原配 情况 下 有 什么 
异同 。Linux 使 用 RHEL5， 自 带 了 对 CIFS 的 支持 ;Windows 使 用 WinXP 
SP3， 安 装 SFU 3.5 开 发 包 。 


我 们 首先 调查 Linux 上 使 用 CIFS 的 情况 。 使 用 默认 参数 mount -t 
cifs 命 令 来 mount 服 务 端 的 一 个 共享 目录 。 如 图 19-51 所 示 ， 图 中 第 一 项 
结果 对 应 用 dd 进行 同步 十 Buffered IO 模 式 从 目录 某 文件 中 读 出 1byte 的 
内 容 的 过 程 ， 第 二 项 结果 对 应 用 dd 进行 同步 十 Buffered IO 模 式 每 次 1B 
读 入 10000 次 的 过 程 ; 第 三 项 结果 对 应 使 用 测试 程序 进行 Buffered IO 十 
同步 调用 模式 以 1B 为 单位 持续 随机 读 取 文 件 的 过 程 ; 第 四 项 结果 对 应 
使 用 测试 程序 进行 Buffered IO 十 同步 调用 十 WriteThrough 模 式 以 1B 为 
单位 持续 随即 覆盖 写 入 文件 的 过 程 。 


图 19-51 ”Linux 下 使 用 CIFS 


从 上 图 的 各 项 测试 结果 来 看 ，Linux 下 的 CIFS 访 问 方式 同样 存在 读 
写 惩 罚 ， 究 其 原因 还 是 由 于 Page Cache 导 致 。 看 来 Linux 下 除了 使 用 
NFS 可 以 避免 惩罚 之 外 ， 本 地 文件 系统 和 CIFS 文 件 系统 均 无 法 避免 读 
与 惩罚 。Linux 下 还 是 使 用 原配 的 NFS 最 好 。 


我 们 再 来 看 一 看 Windows 上 使 用 NFS 访 问 的 情况 。 如 图 19-52 所 
示 ， 第 一 项 结果 对 应 使 用 测试 工具 进行 Buffered IO 十 同步 调用 模式 下 
以 1B 为 单位 对 文件 进行 随机 读 的 过 程 ; 第 二 项 结果 对 应 使 用 测试 工具 
进行 Buffered IO 十 同步 调用 十 WriteThrough 模 式 下 以 1B 为 单位 对 文件 


进行 随机 写 的 过 程 ; 第 三 项 结果 对 应 用 测试 工具 进行 Buffered IO 十 同 
步调 用 模式 下 以 1B 为 单位 对 文件 进行 连续 地 址 写 的 过 程 。 


图 19-52 ”Windows 下 使 用 NFS 


是 否 产生 读 写 惩罚 与 操作 系统 的 具体 实现 有 关系 ， 不 能 将 这 种 惩 
罚 归于 某 个 协议 的 缺陷 ， 协 议 自身 是 没有 这 种 惩罚 缺陷 的 。 每 个 协议 
作为 一 个 模块 族 入 操作 系统 的 驱动 链 ， 产 生 惩罚 的 原因 在 于 0OS 与 模块 
之 间 的 接口 设计 。 


Windows 与 Linux 对 待 本 地 文件 都 使 用 Page Cache 映 射 方式 ，Linux 
对 块 设 备 也 使 用 Pcache 映 射 。 两 个 操作 系统 均 有 读 写 惩 罚 现象 。 
Windows 对 待 NTFS 与 CIFS 文 件 系 统 是 一 视 同仁 ， 而 Linux 下 则 进行 有 
区 别 的 对 待 ， 充 分 考虑 了 NFS 网 络 IO 的 效率 等 因素 。 但 是 遗憾 的 是 
Linux 与 CIFS 之 间 的 接口 尚 待 完善 。 而 windows 与 NFS 模 块 之 间 则 为 彻 
底 的 DIO 模 式 ， 完 全 透 传 ， 这 也 不 失 为 一 种 快刀 斩 乱 厅 的 实现 方式 。 


19.1.2 ”文件 系统 层 


文件 系统 是 系统 IO 路 径 中 首当其冲 的 一 个 比较 大 的 模块 。IO 离 开 
应 用 层 之 后 ， 便 经 由 OS 相关 操作 被 下 到 了 文件 系统 层 进行 处 理 。 文 件 
系统 一 个 最 大 的 任务 就 是 负责 在 逻辑 文件 与 底层 卷 或 者 磁盘 之 间 做 映 
射 ， 并 且 维 护 和 优化 这 些 映射 信息 。 文 件 系 统 还 需要 负责 向 上 层 提供 
文件 IO 访 问 API 接 口 ， 比 如 打开 、 读 、 写 、 属 性 人 修改、 裁剪 、 扩 充 、 
锁 等 文件 操作 。 另 外 ， 还 需要 维护 缓存 ， 包 括 预 读 、Wirite Back、 
Write Through、 Flush 等 操作 ;还 需要 维护 数据 一 致 性 ， 比 如 Log、 
FSCK 等 机 制 ， 还 需要 维护 文件 权限 、Quota 等 。 


可 以 把 一 个 文件 系统 逻辑 地 分 为 上 部 、 中 部 和 下 部 。 访 问 接口 属 
于 上 部 ;缓存 管理 、 文 件 管理 等 属于 中 部 ;文件 映射 、 一 致 性 保护 、 
底层 存储 卷 适 配 等 属于 下 部 。 


1. 文件 系统 上 部 


文件 系统 对 用 户 的 表示 层 处 于 最 上 部 ， 比 如 Linux 下 的 表示 法 
“roota.txt”、 “dev/sdal”、 “mntnfs” 或 者 Windows 下 的 表示 法 
“D:atxt”、“Z 在 192.168.1.1 上 的 Share\l.txt"。 文 件 系统 表示 层 给 用 户 提 
供 了 一 种 简洁 直观 的 文件 目录 ， 用 户 无 须 关 心路 径 对 应 的 具体 实体 处 
于 底层 的 哪个 位 置 ， 处 于 网 络 另 一 端 ， 还 是 磁盘 上 某 个 磁道 扇 区 。 这 
种 FS 最 顶层 的 抽象 称 为 Virtual File System (VFS) 。 


文件 系统 访问 接口 层 也 位 于 上 部 。 由 于 接口 层 直接 接受 上 层 IO， 
而 IO 又 有 14 种 ( 见 表 19-1) ， 文 件 系统 会 受到 这 14 种 IO 的 摧残 。 面 对 
这 种 摧残 ， 文 件 系 统 还 是 有 点 对 策 的 。 在 Windows 系 统 下 ，NTFS 提 供 
了 两 种 适 配 IO 类 型 的 API: FILE_FLAG_SEQUENTIAL_SCAN 和 
FILE_FLAG_RANDOM_ACCESS。 在 应 用 程序 打开 一 个 文件 时 可 以 在 
调用 相关 函数 的 时 候 给 出 对 应 的 Flag。 前 者 表示 应 用 准备 对 这 个 文件 
进行 连续 读 写 (LBA 地 址 连续 ) 访问 ， 如 果 使 用 这 个 参数 而 且 使 用 系 
统 内 核 缓 存 ， 那 么 文件 系统 会 加 大 默认 的 预 读 力度 和 频率 ， 这 个 参数 
在 不 使 用 系统 内 核 缓存 时 是 无 效 的 ; 后 者 则 表示 应 用 准备 对 这 个 文件 
进行 随机 读 写 访 问 ， 那 么 文件 系统 就 会 降低 默认 的 预 读 力度 和 频率 以 
避免 不 必要 的 浪费 。 


我 们 在 此 做 一 个 “疯狂 实验 ”来 折磨 一 下 文件 系统 ， 笔 者 用 
Asynchronous Explore 进 行使 用 系统 内 核 缓存 的 随机 IO ， 但 同时 又 指定 
了 连续 IO 参数 ， 通 告 FS 程 序 要 进行 连续 IO 但 实际 却 给 出 随机 IO。 这 显 


然 是 矛盾 的 。 我 们 利用 这 个 矛盾 来 调查 文件 系统 是 否 也 跟着 我 们 矛 
盾 。 如 图 19-53 所 示 ， 在 抓 取 的 iSCSI 包 结 果 中 我 们 可 以 看 到 ， 在 一 开 
始 瞬 间 的 21 号 包 表 示 FS 向 底层 存储 发 起 了 一 个 长 度 为 128B 的 读 IO， 这 
显然 受到 了 那个 参数 的 影响 ， 随 后 的 几 个 长 度 为 128B 的 IO 表明 FS 接连 
预 读 了 几 次 。 随 后 ， 再 也 没有 发 生 超 长 度 IO ， 表 明 FS 从 此 不 再 进行 预 
读 了 《后 续 还 有 数 百 个 IO ， 图 中 没有 截 出 ) 。 这 说 明 FS 是 很 有 智能 
的 ， 它 一 开始 参考 给 出 的 参数 ， 但 是 随后 它 发 现 上 层 给 出 的 IO 并 不 是 
连续 的 ， 受 骗 了 ， 所 以 愤然 不 再 预 读 。 


图 19-53 ”验证 FS 预 读 行 为 
2。 文件 系统 中 部 


缓存 位 于 文件 系统 中 部 。 预 读 和 Write Back 是 文件 系统 的 最 基本 
功能 ， 可 以 参考 上 文中 的 示例 来 理解 文件 系统 预 读 机 制 。 缓 存 预 读 对 
不 同 IO 类 型 的 优化 效果 也 是 不 同 的 ， 参 考 表 19-2。 


表 19-2 不 同 IO 类 型 的 缓存 效果 


OS 可 以 提供 一 些 可 供用 户 自行 设置 的 参数 来 控制 文件 系统 预 读 力 
度 ， 比 如 AIX 系 统 便 提 供 了 j2_maxpagereadahead 参 数 来 控制 JFS2 文 件 
系统 的 预 读 力 度 ， 这 个 参数 的 值 表 示 FS 做 预 读 操 作 时 向 底层 发 起 的 IO 
Size。 比 如 ， 将 其 设置 为 4 则 表示 每 个 预 读 IO Size 为 4 个 缓存 Page， 也 
就 是 4x4KB 二 16KB。 下 面 我 们 用 数据 来 说 明 FS 预 读 的 效果 。 首 先 看 一 
下 将 j2_maxpagereadahead 改 为 4 之 后 ，cp 一 个 文件 所 耗费 的 时 间 以 及 底 
层 向 存储 系统 发 起 的 IO 情况 。 其 中 Read Ops 表 示 每 秒 读 操作 数 ，Read 
KB 表示 每 秒 读 带宽 吞吐 量 。 


aix-cn22:/#i00 -0 j2_maxPageReadAhead=4 
Setting j2 maxPageReadAhead to 4 
aix-cn22:/#mount /dev/fslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Om17 .07s 

User Om0 .28s 


sys Om11 .00s 


Read Write Other QFuJ]1l Read “ Write Average Queue 


Lun 
Ops Ops Ops kB kB Latency Length 
3994 © 0 0 63888 0 0.00 0.08 
/VoOl/Lun/Lunaix 
3116 © 0 © 49872 0 0.00 0.07 
/VoOl1/Lun/Lunaix 


我 们 看 到 cp 耗费 了 17 秒 ， 底 层 预 读 发 起 的 IOPS 为 3000 一 4000 之 
间 。 再 来 看 一 看 将 j2_maxpagereadahead 改 为 64 之 后 的 结果 。 可 以 看 到 
cp 耗费 了 11 秒 ， 大 大 加 快 了 ， 而 且 底 层 预 读 耗 费 的 IOPS 仅 为 400 左 
右 ， 差 不 多 是 前 者 的 十 分 之 一 ， 同 时 带宽 也 达到 了 测试 用 的 1Gb/s 的 
iSCSI 以 太 网 链 路 的 极限 。 


aix-cn22:/#i00 -0 j2_maxPageReadAhead 三 64 
Setting j2 maxPageReadAhead to 64 
aix-cn22:/#mount /dev/fslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 


real Om11.67s 


User Om0 ,22S 


sys gm9 .34s 


Read Write Other QFull Read Write Average Queue 


Lun 
Ops Ops Ops kB kB Latency Length 
383 0 0 © 97856 © 1.04 0.03 
/VoOl1/Lun/Lunaix 
437 © © © 95936 0 0.90 0.03 
/VoOl1/Lun/Lunaix 


我 们 再 来 看 一 看 图 19-54， 这 个 实验 中 ， 在 Windows 系 统 中 使 用 测 
试 工 具 对 某 个 文件 使 用 以 200B 为 单位 的 连续 读 操作 ，NTFS 文 件 系 统 
此 时 的 预 读 力度 达到 了 最 大 ， 左 侧 显 示 了 系统 底层 发 向 存储 设备 的 
IO， 每 个 IO 的 长 度 几乎 都 是 128， 即 64KB。 


图 19-54 FS Aggressive Prefetch 


右 侧 显 示 了 测试 程序 所 在 的 操作 系统 底层 的 行为 ， 可 以 看 到 7 号 记 
录 是 一 个 由 于 读 惩罚 而 产生 的 惩罚 读 ( 带 星 号 记录 ， 几 是 由 于 Page 
Fault 导 致 的 Page mm 操 作 ， 都 带 星 号 ) ， 但 是 后 续 再 也 没有 出 现 惩 罚 
读 ， 因 为 需要 读 入 的 数据 早已 被 预 读 ， 不 再 产生 Page Fault。 


对 于 应 用 程序 的 写 IO 操 作 ， 文 件 系统 使 用 Write Back 模 式 提高 写 
IO 的 响应 速度 。 这 种 模式 下 ， 应 用 程序 的 写 IO 数据 会 在 被 复制 到 系统 
内 核 缓存 中 之 后 而 被 通告 为 完成 ， 而 此 时 FS 可 能 尚未 将 数据 写 入 磁 
盘 ， 所 以 ， 如 果 此 时 系统 发 生 Down 机 ， 那 么 这 块 数据 将 丢失 ， 而 应 用 


程序 可 能 并 不 知道 数据 已 经 丢失 从 而 造成 错乱 的 逻辑 ， 可 能 造成 严重 
的 后 果 。 这 种 担忧 在 关键 业务 应 用 中 是 绝对 要 杜绝 的 。NTFS 文 件 系 统 
提供 了 另 一 个 参数 : FILE_FLAG_WRITE_THROUGH， 只 要 程序 在 打 
开 某 个 文件 时 给 出 这 个 参数 ， 那 么 程序 的 写 IO 数据 依然 会 先 被 复制 到 
系统 内 核 缓存 ， 文 件 系统 随即 立即 将 这 份 数据 写 入 磁盘 ， 然 后 向 程序 
返回 完成 的 信号 。 这 个 参数 与 FILE_FLAG_NO_BUFFERING 不 同 ， 后 
者 表示 读 和 写 IO 均 不 使 用 缓存 ， 而 前 者 读 IO 依 然 使 用 缓存 。 所 以 ， 数 
据 库 类 程序 启动 时 在 打开 Log 文 件 时 都 会 给 出 这 个 参数 。Write Back 又 
可 以 称 为 Delay Write 或 者 Lazy Write， 即 数据 并 不 是 立即 就 被 写 入 底层 
存储 的 。 Write Back 模 式 除 了 会 丢失 数据 这 个 致命 缺点 之 外 ， 剩 下 的 
全 是 优点 ， 比 如 ， 大 大 降低 IO 响应 时 间 ， 还 有 大 大 增加 写 命中 率 。 


提示 : 何谓 “ 写 命中 ”? 读 命 中 率 大 家 都 理解 ， 即 待 读 取 的 数 
据 已 经 存在 于 缓存 中 而 无 须 从 磁盘 读 入 缓存 。 而 对 于 写 IO， 
每 个 写 IO 数 据 都 将 首先 被 放 入 缓存 ， 然 后 才 会 被 写 入 磁盘 ， 
岂 不 是 每 个 写 IO 都 会 命中 缓存 么 ?哪里 来 的 “命中 率 ” 呢 ? 试 
想 这 样 一 种 情况 ，T1 时 刻 有 针对 地 址 LBA1 的 B1 数 据 待 写 
入 ，B1 进 入 缓存 后 ， 由 于 Write Back 机 制 ，B1 尚 未 被 写 入 硬 
盘 之 前 ，T2 时 刻 应 用 又 发 起 了 针对 同 地 址 的 写 IO 操 作 B2， 那 
么 此 时 FS 是 否 有 必要 让 B2 来 占用 新 的 缓存 空间 呢 ? 随后 当 FS 
需要 将 数据 写 入 硬盘 时 ， 先 写 入 B1， 然 后 又 写 入 了 B2， 这 是 
没 问题 的 。 但 是 如 果 先 写 入 了 B2， 后 写 入 了 B1 呢 ? 这 时 候 就 
是 大 问题 了 。 实 际 上 ，FS 在 接收 到 B2 数 据 后 ， 会 将 B2 覆 盖 
B1， 因 为 从 时 间 历 史 角 度 看 ，B1 已 经 不 复 存 在 ， 在 随后 的 写 
盘 动作 时 ， 只 需要 一 次 而 不 是 两 次 写 入 动作 ， 节 约 了 后 端 IO 
资源 。 这 便 是 写 命 中 ， 即 待 写 入 的 数据 对 应 的 地 址 在 缓存 中 
恰好 存在 之 前 的 尚未 被 写 盘 的 IO 数据 。 


文件 系统 还 使 用 另外 一 种 IO 优化 机 制 ， 叫 做 IO Combination。 假 
设 T1 时 刻 有 某 个 IO 目标 地 址 段 为 LBA0 一 1023， 被 FS 收 到 后 暂 存 于 IO 
Queue 中 ; T2 时 刻 ，FS 尚 未 处 理 前 一 个 IO， 此 时 又 有 一 个 与 第 一 个 IO 
同类 型 〈 读 / 写 ) 的 IO 被 收 到 ， 目 标 地 址 段 为 LBA1024~2047。FS 将 这 
个 IO 追加 到 IO Queue 末 尾 。T3 时 刻 ，FS 准 备 处 理 Queue 中 的 IO ，FS 会 
扫描 Queue 中 一 定数 量 的 IO 地 址 ， 此 时 FS 发 现 这 两 个 IO 的 目标 地 址 是 
相 邻 的 ， 并 且 都 是 读 或 者 写 类 型 ， 则 FS 会 将 这 两 个 IO 合并 为 一 个 目标 
地 址 为 LBA0~2047 的 IO， 并 且 向 底层 存储 系统 发 起 这 个 IO， 待 数据 
返回 之 后 ，FS 再 将 这 个 大 IO 数据 按照 地 址 段 拆 分 成 两 个 IO 结果 并 且 分 
别 返 回 给 请 求 者 。 这 样 做 的 目的 是 节约 后 端 IO 资 源 ， 增 加 IOPS 和 带宽 
吞吐 量 。 每 发 起 一 个 IO，SCSI 协 议 层 以 及 底层 传输 协议 层 都 会 有 相应 
的 开销 ， 如 果 能 够 将 本 来 需要 多 次 发 送 的 IO 合并 为 一 次 IO， 那 么 对 应 
的 协议 开销 就 会 避免 。 


3. 文件 系统 下 部 


文件 系统 下 部 包括 文件 一 块 映射 、Flush 机 制 、 日 志 记 录 、FSCK 
以 及 与 底层 卷 接口 等 相关 操作 。 


位 于 FS 下 部 的 一 个 重要 的 机 制 是 文件 系统 的 Flush 机 制 。 在 WB 模 
式 下 ，FS 会 暂 存 写 IO 实 体 数据 与 文件 的 Metadata。FS 当 然 不 会 永久 地 
暂 存 下 去 而 不 写 入 磁盘。 文件 系统 会 在 适当 的 条 件 下 将 暂 存 的 写 IO 数 
据 写 入 磁盘 ， 这 个 过 程 叫 做 Flush。 有 多 种 条 件 可 以 触发 Flush: 距 上 次 
Flush 时 间 、 某 个 缓存 Page 在 缓存 中 待 的 最 长 时 间 、 应 用 强制 触发 的 
Flush、FS 自 身 为 了 实现 某 功 能 (比如 快照 ) 而 自行 Flush 以 及 其 他 各 
种 原因 。 


同样 ， 位 于 文件 系统 的 下 部 还 有 文件 映射 处 理 模块 。 在 NTFS 文 件 
系统 中 ， 一 种 被 称 为 Sparse File 的 处 理 机 制 可 以 大 大 节约 文件 实际 占用 
磁盘 的 空间 ， 而 且 还 可 以 加 快 读 写 速度 。 某 些 文件 本 身 非常 大 ， 但 是 
文件 中 包含 的 数据 大 部 分 都 是 二 进 制 09， 如 果 考 虑 压缩 这 些 0 从 而 降低 
实际 物理 占用 空间 ，NTFS 上 自身 的 压缩 机 制 是 可 以 做 到 的 ， 但 是 压缩 之 
本 四 一 个 坏处 就 是 在 读 写 被 压缩 数据 的 时 候 需 要 耗费 太 多 的 系统 资 
源 ， 影 响 速 度 。 取 而 代 之 ，FS 提 供 另 一 种 机 制 : Sparse File。 如 果 某 
个 应 用 程序 认为 自己 生成 的 文件 符合 Sparse 的 特性 ， 那 么 程序 可 以 将 
这 个 文件 设置 为 Sparse 模 式 ， 对 已 有 文件 和 新 建文 件 都 可 以 这 样 操 
作 。 已 有 的 文件 设置 为 Sparse 模 式 之 后 ， 程 序 需要 显 式 地 将 其 中 全 0 的 
部 分 使 用 相关 函数 通告 FS，FS 会 将 这 些 部 分 存放 在 一 个 特殊 的 列表 中 
备查 。 当 某 个 程序 向 Sparse 文 件 中 写 入 大 片 连续 0 的 时 候 ，FS 会 感知 到 
并 上 且 将 对 应 的 地 址 追加 到 列表 中 而 无 须 真 正 写 入 磁盘 ， 只 有 当 待 写 入 
的 数据 为 非 0 时 才 会 被 真正 写 入 磁盘 。 当 读 取 Sparse File 的 时 候 ，FS 会 
首先 查询 列表 ， 如 果 发 现 匹配 的 地 址 则 直接 返回 0 给 应 用 程序 而 无 须 从 
磁盘 中 读 。 


在 很 多 情况 下 ， 某 些 应 用 程序 需要 创建 一 个 文件 但 是 暂时 不 向 其 
中 写 入 数据 ， 一 般 这 种 情况 下 所 创建 的 文件 大 小 为 0B， 占 用 磁盘 空间 
仅 为 元 数据 所 占用 的 空间 ， 一 般 初 始 时 为 一 个 文件 系统 块 比如 4KB 大 
小 ， 此 时 文件 并 没有 实际 内 容 ， 所 以 文件 本 体 被 保存 于 元 数据 中 存 
放 。 随 着 程序 对 文件 的 写 入 ， 文 件 会 逐渐 增 大 。 但 是 ， 在 其 他 一 些 情 
nie ei eR 定 的 空间 以 防止 随后 一 旦 出 现 
磁盘 空间 不 够 时 的 尴 炊 ， 为 了 实现 这 一 点 ， 程 序 可 以 用 Writefile0 逐 渐 
加 文件 中 与 入 0 一 直到 期 望 的 大 小 为 止 ， 或 者 使 用 SetEndoOfFile0) 
(NTFS) 和 Setfilevaliddata0 之 类 的 函数 来 扩充 文件 的 长 度 。 


调用 不 同 的 方法 ， 会 得 到 不 同 的 结果 ， 拿 NTFS 举 例 ， 每 个 文件 有 
三 种 长 度 属性 ， 也 就 是 标 称 长 度 、 分 配 长 度 和 逻辑 占用 长 度 。 标 称 长 
度 没 什么 可 说 的 ， 分 配 长 度 就 是 文件 在 磁盘 上 实际 分 配 的 占 空 大 小 ， 
而 逻辑 占用 长 度 则 是 指 文 件 自 创建 之 后 被 实际 写 入 到 哪个 长 度 ( 注 
意 ,， 不 是 被 实际 写 入 了 的 总 长 度 ， 而 是 实际 写 入 地 址 的 高 水 位 线 ) 。 


如 果 调 用 Setendoffile0 ， 比 如 用 这 个 函数 把 文件 大 小 从 0 字 节 设置 
为 1GB 字 节 ， 那 么 0S 会 为 这 个 文件 在 磁盘 上 分 配 实际 的 1GB 空 间 ， 也 
就 是 在 文件 分 配 表 记录 中 分 配 实际 的 空间 指针 ， 并 且 同 时 会 更 新 文件 
所 在 的 卷 的 bitmap 文 件 ， 但 是 却 不 会 向 每 个 被 占用 的 扇 区 写 0， 所 以 这 
个 动作 会 瞬间 就 完成 ， 此 时 这 个 文件 的 标 称 长 度 和 实际 分 配 长 度 都 是 
1GB， 但 是 逻辑 占用 长 度 是 0， 因 为 还 没有 任何 数据 被 写 入 ， 此 时 如 果 
发 起 针对 这 个 文件 任意 地 址 的 读 操作 ，OS 会 在 内 存 里 生成 0x00 返 回 给 
应 用 程序 ， 不 需要 读 盘 。 但 是 随后 如 果 发 生 任何 针对 这 个 文件 任意 偏 
移 地 址 的 写 操作 ， 比 如 向 其 位 于 500MB 处 的 地 址 写 入 1MB 的 数据 ， 那 
么 OS 会 在 后 台 同 时 将 这 个 文件 的 0 字 节 开始 一 直到 第 500MB 之 前 的 所 
有 空间 写 0 〈 写 到 该 地 址 所 占用 的 磁盘 扇 区 里 ) ， 但 是 501MB 到 文件 
尾部 的 那 499MB 空间 不 会 写 0， 同 时 设 定 该 文件 的 逻辑 占用 长 度 为 
501MB， 如 果 发 生 任 意 针 对 501MB 之 前 偏 移 地 址 的 读 写 操 作 ，OS 均 会 
读 写 磁盘 ， 如 果 发 生 501MB 到 1GB 之 间 地 址 的 读 操作 ，OS 不 会 读 盘 ， 
会 在 内 存 中 生成 0x00， 写 操作 ， 则 重复 刚才 的 动作 ， 在 高 水 位 线 之 前 
的 未 被 填 0 的 所 有 地 址 上 填 0。 所 以 ， 如 果 某 个 应 用 预先 创建 了 一 个 大 
文件 占 位 之 后 ， 后 续 如 果 发 生 针 对 这 个 文件 的 随机 写 操 作 ， 那 么 OS 势 
必 会 在 后 台 发 生 很 多 填 0 操 作 ， 会 非常 影响 性 能 。 


提示 : 诸如 迅雷 等 下 载 工具 ， 一 般 都 会 预先 占用 文件 空间 ， 
但 是 由 于 迅雷 针对 文件 的 下 载 并 不 是 顺序 的 ， 会 有 多 个 线程 


从 文件 的 多 个 部 分 开始 并 行 写 入 ， 此 时 如 果 使 用 Setendoffile() 
来 占 位 ， 性 能 就 会 很 差 。 但 是 可 以 使 用 另 一 个 函数 也 就 是 
Setfilevaliddata0) ， 这 个 函数 与 Setendoffile0) 的 区 别 就 是 OS 任 
何 情况 下 都 不 会 在 后 台 向 文件 中 填 0， 这 样 做 的 好 处 是 明显 
的 ， 但 是 也 会 带 来 安全 性 问题 ， 为 文件 分 配 了 对 应 大 小 的 局 
区 但 是 不 向 这 些 局 区 中 写 入 0， 那 么 这 些 扇 区 之 前 的 内 容 就 会 
变 为 这 个 文件 当前 的 内 容 。 所 以 ， 除 非 程序 明确 知道 自己 在 
做 什么 ， 否 则 稀里糊涂 地 使 用 这 个 函数 可 能 造成 驴 唇 不 对 马 
嘴 的 后 果 。 通 常 使 用 这 种 方法 的 典型 例子 就 是 下 载 工 具 。 
大 家 可 以 做 一 个 试验 ， 使 用 迅雷 下 载 一 个 大 文件 ， 将 其 保存 
在 一 个 曾经 被 塞 满 过 的 分 区 上 。 迅 雷 在 获取 到 这 个 文件 的 大 
小 之 后 会 立即 创建 相应 大 小 的 文件 ， 而 创建 文件 的 过 程 是 瞬 
时 完成 的 ， 并 没有 长 时 间 磁 盘 IO 操 作 。 此 时 我 们 立即 退出 迅 
雷 。 查 看 这 个 文件 的 属性 ， 发 现 其 大 小 和 磁盘 占用 空间 相 
同 。 然 后 用 十 六 进 制 编辑 器 打开 这 个 文件 ， 可 以 发 现 其 中 并 
非 全 0， 而 是 被 塞 满 了 凌乱 的 数据 。 这 充分 证 明 迅 雷 使 用 的 就 
是 SetFilevalidData0 国 数 来 扩展 文件 大 小 的 。 随 着 文件 不 断 地 
被 下 载 ， 新 的 数据 将 会 履 盖 这 些 扇 区 原 有 的 内 容 。 
笔者 曾经 遇 到 过 更 有 趣 的 现象 。 某 个 分 区 中 曾经 存 有 多 部 电 
影 ， 随 后 删除 掉 一 些 。 某 次 笔者 使 用 迅雷 下 载 一 部 新 电影 存 
到 这 个 分 多， 但 是 下 到 70% 左 右 没有 速度 了 ， 于 是 强行 播 
放下 载 的 文件 ， 奇 迹 发 生 了 : 在 电影 播放 到 某 个 时 间 点 处 ， 
突然 出 现 了 另 一 部 电影 的 画面 ， 这 部 电影 恰好 就 是 笔者 之 前 
删除 的 那些 的 其 中 一 部 。 这 个 巧遇 绝对 属实 ， 但 是 由 于 懒 
惰 ， 没 有 做 重 现 试 验 。 


1) 文件 分 布 映射 


由 于 底层 存储 卷 也 是 由 物理 磁盘 经 过 层 层 虚 拟 化 操作 而 生成 的 ， 
最 终 影 响 IO 性 能 的 根本 因素 和 最 大 因素 还 是 物理 磁盘 的 机 械 寻 道 。 
RAID 的 做 法 可 以 利用 起 所 有 RAID 组 成 员 磁盘 的 寻 道 时 隙 来 提高 总 体 
性 能 (附录 1 的 问题 8) ， 但 是 这 种 做 法 具有 很 高 的 盲 操作 性 (参考 本 
书 4.2.6 一 节 ) 。 想 要 让 一 个 RAID Group 发 挥 出 最 大 的 并 发 IO 性 能 ， 就 
首先 需要 保证 RAID 控 制 器 接收 到 的 针对 这 个 RAID 组 的 一 个 IO 或 者 一 
批 IO 可 以 一 次 性 发 送 给 组 内 的 所 有 磁盘 进行 操作 。 将 一 个 IO 发 散 给 多 
个 磁盘 操作 贡献 为 系统 带宽 吞吐 量 增 加 ， 而 将 多 个 IO 同时 发 送 给 组 内 
磁盘 操作 〈 每 个 磁盘 操作 一 个 IO) 则 贡献 为 系统 IOPS 增 加 。 


提示 : 为 了 实现 增加 系统 带宽 吞吐 量 的 目的 ，RAID 3 将 
Stripe Size 调 到 最 低 ， 比 如 一 个 FS 的 IO 单位 大 小 ， 这 样 就 可 以 
盲 性 地 保证 每 个 FS 层面 的 10 都 一 定 会 被 分 散在 组 内 所 有 磁盘 
上 。 如 果 FS 发 起 的 是 连续 IO 类 型 ， 那 么 这 种 情况 整个 系统 的 
带宽 吞吐 量 将 会 非常 高 ， 这 也 是 RAID 3 唯一 表现 优秀 的 情 
况 。 而 如 果 FS 层 面 发 起 的 是 随机 小 块 的 IO ， 这 时 系统 性 能 将 
会 非常 差 。 因 为 RAID 3 注定 一 个 组 一 次 只 能 处 理 一 个 IO 操作 
(因为 每 个 IO 都 要 占用 所 有 物理 磁盘 ) ， 大 量 随机 的 IO 不 但 
得 不 到 并 发 ， 而 且 加 上 磁盘 寻 道 的 影响 ， 造 成 所 有 物理 磁盘 
在 处 理 下 一 个 IO 时 总 要 全 体 寻 道 ， 加 之 现代 缩水 版 RAID 3 并 
不 保证 组 内 磁盘 转速 同步 ， 造 成 磁盘 旋转 延迟 都 不 同 ， 先 达 
到 目标 扇 区 的 磁盘 会 处 于 等 待 状 态 ， 这 又 浪费 了 系统 性 能 。 

RAID 3 是 一 个 古老 的 RAID 类 型 。 那 时 的 应 用 程序 和 业务 要 
求 并 没有 现代 这 么 苛刻 。 而 现代 的 业务 系统 对 存储 的 要 求 越 
来 越 苛刻 ， 既 要 求 高 IOPS 即 IO 并 发 度 ， 又 要 求 差不多 的 带宽 
吞吐 量 。 为 了 增加 系统 IOPS， 顺 便 解 决 RAID 3 不 能 并 发 IO 的 
问题 ，RAID 5 出 现 了 。RAID 5 相对 RAID 3 的 最 大 改进 其 实 


是 增加 了 条 带宽 度 而 不 是 引入 分 布 式 校 验 ， 这 里 很 多 人 的 理 
解 都 有 误区 ， 总 以 为 分 布 式 校 验 才 是 RAID 5 性 能 提高 的 最 大 
因素 。 为 了 说 明 这 一 点 ， 我 们 假设 只 在 RAID 3 基础 上 将 单 
Parity 盘 变 为 分 布 式 Parity， 而 Stripe 宽 度 不 变 ， 仍 为 一 个 FS 层 
面 的 IO 大 小 (一 个 FS Block， 一 般 为 4KB) 。 试 问 ， 这 种 情 
况 下 ， 管 它 Parity 是 不 是 分 布 式 ， 对 系统 性 能 有 提升 么 ?每 次 
整个 RAID 组 依然 只 可 以 处 理 一 个 IO ， 同 样 都 是 整 条 读 或 者 
写 ，Parity 放 到 条 带 的 哪个 位 置 有 关系 么 ”根本 没有 ， 人 性 能 没 
有 一 点 提升 ， 反 而 还 会 由 于 分 布 式 Parity 运 算 复 杂 度 升 高 而 导 
致 的 计算 延迟 增加 。 所 以 ，RAID 5 相对 RAID 3 的 根本 进化 在 
于 提高 了 Stripe Size， 可 以 设置 为 很 大 ， 比 如 1MB 或 者 更 大 。 
在 这 个 基础 上 ， 对 于 小 块 随机 IO 的 并 发 度 就 会 大 大 增加 ， 
为 条 带 增 加 使 得 每 个 磁盘 对 应 的 Segment (条 带 深度 ) 也 增 
加 ， 使 得 一 个 IO 仅 落 在 一 个 磁盘 上 的 几率 也 增加 ， 多 个 IO 同 
时 分 别 落 在 一 块 磁盘 的 几率 也 增加 ， 也 就 是 IO 可 以 并 发 执行 
了 。 这 一 步 改进 对 应 RAID 4。 然 而 ，RAID 4 的 读 IO 可 以 并 发 
了 ， 但 是 写 IO 却 依然 不 可 以 并 发 ， 因 为 每 次 写 IO 过 程 中 都 需 
要 修改 Parity 盘 上 的 校 验 值 ， 所 以 Parity 盘 就 会 被 这 个 IO 占 
用 ， 此 时 其 他 的 写 IO 只 能 等 待 ， 因 为 所 有 写 IO 都 要 更 改 
Parity。 为 了 解决 这 个 问题 ，RAID 5 出 现 了 ， 分 布 式 校 验 就 
这 样 诞生 了 ， 其 诞生 在 逻辑 顺序 上 是 处 于 增加 条 带宽 度 之 后 
的 。 改 为 分 布 式 校 验 后 ， 写 IO 也 可 以 并 发 了 ， 只 不 过 并 发 几 
率 远 低 于 读 IO。 

RAID 5 的 并 发 几率 属于 守 株 待 免 型 而 不 是 主动 型 ， 合 理 地 布 
好 网 ， 猫 物 是 否 成 群 结 队 地 进来 就 靠 运气 了 。 所 以 这 种 设计 
是 讶 性 的 。 但 是 RAID 3 的 做 法 并 不 是 盲 性 的 而 是 釜底抽薪 
型 ， 不 管 任何 情况 下 ， 每 个 IO 必定 由 组 内 所 有 盘 同时 操作 ， 


但 是 这 样 做 也 注定 了 RAID 3 的 局 限 性 。RAID 5 的 写 IO 并 发 几 
率 远 低 于 读 ， 三 块 盘 的 RAID 5 根本 不 能 并 发 写 IO ， 小 块 写 IO 
性 能 非常 低下 。 就 算 增加 磁盘 ， 盲 并 发 几率 提高 也 很 缓慢 ， 
再 加 上 碰 运 气 ， 实 际 获得 的 并 发 几率 低 之 又 低 。 此 时 ， 需 要 
一 种 机 制 来 增加 写 IO 并 发 几率 。FS 下 层 已 经 是 黔 驴 技 穷 了 ， 
唯一 能 折腾 折腾 的 地 方 只 有 在 FS 层面 了 。 如 果 猎 物 能 够 自 投 
罗网 ， 那 就 是 再 好 不 过 的 事情 了 。 


作者 一 直 认 为 ， 文 件 系统 是 系统 IO 路 径 中 的 一 个 很 重要 的 角色 ， 
而 文件 在 底层 存储 卷 或 者 磁盘 上 的 分 布 算法 是 重 中 之 重 ， 成 败 在 此 一 
举 。 传 统 的 文件 系统 只 是 将 底层 的 卷 当 做 一 个 连续 局 区 空间 ， 并 不 感 
知 这 个 连续 空间 的 物理 承载 设备 的 类 型 或 者 数量 等 ， 所 以 也 就 不 知道 
目 己 的 不 同类 型 的 IO 行为 会 给 性 能 市 来 多 大 的 影响 。 


将 IO 比 作 昆 虫 ， 底 层 的 RAID 比 作 不 同类 型 的 蜂 蛛 网 。 我 们 都 见 过 
那 种 藏匿 于 灌木 从 中 的 密度 很 大 几乎 是 一 块 白布 样 的 蜂 蛛 网， 也 见 过 
稀 稀 玻 玻 孔 状 的 八卦 样 师 蛛 网 ， 走 路 时 也 偶尔 会 碰 到 一 根 虹 蛛 丝 绕 在 
你 脸 上 的 情况 。 当 然 ， 昆 虫 永远 也 不 会 自己 投向 蜂 蛛 网 。 而 文件 系统 
要 想 获 得 最 优 的 10 性能， 就 必须 在 感知 底层 RAID 类 型 的 情况 下 按照 对 
应 的 策略 自 投 罗网 。 比 如 ， 如 果 蜂 蛛网 是 白布 状 ， 那 么 任何 一 个 小 昆 
虫 都 逃 不 过 ; 如 果 是 稀 臣 孔 状 ， 那 么 过 小 的 昆虫 可 能 漏网 ， 只 有 一 根 
蜂 蛛 丝 的 情况 往往 用 于 探测 某 个 信号 ， 比 如 一 个 庞大 的 东西 走 过 。 同 
样 ， 现 行 的 做 法 就 是 底层 存储 设备 布 网 等 待 上 层 的 10 到来。 如果 我 们 
在 FS 层 对 底层 的 RAID 类 型 和 磁盘 类 型 等 各 种 因素 做 出 分 析 和 判断 ， 
然后 制定 对 应 的 策略 ， 让 文件 能 够 按照 预期 的 效果 有 针对 性 地 在 RAID 
组 内 进行 分 布 ， 这 样 就 会 和 谐 。 比 如 ， 在 格式 化 文件 系统 时 ， 或 者 在 
程序 调用 时 ， 给 出 显 式 参数 : 尽量 保持 每 个 文件 只 存放 在 一 个 物理 硬 


盘 中 ， 那 么 当 创 建 一 个 文件 的 时 候 ， 文 件 系统 便 会 根据 底层 RAID 的 
Stripe 边 界 来 计算 将 哪些 扇 区 地 址 段 分 配给 这 个 文件 ， 从 而 让 其 物理 地 
只 分 布 到 一 个 磁盘 中 。 这 种 文件 分 布 方式 在 需要 并 行 访问 大 量 文件 时 
是 非常 有 意义 的 ， 因 为 底层 RAID 的 盲 并 发 度 很 低 ， 如 果 在 FS 层面 手 
动 地 将 每 个 文件 只 分 布 在 一 个 磁盘 上 ， 那 么 N 个 磁盘 组 成 的 RAID 组 理 
论 上 就 可 以 并 发 N 个 针对 文件 的 读 操 作 ， 写 操作 并 发 度 仍 相对 很 低 但 
是 至 少 可 以 保证 为 理论 最 大 值 。 


总 之 ， 文 件 系 统 必须 与 底层 完美 配合 才能 够 获取 最 大 的 性 能 。 这 
方面 WAFL 的 做 法 为 文件 系统 与 底层 配合 的 典范 ， 不 过 WAFL 也 存在 着 
自身 不 可 避免 的 问题 。 关 于 WAFL 机 制 的 简要 论述 见 本 书 第 4 章 。 将 来 
的 文件 系统 设计 可 能 会 考虑 更 多 的 底层 适 配 因素 ， 让 我 们 拭目以待 。 


2) 卷 IO 


卷 IO 策略 处 于 文件 系统 的 最 底层 ， 负 责 将 数据 从 卷 中 读 出 或 者 向 
卷 中 写 入 。 这 个 层次 需要 用 最 少 的 IO 做 最 多 的 事情 。 数 据 库 类 程序 的 
Log 机 制 是 耗费 IO 最 多 的 情况 之 一 ， 每 次 Checkpoint 都 会 将 日 志 以 Write 
Through 模 式 写 盘 ， 由 于 Bypass 了 FS 的 缓存 ，FS 来 不 及 做 过 多 优化 ， 
所 以 造成 对 旗 层 的 IO 过 频 ， 影 响 性 能 。 另 外 ， 保 证 卷 IO Queue 随 时 充 
满 、 异 步 操 作 等 ， 都 是 榨取 底层 存储 系统 性 能 的 有 效 方 式 。 


19.1.3” 卷 管理 层 


卷 管理 层 在 某 种 程度 上 来 讲 是 为 了 弥补 底层 存储 系统 的 一 些 不 足 
之 处 的 ， 比 如 LUN 空 间 的 动态 管理 等 。 卷 管理 层 最 大 的 任务 是 做 Block 
级 的 映射 ， 对 于 IO 的 处 理 ， 卷 层 只 是 做 了 一 个 将 映射 翻译 之 后 的 IO 同 


下 转发 的 动作 以 及 反 向 过 程 。 另 外 ， 应 用 程序 可 以 直接 对 某 个 卷 进行 
IO 操作 而 不 经 过 文件 系统 。 


注意 : 这 里 的 不 经 过 文件 系统 并 不 是 说 Bypass 系 统 内 核 缓存 
的 Direct IO ， 而 是 完全 不 需要 FS 处 理 任何 块 映射 关系 。 这 时 
就 需要 由 应 用 程序 自行 管理 底层 存储 空间 ， 而 且 此 时 不 能 对 
这 个 卷 进行 FS 格式 化 或 者 其 他 未 经 应 用 程序 允许 的 更 改 操 
作 ， 一 旦 发 生 将 导致 数据 被 破坏 。 


卷 管理 层 将 底层 磁盘 空间 虚拟 化 为 灵活 管理 的 一 块 块 的 卷 ， 然 后 
又 将 卷 同 时 抽象 为 两 种 操作 系统 设备 : 块 设备 和 字符 设备 。 比 如 在 
AIX 系 统 下 ，/dewlv、/dewfslv 、/dewhdisk 等 字样 表示 块 设备 ， 
而 /dev/rlv、/dev/rfslv、/dev/rhdisk 等 带 有 r 字 样 的 设备 一 般 就 是 字符 设 
备 。 同 一 个 物理 设备 会 同时 被 抽象 为 字符 和 块 两 种 逻辑 设备 。 用 户 程 
序 可 以 直接 对 块 设备 和 字符 设备 进行 IO 操作 。 这 两 个 设备 也 是 用 于 上 
层 程序 直接 对 卷 进行 访问 的 唯一 接口 ， 有 各 自 的 驱动 一 一块 设备 驱动 
和 字符 设备 驱动 ， 在 IO 路 径 的 层 层 调用 过 程 中 ，IO Manager 访 问卷 的 
时 候 其 实 就 是 访问 对 应 的 设备 驱动 〈 这 一 点 在 系统 IO 模块 架构 图 中 并 
没有 体现 ) ， 向 它们 发 起 SystemCall 的 。 


1. 块 设备 


在 UNIX 类 操作 系统 下 ， 块 设备 表现 为 一 个 文件 ， 而 且 应 用 程序 可 
以 向 块 设备 发 起 任何 长 度 的 IO ， 就 像 对 文件 进行 IO0 时 一 样 ， 比 如 
512B、1500B、5000B 等 ，IO 长 度 可 以 为 任何 字 节 ， 而 不 需 为 磁盘 局 
区 的 整数 倍 。 然 而 ， 块 设备 也 是 由 底层 物理 设备 抽象 而 来 的 ， 而 底层 
物理 设备 所 能 接受 的 IO 长 度 必须 为 扇 区 的 整数 倍 。 所 以 块 设备 具 有 一 
个 比较 小 的 缓存 来 专门 处 理 这 个 映射 转换 关系 。 


块 设 备 一 般 使 用 Meomory Mappin 的 方式 被 映射 到 内 存 地 址 空间 ， 
这 段 空间 以 Page 〈 一 般 为 4KB) 为 单位 ， 所 以 访问 块 设备 就 需要 牵扯 
到 OS 缺 页 处 理 (Page Fault) 方式 来 读 写 数 据 。 比 如 应 用 程序 向 某 个 块 
设备 卷发 起 一 个 长 度 为 1500B 的 IO 读 ， 卷 管理 层 接收 到 这 个 IO 之 后 将 
计算 这 个 1500B 的 IO 所 占用 的 扇 区 总 数 以 及 所 落 入 的 Page 地 址 ， 并 且 
进入 缺 页 处 理 流 程 从 底层 物理 设备 将 这 个 Page 对 应 的 扇 区 读 入 ， 这 里 
的 IO 请 求 为 1500B， 所 以 OS 会 从 底层 物理 设备 读 取 对 应 的 1 个 Page 大 小 
的 数据 进入 缓存 ， 然 后 从 缓存 中 再 将 对 应 的 1500B 返 回 给 应 用 程序 。 


应 用 程序 对 块 设备 发 起 读 IO， 块 设备 就 得 同时 向 底层 物理 设备 发 
起 对 应 的 转换 后 的 IO ， 不 管 应 用 程序 向 块 设备 发 起 多 少 长 度 的 IO ， 块 
设备 向 底层 物理 设备 所 发 起 的 IO 长 度 总 是 恒定 的 (一般 为 4KB， 即 缓 
存 Page 大 小 ) 。 所 以 块 设备 向 底层 物理 设备 发 起 的 读 IO 属 性 永远 为 小 
块 IO ， 而 且 对 同一 个 线程 发 起 的 IO 不 会 并 发 只 能 顺序 ， 对 多 个 线程 共 
同 发 起 的 IO 才 会 并 行 ， 也 就 是 说 每 个 线程 在 底层 的 IO 都 为 顺序 执行 
(限于 读 IO) 。 这 一 点 是 块 设备 非常 致命 的 缺点 ， 比 如 一 个 应 用 程序 
256KB 的 读 IO 操作 ， 会 被 块 设 备 切 开 成 为 64 个 4KB 的 读 IO 操作 ， 这 无 
疑 是 非常 浪费 的 ， 会 更 快 地 耗 尽 底层 存储 的 标 称 IOPS。 但 是 对 于 写 IO 
来 讲 ， 块 设备 底层 会 有 一 定 的 merge_request 操 作 ， 即 可 以 对 写 IO 进 行 
合并 、 覆 盖 、 重 排 等 操作 ， 这 方面 内 容 详 见 下 面 的 章节 。 


我 们 来 举例 说 明 一 下 。 下 列 数 据 为 在 AIX 系 统 上 使 用 IO 测试 工具 
对 一 个 块 设备 〈/dewfslv01) 进行 IO Size 为 0.5KB、1KB、2KB、 
4KB、8KB、16KB、513B 的 单线 程 顺 序 连 续 IO 读 操 作 时 ， 在 存储 系统 
端 统计 的 结果 。 其 中 Read Ops 表 示 每 秒 读 操作 数 ，Read KB 表示 每 秒 
读 带 宽 否 吐 量 ，Queue Length 表 示 当 前 LUN (/vo/LUN/LUNaix) 的 IO 
Queue 中 的 IO 数 。 我 们 可 以 发 现 ， 不 管 哪 一 组 的 测试 数据 ， 用 带宽 除 


以 IOPS 得 出 的 IO Size 恒 定 为 4KB， 也 就 表示 主机 向 存储 系统 〈 块 设备 
向 底层 物理 设备 ) 发 起 的 读 IO Size 恒 定 为 4KB。 


其 实 UNIX 类 系统 下 的 块 设备 与 文件 系统 管理 下 的 一 个 文件 无 异 ， 
唯一 区 别 就 是 直接 对 块 设备 进行 IO 操作 的 话 ， 无 须 执 行文 件 一 块 映射 
查询 而 已 。 


读 操 作对 于 块 设备 来 讲 还 不 至 于 产生 太 过 恶劣 的 性 能 影响 ， 而 写 
IO 则 会 更 加 严重 地 摧残 存储 设备 的 性 能 。 由 于 块 设 备 向 底层 发 起 的 所 
有 IO 均 以 缓存 Page 大 小 为 单位 ， 现 代 操 作 系统 的 Page 一 般 为 4KB 大 
小 ， 如 果 某 应 用 程序 需要 写 入 0.5KB 数 据 ， 或 者 4.5KB 数 据 ， 那 么 很 可 
怕 ， 块 设备 不 能 直接 把 对 应 长 度 的 数据 直接 写 入 底层 设备 ， 而 必须 先 
读 入 这 个 IO 占用 的 4KB 单 位 Block， 然 后 修改 之 ， 然 后 再 将 数据 写 回 到 
底层 设备 。 其 浪费 可 谓 是 惊人 而 且 无 法 容忍 的 ! 我 们 来 看 一 个 例子 。 
下 列 数 据 显 示 了 AIX 系 统 上 使 用 IO 测试 工具 对 一 个 块 设 备 进 行 4096B、 
2000B、2048B、5000B 写 IO 时 系统 底层 发 向 物理 磁盘 的 IO 统计 情况 如 
图 19-55 所 示 ， 程 序 发 起 写 IO 时 ， 不 对 齐 4KB 的 IO Size 会 导致 0S 首 先 
读 入 对 应 的 Page 数 据 ， 人 修改， 然后 再 写 入 对 应 的 Page 数 据 。 所 以 可 以 
看 到 写 动 作 伴随 了 一 定 程度 的 读 动作 ， 也 就 是 写 惩 罚 。 


图 19-55” 块 设备 写 IO 测试 


图 19-56 ”Page 边 界 对 齐 


如 图 19-56 所 示 ， 当 程序 向 块 设 
备 发 起 从 0 地 址 开始 的 2000B 单 位 的 
连续 写 IO 时 ， 在 接收 到 第 一 个 IO 请 求 之 后 ，OS 内 核 必须 首先 从 磁盘 读 


出 Pagel 到 缓存 ， 然 后 将 前 2000B 内 容 在 缓存 中 禾 盖 为 程序 所 IO 的 内 
容 ， 然 后 再 将 修改 后 的 Page1 写 入 磁盘 ，; 


=。 OS 接收 到 第 二 个 IO 之 后 ， 由 于 第 二 个 IO 是 请 求 从 1999~3999 这 
段 地 址 ， 依 然 落 入 Pagel1， 所 以 OS 还 需要 再 次 读 入 Pagel1， 但 是 
此 时 需要 考虑 以 下 两 种 情况 。 

a Pagel 当 前 最 新 的 数据 应 为 第 一 次 IO 所 修改 的 数据 ， 如 果 第 一 次 
IO 的 Pagel 尚 未 被 写 入 磁盘 而 依然 在 缓存 中 ， 那 么 此 时 OS 必 须 
在 缓存 中 将 最 新 的 Page1 数 据 保 留 为 第 二 次 IO 使 用 ， 同 时 又 不 影 
响 第 一 次 IO 的 Pagel 的 写 盘 动作 。 这 样 ， 这 个 读 请 求 就 算 Cache 
Hit 了 ， 就 不 需要 从 物理 磁盘 读数 据 。 


如 果 在 第 二 次 IO 发 起 之 前 第 一 次 IO 的 Pagel 已 经 被 写 入 磁盘 ， 那 
么 第 二 次 IO 必须 从 磁盘 读 入 Pagel 然 后 执行 与 第 一 次 IO 相同 的 过 程 。 
第 三 次 IO 情况 就 更 复杂 了 ， 由 于 第 三 次 IO 的 地 址 为 4000 人 5999 这 段 地 
址 ， 跨 越 了 两 个 Page，4000~4095 地 址 落 入 了 Pagel1，4096~5999 地 址 
段落 入 了 Page2， 那 么 此 时 OS 内 核 必 须 同时 读 入 Pagel 和 Page2， 同 时 
修改 然后 同时 写 入 磁盘 。 同 理 ， 如 果 IO Size 选 择 为 5000B 等 ， 还 有 可 
能 发 生 同 时 跨越 3 个 Page 的 ， 那 写 惩罚 会 更 大 。 


细心 的 读者 可 能 会 发 现 ， 即 使 上 层 IO 不 是 4KB 对 齐 的 情况 下 ， 底 
层 的 IO 应 该 也 都 是 4KB 对 齐 的 ， 因 为 不 管 读 还 是 写 都 是 以 Page 为 单 
位 ， 但 是 为 何在 图 19-55 的 结果 中 用 KBPS 一 栏 的 值 除 以 4 却 除 不 尽 呢 ? 
这 个 问题 很 好 ， 底 层 的 IO 并 不 是 4KB 对 齐 的 原因 ， 是 因为 在 块 设备 驱 
动 处 ，OS 做 了 Merge_request， 对 此 下 面 的 章节 会 有 详细 描述 。 


系统 IO 路 径 中 的 读 惩罚 和 写 惩罚 : 在 系统 IO 路 径 中 ， 有 多 处 
可 以 发 生 读 惩 罚 和 写 惩罚 ， 其 中 包括 文件 系统 层 、 卷 管理 


层 、 块 设备 层 和 底层 RAID 管 理 层 等 位 置 。 所 谓 * 惩 罚 ” 就 是 说 
要 完成 某 件 事 ， 必 须 付出 一 些 额外 的 牺牲 和 浪费 。 到 底 什么 
情况 下 会 出 现 惩罚 呢 ? 

读 惩罚 : 当 某 个 读 IO 请 求 的 IO Size 不 可 被 OS Page Size 或 者 
Disk SectorSize 任 何 一 个 除 尽 为 整数 时 ， 这 个 读 请 求 就 会 产生 
读 惩罚 ， 但 是 可 被 除 尽 并 不 代表 一 定 就 不 产生 惩罚 。 比 如 某 
个 IO 的 IO Size 为 从 Offset 0 开始 读 后 续 的 512B， 则 怎么 都 好 
说 ， 退 一 万 步 讲 ， 如 果 这 个 IO 是 针对 某 个 文件 的 ， 而 所 请 求 
的 这 段 数据 恰好 就 在 磁盘 一 整个 遍 区 上 ， 那 么 O0S 只 要 将 对 应 
磁盘 上 的 这 个 扇 区 的 内 容 读 出 来 即 可 ， 上 下 一 一 对 应 ， 没 有 
浪费 ; 而 如 果 这 个 IO 的 起 始 Offset 不 为 0， 比 如 为 5， 那 么 就 
很 那 门 了 ，FS 在 分 配 文件 占用 空间 的 时 候 是 以 512B 对 齐 的 ， 
从 0 开始 往 后 的 512B (包括 0) 就 一 定 会 对 应 到 底层 磁盘 的 1 
个 扇 区 上 ， 但 是 如 果 从 5 开始 往 后 的 512B ， 就 一 定 不 会 只 落 
在 一 个 扇 区 上 ， 肯 定 是 跨 两 个 扇 区 ， 那 么 此 时 OS 就 不 得 不 读 
出 这 两 个 扇 区 来 ， 从 其 中 各 自 取出 对 应 这 个 IO 的 部 分 ， 然 后 
合 起 来 回 传 给 程序 。 并 且 ，OS 内 核 往 往 都 是 以 Page 为 单位 ， 
也 就 是 读 出 IO 地 址 段 所 落 入 的 整个 或 者 多 个 Page。 

具体 惩罚 的 细节 与 不 同 操作 系统 有 关 ， 按 照 系 统 内 核对 IO 请 
求 的 计算 处 理 过 程 不 同 ， 一 定 条 件 下 是 否 产生 、 产 生 多 少 程 
度 的 读 惩 罚 随 OS 不 同 而 不 同 ， 随 着 调用 的 方式 不 同 而 不 同 。 
比如 同样 为 1KB 的 读 IO， 如 果 针 对 FS Block 二 1KB 的 文件 系 
统 进行 越过 缓存 的 DIO， 那 么 就 不 会 产生 读 惩罚 ; 同样 的 
1KB 的 IO Size， 如 果 针 对 某 个 块 设备 进行 IO， 那 么 就 会 产生 
额外 3KB 的 浪费 的 读 (内 核 会 读 出 底层 的 1 个 Page 也 就 是 4KB 
大 小 的 数据 来 对 应 这 个 IO) 。 


写 御 罚 : 当 某 个 写 IO 请 求 的 IO Size 不 可 被 FS Block、OS 
Page Size 或 者 Disk Sector Size 任 何 一 个 除 尽 为 整数 时 ， 必 定 
会 产生 写 惩罚 。 写 惩罚 程度 同样 随 OS 的 不 同 而 不 同 ， 也 随 调 
用 方式 的 不 同 而 不 同 。 写 惩罚 的 表现 是 既 有 额外 读 操作 ， 又 
有 额外 写 操作 ， 比 读 惩罚 浪费 更 多 的 资源 。 比 如 某 个 程序 发 
起 一 个 Offset 0 开始 的 513B 的 读 IO ， 愉 好比 一 整个 扇 区 多 了 
1B， 但 是 底层 又 不 可 能 只 写 1B 给 磁盘 ， 磁 盘 接受 的 必须 是 扇 
区 整数 倍 的 IO Size， 那 么 此 时 唯一 办 法 就 是 写 两 个 扇 区 ， 第 
一 个 是 0 一 511 这 512B， 然 后 再 写 入 512~1023 这 后 512B， 剩 余 
的 那 1B 就 是 这 后 512B 的 第 1 个 字 节 ， 那 么 对 于 后 512B 中 减 掉 
这 1 字 节 剩余 的 511B 的 数据 ， 我 们 只 能 先 从 磁盘 将 后 512 字 节 
对 应 的 扇 区 读 出 来 ， 将 第 1 个 字 节 内 容 替 换 成 程序 IO 所 给 的 
内 容 ， 然 后 再 将 这 个 扇 区 写 回 去 。 这 就 是 写 惩 罚 ， 既 多 了 
511B 的 读 ， 又 多 了 511B 的 写 。 

读 惩 罚 和 写 惩罚 的 例子 在 本 章 下 面 的 章节 随处 可 见 。 


2。 字符 设备 


传统 的 字符 设备 本 来 是 专 指 一 类 接受 字符 流 的 设备 比如 物理 终 
端 、 键 盘 等 ， 这 种 设备 的 特点 是 可 以 直接 对 设备 进行 最 底层 的 操作 而 
不 使 用 缓存 (但 是 必须 有 Queue) ， 而 且 每 次 IO 必须 以 一 个 字符 为 单 
位 〈 卷 所 抽象 出 来 的 字符 设备 以 一 段 连续 局 区 为 一 个 单位 ) 。 所 以 具 
有 这 种 特点 的 实际 设备 或 者 抽象 设备 都 被 称 为 字符 设备 。 而 将 卷 抽象 
为 字符 设备 并 不 是 说 将 IO 从 局 区 改 为 字符 ， 而 只 是 抽象 出 字符 设备 所 
具有 的 特点 。 


在 任何 操作 系统 下 ， 对 字符 设备 进行 IO 操作 必须 遵循 底层 的 最 小 
单位 对 齐 规则 ， 比 如 对 于 卷 字 符 设 备 来 讲 ， 每 个 IO 长 度 只 能 是 扇 区 的 
整数 倍 ， 如 果 IO 长 度 没 有 以 扇 区 为 单位 对 齐 (比如 513、1500); ， 那 
么 将 会 收 到 错误 通知 而 失败 。 哩 然 UNIX 类 操作 系统 下 的 字符 设备 也 表 
现 为 一 个 文件 ， 但 是 这 个 文件 却 不 像 块 设备 一 样 可 以 以 任意 字 节 进行 
IO， 因 为 0S 没 有 为 字符 设备 设置 任何 缓存 (但 是 存在 Queue) 。 


字符 设备 的 一 个 最 大 好 处 是 可 以 发 起 底层 协议 允许 的 
(SCSIAIA，256KB) 任意 扇 区 倍数 长 度 的 IO 而 且 可 以 完全 透 传 上 层 
应 用 程序 的 IO。 所 以 字符 设备 可 以 对 底层 对 应 的 物理 设备 发 起 任何 属 
性 的 IO ， 比 如 大 块 连 续 并 发 TO ， 这 样 就 非常 好 地 适 配 了 上 层 应 用 程序 
对 IO 的 要 求 ， 可 以 获得 很 高 的 性 能 。 字 符 设备 是 一 个 设备 最 底层 的 抽 
象 ， 其 本 质 等 于 物理 设备 本 身 。 下 面 的 测试 数据 说 明了 上 述 结论 。 


从 上 面 的 结果 可 以 看 到 ， 底 层 发 出 的 IO 长 度 与 应 用 层 发 起 的 IO 长 
度 一 一 对 应 。 


3. 裸 设 备 与 文件 系统 之 争 


字符 设备 又 被 称 为 裸 设 备 。 应 用 程序 可 以 选择 使 用 文件 系统 提供 
的 各 项 功能 进行 对 文件 的 IO 操作 ， 当 然 也 可 以 选择 直接 对 裸 设备 进行 
IO 操作 ， 只 不 过 直接 对 裸 设备 操作 需要 应 用 程序 自行 维护 数据 一 扇 区 
映射 以 及 预 读 缓存 、 写 缓存 、 读 写 优化 等 。 比 如 数据 库 类 程序 自身 都 
具有 这 些 功能 ， 所 以 没有 必要 再 使 用 文件 系统 来 读 写 数 据 。 而 由 于 块 
设备 的 诸多 不 便 悉 劣 性 能 影响 ， 不 推荐 直接 使 用 。 那 基于 文件 系统 
的 IO 和 基于 裸 设备 的 IO 方式 到 底 熟 优 执 劣 呢 ? 我 们 就 此 讨论 一 下 。 


文件 系统 拥有 诸多 优点 是 毋庸 置疑 的 ， 但 是 对 于 某 一 类 程序 ，FS 
提供 的 这 些 “ 方 便 ” 的 功能 似乎 就 显得 很 有 局 限 性 了 ， 比 如 缓存 的 管理 
等 ， 由 于 文件 系统 是 一 个 公用 平台 ， 同 时 为 多 个 应 用 程序 提供 服务 ， 
所 以 它 不 可 能 只 为 一 个 应 用 程序 而 竭尽 全 力 服务 ;况且 最 重要 的 是 ， 
FS 不 会 感知 应 用 程序 实际 想 要 什么 ， 而 且 FS 自 身 的 缓存 在 系统 异常 
Down 机 后 还 容易 造成 数据 不 一 致 情况 的 发 生 。 其 次 ， 使 用 缓存 的 IO 方 
式 下 ， 对 于 读 请 求 ， 系 统 IO 路 径 中 的 各 个 模块 需要 将 数据 层 层 向 上 层 
模块 的 缓存 中 复制 ， 最 后 才 会 被 0S 复 制 到 用 户 程 序 缓存 ， 对 于 写 请 
求 ， 昌 然 缓存 IO 方式 下 ， 写 数据 被 OS 接 受 后 即 宣告 完成 ， 但 这 也 是 造 
成 Down 机 后 数据 丢失 的 主要 原因 之 一 。 所 以 ， 对 于 大 数据 吞吐 量 IO 请 
求 ， 避 免 内 存 中 多 余 的 数据 复制 步骤 是 有 必要 的 (此 外 还 有 另外 一 个 
原因 在 下 面 章节 介绍 ) 。 但 是 对 于 一 般 的 程序 ， 是 完全 推荐 使 用 文件 
系统 进行 IO 操作 的 。 


另外 一 个 最 重要 的 原因 ， 在 使 用 内 核 缓存 以 及 文件 系统 缓存 的 情 
况 下 ， 容 易 发 生 读 写 惩罚 ， 这 是 非常 严重 的 浪费 。 


对 于 这 类 对 IO 性 能 要 求 非常 高 而 且 对 绥 存 要 求 非常 高 的 程序 ， 它 
们 宁愿 自己 直接 操作 底层 物理 设备 ， 也 不 愿意 将 IO 交 给 FS 来 处 理 。 这 
类 程序 的 典型 代表 就 是 数据 库 类 程序 。 虽 然 这 些 程序 也 可 以 使 用 文件 
系统 来 进行 IO 操作 ， 但 是 这 个 选择 只 会 给 程序 之 来 一 个 方面 的 好 处 ， 
那 就 是 文件 管理 会 方便 ， 比 如 可 以 看 到 数据 文件 实 实在 在 地 被 放 在 某 
个 目录 下 ， 可 以 直接 将 数据 文件 复制 出 来 做 备份 ， 做 文件 系统 快照 保 
护 等 。 而 选择 文件 系统 所 带 来 的 坏处 也 是 不 少 的 ， 比 如 最 大 的 劣势 就 
是 重复 缓存 预 读 ，FS 预 读 了 数据 ， 数 据 库 程 序 依 然 自己 维护 一 个 预 读 
缓存 ， 这 两 个 缓存 里 面 势必 有 很 多 数据 是 重复 的 ， 增 加 了 许多 空间 和 
计算 资源 开销 ， 而 且 这 些 数 据 不 见得 都 会 产生 Cache Hit 效 果 。 所 以 这 


类 程序 宁愿 使 用 裸 设备 自行 管理 数据 存储 和 数据 I[O， 所 带 来 的 唯一 缺 
点 就 是 数据 管理 很 不 方便 ， 除 了 程序 自身 ， 其 他 程序 只 看 到 了 一 块 光 
秃 秃 的 裸 设备 在 那儿 ， 里 面 放 的 什么 东西 ， 怎 么 放 的 ， 只 有 程序 自己 
知道 。 


4. Direct10 与 裸 设备 之 争 


有 没有 一 种 方法 能 够 结合 FS 和 裸 设备 带 来 的 优点 呢 ? 有 的 。 为 了 
既 享受 文件 系统 管理 文件 的 便利 同时 而 又 不 使 用 FS 层面 的 缓存 ， 将 绥 
存 和 IO 优化 操作 全 部 交 给 应 用 程序 自行 处 理 ，FS 只 负责 做 文件 一 局 区 
映射 操作 以 及 其 他 文件 管理 层面 的 操作 ， 节 约 内 存 耗 费 以 及 提高 处 理 
速度 。 操 作 系 统 内 核 提 供 了 一 类 接口 ， 也 就 是 前 文中 出 现 的 
FILE_FLAG_NO_BUFFERING 参 数 。 当 然 ， 这 个 参数 只 是 Windows 内 
核 提 供 的 ， 其 他 操作 系统 也 都 有 类 似 的 参数 。 这 种 Bypass 系 统 内 核 组 
存 的 IO 模式 统称 为 DIO ， 即 Direct IO 模式 。 在 UNIX 类 系统 下 ， 在 
Mount 基 个 FS 的 时 候 可 以 指定 “-direct" 人 参数 来 表示 任何 针对 这 个 FS 的 IO 
操作 都 将 不 使 用 内 核 路 径 中 任何 一 处 缓存 。 当 然 ， 也 可 以 在 应 用 程序 
层 控 制 ， 比 如 打开 文件 时 给 出 O_SYNC 或 者 O_DIRECT 、 
FILE_FLAG_NO_BUFFERING 之 类 的 参数 ， 那 么 不 管 目标 FS 在 mount 
时 给 出 了 何 种 参数 ， 这 个 程序 的 IO 都 将 不 使 用 文件 系统 缓存 。 


注意 : 由 于 内 核 的 DIO 模 式 只 是 Bypass 了 缓存 ， 其 他 任何 接 
口 均 未 变 ， 所 以 DIO 模 式 下 ， 内 核 文件 系统 允许 应 用 程序 对 
文件 做 出 非 DIO 模 式 下 相同 的 任何 操作 ， 包 括 读 写 任意 字 节 
长 度 的 文件 数据 《Windows 除 外 ， 见 前 文 ) ， 而 这 种 貌似 “ 透 
明 且 便利 ”的 接口 ， 恰 恰 依 然 还 会 带 来 读 写 惩罚 。 


注意 : 在 windows 系 统 下 ， 如 果 应 用 程序 选择 不 使 用 系统 缓 
存 ， 则 应 用 程序 自身 的 缓存 必须 为 底层 存储 介质 扇 区 的 整数 
倍 大 小 〈 完 全 按照 底层 设备 要 求 的 IO 长 度 单位 ， 内 核 在 接收 
到 用 户 程序 IO 时 并 不 做 检查 ， 直 接 交 给 底层 驱动 ， 如 果 底 层 
驱动 发 现 这 个 IO 长 度 并 不 符合 它 的 要 求 ， 那 么 会 一 层 层 向 上 
报销 直到 用 户 程 序 。 如 果 底 层 驱 动 为 NIR 驱 动 ( 见 上 文 ) ， 
那么 由 于 诸如 CIFS 之 类 协议 规定 IO 长 度 甚 至 可 以 为 0B， 所 以 
底层 使 用 CIFS 的 时 候 ， 使 用 DIO 模 式 的 用 户 程序 可 以 发 起 不 
规则 长 度 的 IO) ， 因 为 越过 了 系统 内 核 缓 存 ，OS 将 直接 将 应 
用 程序 自身 缓存 作为 底层 存储 设备 的 DMA 空 间 。 而 底层 IO 设 
备 都 要 求 目 标 内 存 空间 必须 为 局 区 整数 舍 ， 即 扇 区 对 齐 ， 所 
以 应 用 程序 在 运行 时 被 推荐 使 用 OS 提 供 的 特殊 函数 功能 来 为 
自己 分 配 内 存 最 为 保险 。 另 外 ， 应 用 程序 发 送 的 IO 请 求 中 地 
址 段 也 必须 为 下 层 卷 扇 区 或 者 块 的 整数 倍 (AIX 系 统 下 可 以 
发 送 任意 长 度 IO) 。 

在 Windows 系 统 下 ， 程 序 如 果 选 择 使 用 DIO 模 式 ， 那 么 操作 
系统 会 生成 一 份 Memory Descriptor List (MDL) ， 将 对 应 指 
针 传递 给 底层 设备 驱动 程序 并 且 在 IRP ( 见 下 文 ) 中 通知 驱 
动 程序 本 次 IO 使 用 DIO 模 式 ， 同 时 锁定 应 用 程序 自身 缓存 中 
对 应 本 次 IO 的 Page。 驱 动 程序 使 用 MDL 直 接 对 应 用 程序 内 存 
进行 访问 。 这 也 是 为 何在 Windows 系 统 下 选择 DIO 模 式 的 程 
序 自身 缓存 以 及 IO Size 必 须 为 局 区 整数 倍 的 原因 。 本 章 后 面 
会 介绍 Windows 下 DIO 的 详细 步骤 。 

Windows 下 的 DIO 模 式 (FILE_FLAG_NO_BUFFERING) 是 
彻底 的 透 传 上 层 请 求 的 (不 管 FS Block 是 多 少 ， 上 层 IO 请 求 
包含 多 少 个 扇 区 长 度 ，OS 会 向 底层 物理 设备 发 起 对 应 的 扇 区 
长 度 的 IO) ， 而 AIX 下 则 不 是 。 但 是 Windows 下 的 DIO 模 式 也 


要 求 程序 发 起 的 IO 必须 为 底层 存储 介质 最 小 单位 的 整数 倍 
(CIFS 方 式 除外 ， 见 前 文 ) ， 而 AIX 下 则 可 以 为 任意 长 度 。 
也 正 因为 如 此 ，Windows 才 可 以 透 传 应 用 层 的 IO 请 求 ，AIX 
由 于 允许 应 用 层 IO 不 对 齐 ， 所 以 其 底层 也 不 可 能 透 传 应 用 层 

的 IO。 


在 AIX 系 统 下 ， 虽 然 OS 人 允许 程序 在 DIO 模 式 下 发 起 任意 字 节 长 度 
的 IO， 但 是 由 于 底层 物理 设备 只 能 接受 扇 区 对 齐 的 IO 长 度 ， 像 块 设备 
IO 一 样 ， 这 之 间 存 在 一 个 转换 关系 ， 内 核 自 动 将 不 对 齐 的 IO 转换 为 底 
层 对 齐 的 IO， 完 成 这 个 动作 需要 一 小 部 分 的 缓存 。 对 于 读 IO 操作 ， 最 
差 的 情况 为 应 用 程序 如 果 每 次 IO 只 读 取 1B 的 内 容 ， 那 么 这 个 IO 到 了 底 
层 便 会 变 为 对 物理 设备 4KB 的 读 IO 操作 ， 当 取 回 数据 之 后 ，OS 只 返回 
给 应 用 程序 所 读 取 的 那 1B 的 内 容 ， 然 后 将 读 入 的 4KB 内 容 从 缓存 中 删 
除 ， 即 多 耗费 了 4096 倍 的 IO 操作 和 4096 倍 的 带宽 。 如 果 使 用 内 核 文 件 
系统 缓存 ， 那 么 这 种 浪费 是 不 存在 的 ，FS 可 以 直接 从 预 读 缓存 中 将 对 
应 的 字 节 直 接 返 回 给 应 用 程序 。DIO 模 式 与 块 设备 IO 模 式 在 多 数 情况 
下 效果 类 似 。 


下 面 的 例子 显示 了 AIX 系 统 下 对 一 个 DIO 模 式 Mount 的 FS 进行 以 
0.5KB 的 IO Size 为 单位 递增 的 读 测 试 数据 。 


可 以 看 到 ，DIO 模 式 对 应 的 底层 IO Size 并 不 与 应 用 层 IO Size 一 
致 ， 但 是 DIO 模 式 与 块 设备 IO 模式 有 一 些 区 别 。 比 如 块 设备 IO 模式 下 
只 有 在 应 用 层 IO Size 二 Page Size 时 ， 底 层 与 上 层 的 IO 才 是 一 一 对 应 
的 ; 而 DIO 模 式 下 ， 只 有 在 应 用 层 IO Size 二 FS Block Size 时 ， 底 层 IO 
才 是 与 上 层 一 一 对 应 的 。 


与 块 设备 一 样 ， 对 于 DIO 模 式 下 写 操作 最 差 的 情况 是 ， 应 用 程序 
如 果 每 次 IO 只 写 入 1B 的 内 容 ， 那 么 底层 会 首先 读 入 待 写 入 字 节 所 落 入 
的 4KB 块 到 缓存 ， 然 后 更 新 对 应 的 字 节 ， 然 后 再 将 更 新 后 的 4KB 块 写 
入 物理 设备 ， 多 耗费 了 底层 8192 倍 的 带宽 ， 而 且 这 其 中 有 一 半 的 耗费 
为 写 操作 。 写 比 读 所 耗费 的 资源 更 多 ， 雪 上 加 霜 ， 这 种 情况 是 不 可 容 


忍 的 。 


下 面 的 例子 显示 了 AIX 系 统 下 对 一 个 DIO 模 式 Mount 的 FS 进行 以 
0.5KB 的 IO Size 为 单位 递增 的 写 测 斌 数据。 与 块 设备 写 IO 相 同 ， 具 有 
一 定 规模 的 写 惩 罚 。 


所 以 ， 利 用 DIO 模 式 读 写 文件 或 者 直接 读 写 块 设备 的 应 用 程序 一 
定 要 明确 自己 在 做 什么 ， 为 何 使 用 DIO，DIO 会 带 来 什么 。 但 是 只 要 
程序 发 起 的 IO 的 IO Size 是 FS Block 的 整数 倍 ， 那 么 就 不 会 浪费 资源 ， 
也 就 是 说 既然 选择 了 DIO， 就 要 在 应 用 层面 多 考虑 一 层 。 虽 然 可 以 与 
访问 缓存 模式 FS 同样 的 方法 访问 DIO 模 式 的 FS， 但 是 需要 底层 付出 巨 
大 代价 的 ， 我 们 必须 从 源头 上 消除 这 种 代价 。 块 设备 也 一 样 。 这 方面 
Windows 的 做 法 是 强制 要 求 程 序 自身 缓存 和 IO Size 为 扇 区 整数 倍 ， 而 
AIX 却 没有 强制 要 求 ， 但 是 开发 者 必须 认识 到 这 一 点 。 所 以 ， 如 果 可 
以 的 话 ， 对 于 数据 库 类 程序 尽量 使 用 裸 设备 进行 IO, 一 了 百 了 。 


注意 : Write Through 与 FILE_FLAG_NO_BUFFERING 有 着 本 
质 区 别 : 前 者 模式 下 ， 数 据 依然 首先 进入 操作 系统 内 核 缓 
存 ， 只 不 过 内 核 保 证 数据 被 写 入 磁盘 之 后 才 返 回 成 功 而 不 是 
像 Buffered IO 模式 下 只 要 数据 进入 内 核 缓存 便 立 即 返回 成 
功 ; 而 后 者 则 表示 数据 根本 就 不 进入 内 核 缓存 ， 直 接 由 底层 
驱动 从 用 户 程 序 自身 缓存 取 走 数据 从 而 写 入 底层 存储 介质 。 


这 二 者 看 似 效果 类 似 ， 实 则 有 很 大 不 同 : 前 者 很 有 可 能 依然 
导致 内 核 Page Fault 流 程 导致 的 写 惩罚 ; 而 后 者 则 不 会 有 内 核 
层面 的 写 惩 罚 。 所 以 开发 者 需要 注意 了 ， 使 用 时 最 好 直接 选 
择 后 者 而 不 是 前 者 。 有 些 IO 测 试 软件 甚至 没有 使 用 NoBuffer 
模式 而 只 用 了 WT 模式 ， 殊 不 知 这 种 情况 下 根本 无 法 体现 出 
底层 存储 系统 的 真实 性 能 ， 由 于 读 写 惩罚 的 原因 导致 所 得 的 
结果 总 是 过 低 ， 而 此 时 将 存储 端的 IO 监测 数据 与 程序 得 出 的 
数据 比较 就 会 发 现 ， 底 层 存 储 的 实际 吞吐 量 以 及 IOPS 都 可 能 
远大 于 程序 所 报告 的 。 


天 于 前 者 依然 产生 读 写 惩罚 的 问题 ， 前 文 Network I0 一 节 的 疯狂 
实验 中 有 介绍 。 


注意 : 这 里 请 注意 一 个 概念 问题 。 操 作 系统 内 有 多 处 缓存 ， 
其 实 面 对 用 户 程 序 的 第 一 处 缓存 并 不 是 通常 理解 的 “文件 系统 
缓存 ”>， 而 是 一 处 被 称 为 “SystemBnuffer” 的 缓存 。 当 用 户 程 序 
选择 使 用 Cache IO 或 称 Buffered IO 时 ， 每 发 起 一 个 IO 请 求 ， 
操作 系统 便 会 根据 程序 IO 请 求 的 数据 所 占用 内 存 的 大 小 在 操 
作 系 统 内 核 内 存 空 间 同 样 分 配 一 块 与 其 相同 大 小 的 内 存 用 来 
充当 SystemBuffer， 然 后 再 往 下 才 是 文件 系统 缓存 。 任 何 读 
入 或 者 写 入 的 数据 都 需要 经 过 SystemBuffer。 而 DIO 模 式 下 ， 
操作 系统 会 Bypass 首 个 缓存 ， 也 就 是 SystemBuffer， 同 时 也 通 
知 IO 路 径 中 首 层 驱动 使 用 DIO 模 式 ， 首 层 驱 动 程序 (包括 文 
件 系统 也 是 一 种 驱动 程序 ) 直接 从 用 户 程序 内 存 中 将 数据 取 
出 (对 于 写 请 求 ) 或 者 送 入 〈 对 于 读 请 求 ) 。 下 面 的 章节 中 
会 讲述 Buffered IO 的 详细 过 程 。 


5。 关 于 CIO 模 式 


某 些 文件 系统 ， 比 如 AIX 下 的 下 S2， 采 用 读 共 享 、 写 独占 的 方式 
来 处 理 多 个 进程 访问 同一 个 文件 的 情况 ， 即 如 果 多 个 进程 访问 同一 个 
文件 ， 如 果 没 有 任何 进程 对 这 个 文件 进行 写 操 作 ， 那 么 所 有 进程 都 可 
以 同时 读 取 这 个 文件 的 任何 内 容 ; 但 是 一 旦 有 某 个 进程 在 对 这 个 文件 
进行 写 操 作 ， 那 么 其 他 所 有 进程 都 将 被 禁止 访问 这 个 文件 ， 不 管 是 读 
还 是 写 。 这 样 充分 保证 了 文件 数据 的 一 致 性 ， 保 证 所 有 进程 在 相同 时 
刻 都 会 看 到 相同 的 内 容 。 这 种 做 法 虽然 保证 了 数据 一 致 性 ， 但 是 FS 自 
作 主 张 的 这 个 决定 只 是 对 一 些 没 有 考虑 到 多 进程 并 行 访问 同一 文件 情 
况 的 应 用 程序 有 效果 ， 对 于 那些 自身 已 经 对 这 种 情况 考虑 足够 充分 的 
数据 库 类 程序 来 讲 ，FS 的 这 个 做 法 不 但 是 多 余 的 ， 而 且 还 极 大 影响 性 
能 ， 使 得 多 个 进程 不 能 同时 并 发 写 同 一 个 文件 而 只 能 串 行 地 进行 。 而 
数据 库 类 程序 恰好 就 要 求 多 进程 多 线程 同时 写 一 个 文件 ， 比 如 负责 写 
Log 文 件 的 进程 或 者 写 数 据 文件 的 进程 ， 这 些 进程 往往 都 有 多 份 复制 
在 同时 执行 以 获得 最 大 的 并 发 度 和 性 能 。 


针对 这 个 需求 ，AIX 系 统 下 的 正 S2 文 件 系 统 提 供 了 另外 一 种 接 
口 ， 称 为 CIO 模 式 ， 即 Concurrent IO ， 这 种 模式 下 FS 将 不 再 自行 锁定 
文件 ， 而 是 完全 对 多 个 进程 放 开 对 文件 的 同时 访问 权限 ， 将 保证 数据 
一 致 性 的 责任 完全 交 给 应 用 程序 执行 。 开 启 CIO 模 式 之 后 ，AIX 会 自动 
强制 开启 DIO 模 式 。 另 外 ， 如 果 同 时 打开 同一 个 文件 的 多 个 进程 中 有 
一 个 或 多 个 并 没有 在 打开 文件 时 指定 使 用 CIO 模 式 ， 那 么 OS 就 不 会 使 
用 CIO 模 式 来 操作 这 个 文件 ， 多 个 进程 之 间 仍 然 必须 串 行 写 入 文件 ， 
当 疫 有 使 用 CIO 模 式 的 进程 退出 后 ，OS 就 会 自动 使 用 CIO 模 式 来 操作 
文件 。 还 有 ， 当 某 个 进程 试图 对 某 个 被 多 进程 同时 打开 的 文件 进行 虚 
写 IO 时 ， 也 就 是 没有 更 改 文 件 实际 内 容 而 只 是 更 改 一 些 文件 属性 ， 或 


者 更 改 文件 长 度 等 操作 时 ，OS 会 自动 将 CIO 模 式 失效 而 恢复 原来 的 独 
占 模 式 ; 当 操 作 完 成 后 ， 会 恢复 CIO 模 式 。 


注意 : Windows 的 做 法 与 JFS2 不 同 ，Windows 提 供 一 种 指定 
文件 访问 方式 的 API 人 参数 ， 即 Share Mode， 程 序 在 打开 文件 的 
时 候 可 以 选择 使 用 何 种 Share Mode， 比 如 其 他 进程 只 读 、 其 
他 进程 不 可 读 写 、 其 他 进程 可 读 写 、 其 他 进程 可 删除 等 。 所 
以 Windows 本 身 就 已 经 可 以 实现 类 似 CIO 的 模式 ， 只 要 每 个 进 


程 指定 可 读 写 Share Mode 即 可 。 
图 19-57 ”CIO 性 能 对 比 


在 使 用 CIO 模 式 之 后 ， 数 据 库 类 
程序 的 IO 性 能 将 会 与 裸 设 备 IO 性 能 接近 。 如 图 19-57 所 示 为 CIO、DIO 
和 裸 设备 IO 性 能 之 间 的 对 比 曲线 ， 可 以 看 到 由 于 单纯 DIO 模 式 下 不 可 
并 发 ， 造 成 系统 性 能 相对 裸 设 备 差 别 很 大 ， 而 CIO 模 式 下 则 差别 较 


小 。 


对 于 数据 库 类 程序 ， 使 用 AIO 十 裸 设 备 IO 模式 为 最 优 的 IO 模式 ， 
可 以 获得 最 大 的 性 能 。 如 果 考 虑 文件 管理 便利 性 方面 ， 则 可 以 退 而 求 
其 次 使 用 AIO 十 CIO 模 式 ， 也 可 以 在 获得 很 好 性 能 的 同时 又 不 失去 文件 
系统 市 来 的 好 处 。 


注意 : 多 个 进程 利用 CIO 打 开 文 件 时 ， 请 确定 这 个 文件 最 好 
是 定 长 的 ， 即 进程 在 写 文件 的 时 候 不 会 将 数据 追加 到 文件 尾 
部 或 者 插入 文件 中 部 或 者 对 文件 进行 truncate 等 造成 文件 大 小 \ 
改变 的 操作 。 比 如 数据 库 的 Log 文 件 ， 数 据 库 的 Log 写 进程 一 
般 都 会 有 多 个 来 并 行 执 行 退 加 写 入 ， 如 果 Log 文 件 是 动态 增 
大 的 ， 那 么 CIO 丝 曼 不 会 起 到 作用 ， 多 个 进程 也 没有 存在 的 


意义 ， 所 以 Log 文 件 都 是 在 创建 的 时 候 就 被 指定 了 一 定 长 度 
而 且 是 被 重复 覆盖 写 入 的 。 
DIO、CIO、AIO、SIO 之 间 的 关系 : AIO 和 SIO 是 指 程序 在 调 
用 OS 相关 API 之 后 自身 的 动作 如 何 ， 阻 塞 还 是 不 阻塞 ; 而 
DIO 和 和 CIO 是 指 程序 在 调用 OS 相关 API 之 后 OS 内 核 的 动作 如 
何 ， 是 使 用 缓存 还 是 越过 缓存 ， 是 并 发 写 入 还 是 串 行 写 入 。 
程序 可 以 使 用 AIO 十 DIO、AIO 十 CIO、SIO 十 DIO、SIO 十 
CIO 这 4 种 组 合 。 


19.1.4” 层 与 层 之 间 的 调度 员 : IO Manager 


IO Manager 或 称 IO Scheduler。 每 个 操作 系统 都 会 有 这 样 一 个 角 

色 ， 它 专门 负责 接受 上 层 程 序 的 IO 请 求 ， 然 后 将 IO 请 求 下 发 到 对 应 的 

模块 和 设备 驱动 中 执行 ， 然 后 将 结果 通知 给 上 层 程 序 。 当 某 个 程序 试 

图 访问 某 个 文件 的 时 候 ， 它 其 实 并 没有 直接 和 文件 系统 模块 打交道 ， 
只 是 在 与 IO Manager 打 交道 。 


在 Windows 系 统 下 ，OS 将 文件 系统 模块 的 各 种 功能 接口 打包 为 一 
个 抽象 的 System Service ， 比 如 对 于 文件 系统 打包 之 后 就 是 File 
Service ， 对 于 设备 管理 就 是 Device Service ， 还 有 比如 Memory 
Management Service 等 。 被 打包 之 后 的 Service 放 到 IO Manager 头 顶 ， 任 
何 程序 都 可 以 按照 这 些 Service 提 供 的 API 来 进行 相关 的 调用 ， 比 如 打 
开 一 个 文件 的 操作 ，Open0。 所 有 的 System Service 调 用 动作 会 被 传递 
给 IO Manager 进 行 处 理 。 我 们 来 看 一 张 图 ， 如 图 19-58 所 示 为 Windows 
系统 IO 路 径 简 图 。 


图 19-58 中 一 共有 10 步 操作 ， 现 一 一 列举 如 下 。 


图 19-58 ”Windows 系 统 IO 路 径 简 图 


(1) 某 时 刻 ， 图 中 的 “Subsystem”， 这 里 就 是 指 某 个 应 用 程序 ， 
向 OS (System Service) 发 起 了 对 某 个 文件 对 象 ， 或 者 某 个 设备 的 
Open 操 作 ， 欲 打开 这 个 文件 或 者 设备 对 其 进行 进一步 的 操作 。 


(2) IO Manager 只 是 一 个 调度 和 代理 模块 ， 它 本 身 并 不 知道 上 层 
所 请 求 的 这 个 对 象 (文件 或 者 设备 等 到 底 存 放 在 哪里 ， 是 哪 一 类 的 
对 象 ， 文 件 还 是 设备 等 。 所 以 IO Manager 向 另 一 个 明白 人 儿 ， 也 就 是 
Object Manager 发 起 查询 请 求 以 获得 结果 。 同 时 ，IO Manager 也 会 向 
Securiy 模 块 来 查询 当前 应 用 程序 是 否 具有 访问 目标 对 象 的 权限 。 假 设 
本 例 中 应 用 程序 Open 的 是 比如 “D:\Melonhead” 文 件 。 


(3) 本 例 中 的 目标 对 象 为 D 分 区 文件 系统 下 的 一 个 文件 
“D:\Melonhead”，Object Manager 会 将 这 一 信息 返回 给 IO Manager (以 
下 简称 IOM) 。IOM 得 到 这 个 信息 之 后 首先 查看 对 应 的 分 区 或 者 卷 是 
否 已 经 被 挂 载 ， 如 果 尚 未 挂 载 ， 则 IOM 暂 挂 上 层 的 Open() 操 作 ， 转 而 
首先 尝试 让 文件 系统 挂 载 这 个 卷 。Windows 中 存在 多 种 文件 系统 模 
块 ， 比 如 FAT32、NTFS、CDFS 等 ，IOM 会 依次 轮 询 地 尝试 让 每 个 文 
件 系统 模块 来 挂 载 这 个 卷 ， 直 到 某 个 文件 系统 成 功 地 识别 到 了 卷 上 的 
对 应 的 文件 系统 信息 并 将 其 挂 载 为 止 。FS 挂 载 之 后 ，IOM 继 续 执行 
Open() 请 求 。 


(4) IOM 为 这 个 请 求 分 配对 应 的 内 存 空间 ， 然 后 向 对 应 的 下 层 驱 
动 (这 里 是 文件 系统 驱动 ， 也 就 是 文件 系统 模块 本 身 ) 发 送 一 个 IRP 
(IO Request Packet) ，IRP 中 包含 了 上 层 所 请 求 的 所 有 信息 以 及 完成 
这 个 请 求 所 要 涉及 的 底层 所 有 驱动 链 (文件 系统 驱动 、 磁 盘 设 备 驱 动 
等 ) 的 对 应 信息 。 关 于 IRP 的 具体 结构 以 及 具体 流程 见 下 文 。 


(5) IOM 将 生成 的 IRP 首 先 发 送 给 驱动 链 的 顶层 第 一 个 驱动 ， 这 
里 就 是 文件 系统 本 身 。 文 件 系 统 收 到 IRP 之 后 ， 会 读 取 IRP 中 给 自己 的 
言 息 ， 提 取出 操作 对 象 和 操作 内 容 ， 然 后 开始 操作 。 如 果 应 用 调用 时 
未 指定 DIO 模 式 ， 则 文件 系统 当然 首先 要 查询 是 否 请 求 的 对 象 数据 已 
经 位 于 Cache 中 (本 例 中 应 用 请 求 Open0 一 个 文件 ， 所 以 这 里 的 目标 数 
据 就 是 指 这 个 文件 的 Metadata，FS 要 读 入 这 个 文件 的 Metadata 后 才 可 
以 响应 上 层 的 Open0 操 作 ) ， 如 果 目 标 数据 恰好 位 于 Cache 中 ， 那 么 文 
件 系统 直接 完成 这 个 IRP 请 求 ， 将 携带 有 IO 完成 标志 的 IRP 返 回 给 IOM 
宣告 完成 ，IOM 从 而 也 返回 给 应 用 程序 宣告 完成 。 如 果 Cache 未 命中 ， 
则 FS 需要 从 底层 的 磁盘 来 读 取 目 标 数 据 ， 这 就 需要 FS 在 这 个 IRP 中 对 
应 的 底层 设备 驱动 信息 中 填 入 底层 设备 所 要 执行 的 动作 ， 比 如 读 取 某 
某 LBA 段 的 内 容 等 ， 然 后 将 组 装 好 的 新 IRP 通 过 调用 IOM 提 供 的 功能 
API ( 详 见 下 文 ) 来 将 它 发 送 至 位 于 FS 下 层 的 设备 驱动 处 。 


(6) 设备 驱动 接收 到 IRP 之 后 ， 与 文件 系统 做 相同 的 动作 ， 也 是 
首先 从 IRP 中 找 出 给 自己 的 信息 ， 提 取出 操作 对 象 和 内 容 ， 然 后 操控 
物理 设备 执行 对 应 的 扇 区 读 写 。 


(7) 当 驱 动 链 中 所 有 驱动 都 完成 各 自 的 任务 之 后 ， 底 层 驱 动 将 带 
有 完成 状态 标记 的 IRP 返 回 给 IOM。 


(8) IOM 收 到 这 个 IRP 之 后 ， 检 查 其 状态 标志 ， 如 果 是 成 功 完 
成 ， 则 将 会 通知 上 层 应 用 程序 打开 成 功 ， 并 且 返 回 给 程序 一 个 针对 这 
个 文件 对 象 的 File Handle。 


(9) IOM 将 这 个 IRP 清 除 。 


(10) IOM 返 回 一 个 File Handle 给 程序 ， 以 后 这 个 程序 就 需要 使 
用 这 个 Handle 来 对 这 个 文件 进行 其 他 操作 ， 比 如 写 、 读 、 删 等 等 ， 其 
对 应 的 IO 请 求 执 行 过 程 会 依照 上 述 步骤 进行 。 


可 以 看 到 ， 在 OS 内 核 中 ， 每 个 IO 请 求 都 是 以 IRP 为 载体 来 传递 
的 。 与 外 部 网 络 上 的 数据 包 相 同 ，IRP 包 只 不 过 是 在 内 存 中 传递 而 不 
是 线 绕 上 。 


如 图 19-59 所 示 为 IRP 包 的 数据 图 1959 IE 结构 

结构 ， 其 中 右 侧 部 分 为 一 个 “IO 

Stack Location (IOSL) ”数组 的 放大 结构 。IOM 在 发 送 IRP 给 驱动 链 的 
顶层 驱动 之 前 一 定 要 知道 完成 上 层 的 IO 需要 的 全 部 底层 角色 ， 比 如 
FS、Volume、Device Driver 等 ， 这 些 角色 按照 发 生 作 用 的 先后 顺序 一 
次 排列 形成 一 个 自 上 而 下 的 驱动 链 ，IRP 在 被 IOM 初 次 组 装 时 ， 会 被 
IOM 填 充 入 一 个 或 者 多 个 IOSL。 驱动 链 中 有 几 层 驱动 ，IRP 中 就 有 几 
层 IOSL， 每 层 驱动 都 对 应 自身 的 IOSL。 


IOSL 中 包含 了 本 层 驱 动 应 该 做 的 事情 的 描述 ， 比 如 操作 的 目标 、 
何 种 操作 等 。IOSL 中 有 多 项 结构 用 来 对 其 进行 描述 ， 比 如 
IRP_ MJ CREATE (打开 ) 、IRP MJ READ ( 读 取 ) 、 
IRP_ MJ WRITE ( 写 入 ) 、IRP_MJ DEVICE_CONTROL (控制 指 
令 ) 、IRP_MJ_CLOSE (关闭 ) 等 。 其 中 MJ 表示 Major， 就 是 说 这 些 
操作 都 是 本 层 驱 动 的 基本 功能 ， 这 些 基 本 功能 在 图 中 表示 为 
“JRP_MJ XXX”。 还 有 一 类 设备 自 定 义 的 Minor 功 能 ， 都 集合 在 
IRP_MN_XXX 中 。 图 中 的 arguments 表 示 操 作 的 对 象 ， 比 如 所 要 操作 的 
数据 位 于 何 处 ， 长 度 是 多 少 等 。PtrDeviceObject 表 示 本 层 驱 动 对 应 的 
设备 对 象 指针 ，PtrFileObject 表 示 待 操作 的 文件 对 象 指 针 ， 这 个 项 目 只 
对 文件 系统 驱动 层 有 用 处 ， 其 他 层 一 般 不 使 用 这 一 项 。 


在 图 中 左 侧 ， 我 们 可 以 看 到 这 个 IRP 中 包含 上 下 两 个 IOSL， 上 层 
IOSL 已 经 填充 了 FS 驱动 的 相关 操作 信息 ， 下 层 IOSL 尚未 空 。 说 明 这 
个 IRP 的 驱动 链 只 有 两 层 ， 顶 层 即 文件 系统 驱动 (FileSystemDriver， 
FSD) ， 底 层 则 还 尚未 被 填充 ， 暗 示 底 层 驱 动 一 定 是 存储 设备 驱动 ， 
也 同时 暗示 这 个 IRP 一 定 是 由 IOM 发 送 给 FSD 的 但 是 FSD 尚 未 做 出 处 
理 。 


被 IOM 组 装 好 的 IRP 初 次 被 发 送 到 驱动 链 顶 层 (本 例 中 是 FS) 驱 
动 模块 时 ， 只 有 顶层 的 IOSL 被 IOM 填 入 ， 其 他 层次 的 IOSL 为 空 ， 因 为 
此 时 只 有 IOM 知 道 应 用 程序 要 做 什么 ， 而 且 IOM 也 不 知道 FS 下 层 的 磁 
盘 驱 动 要 操作 哪些 局 区 。 


顶层 驱动 模块 按照 IOM 填 入 的 1O5SL 信 息 执行 对 应 的 操作 ， 如 果 发 
现 本 层 驱 动 的 操作 必须 转交 给 下 层 驱 动 来 完成 的 话 〈 比 如 系统 内 核 缓 
存 未 命中 必须 从 磁盘 来 读数 据 ) ， 那 么 本 层 驱 动 在 执行 对 应 的 映射 计 
算 后 〈 比 如 FS 将 文件 offset 映 射 为 磁盘 局 区 段 ) ， 将 下 层 驱 动 所 要 执行 
的 动作 信息 (比如 * 读 入 LBA0 玉 1024 的 数据 ”) 调用 IOM 提 供 的 
IoAllocateIrp 功 能 陨 数 填 入 下 层 IOSL 中 (由 于 当前 驱动 并 不 会 自动 得 
知 下 层 驱 动 的 IOSL 位 于 整个 IRP 中 的 位 置 ， 所 以 需要 调用 IOM 提 供 的 
IoGetNextIrpStackLocation 功 能 函数 来 获取 ) 。 


填 好 之 后 ， 调 用 IOM 提 供 的 IoCallDrive 功 能 函数 将 填 好 的 IRP 发 送 
给 下 层 驱 动 (磁盘 设备 驱动 ) ， 磁 盘 设备 驱动 收 到 IRP 之 后 ， 从 了 RP 中 
读 取 本 层 对 应 的 IOSL， 也 就 是 刚才 由 FS 驱动 填 入 的 IOSL， 执 行 其 中 
的 操作 。 由 于 人 磁盘 设备 驱动 为 最 底层 的 驱动 ， 所 以 在 它 执行 完毕 后 会 
调用 IOM 提 供 的 IoCompletionRequest 功 能 冰 数 来 将 IRP 返 回 给 IOM， 此 
时 的 IRP 已 经 被 最 底层 的 驱动 在 IO Status Block 中 填 入 了 IO 执 行 状态 
(成 功 、 错 误 等 ) 。 


IOM 收 到 IRP 之 后 ， 将 最 底层 对 应 的 IOSL 清 空 ， 并 将 IRP 再 次 发 送 
给 上 一 层 驱 动 (本 例 只 有 两 层 ， 如 果 有 多 层 则 一 层 一 层 回 传 ) 来 让 上 
层 驱 动 判 断 底 层 执 行 的 结果 是 否 合格 。 本 例 中 上 层 FS 驱 动 是 最 顶层 驱 
动 ， 所 以 它 会 执行 IO 总 完成 过 程 (此 处 并 非 0CompletionRequest) ， 
同样 在 IO Status Block 中 设置 状态 然后 将 IRP 返 回 给 IOM， 如 果 状 态 为 
成 功 ， 则 本 次 IO 成 功 执行 ， 如 果 状 态 为 其 他 ， 则 相应 触发 其 他 动作 。 
如 图 19-60 所 示 为 Windows 系 统 内 IO Manager 与 驱动 层 交 互 的 一 个 示意 
图 ， 其 中 包含 了 IRP 流 动 的 路 线 以 及 IO 流程 。 可 以 根据 上 面 的 描述 来 
对 应 图 中 的 步骤 。 


图 19-60 ”IRP 流 动 过 程 
1。IOM 对 Buffered IO 处 理 过 程 


下 面 给 出 一 个 windows 系 统 下 IO Manager 处 理 Cached/Buffered IO 
过 程 示例 。 如 图 19-61 所 示 为 IJOM 处 理 Buffered IO 时 的 流程 示意 图 ， 其 
中 共有 6 处 关键 点 ， 下 面 就 分 别 描述 一 下 这 6 处 关键 点 。 


图 19-61 IOM 处 理 Buffered IO 过 程 示 意图 


(1) 用 户 程 序 将 自身 数据 缓存 放置 在 所 分 配 的 虚拟 内 存 空 间 内 某 
段 逻 辑 上 连续 的 地 址 之 内 ， 这 段 虚 拟 内 存 地 址 实际 上 可 以 被 映射 到 物 
理 内 存 中 并 不 连续 的 地 址 段 中 ， 这 是 任何 操作 系统 Memory Manager 都 
会 做 的 。 


(2) 用 户 程 序 在 向 OS 发 起 IO 请 求 时 会 将 待 写 入 数据 存放 的 数据 
缓存 地 址 《对 于 写 请 求 ) 或 者 用 于 接收 数据 的 缓存 地 址 通知 给 OS。 


(3) OS 使 用 ExAllocatePoolWithTag 功 能 函数 在 内 核 的 一 个 内 存 
空间 池内 创建 一 个 与 用 户 程序 对 应 缓存 相同 大 小 的 连续 的 


SystemBufero。 


(4) 然后 IOM 立 即 向 下 发 起 IRP， 在 IRP 中 IOM 会 将 SystemBuffer 
的 指针 告知 顶层 驱动 程序 。 


(5) 对 于 读 请 求 ， 底 层 驱 动 在 成 功 完 成 数据 读 入 之 后 ， 会 将 逐步 
读 出 的 数据 放置 到 方才 被 通知 的 SystemBuffer 地 址 段 中 存放 ， 当 整个 
IO 完成 后 ， 驱 动 会 通知 IOM 完 成 信号 。 当 然 ， 底 层 驱 动 也 可 能 会 有 自 
己 的 缓存 ， 比 如 文件 系统 驱动 ， 文 件 系统 会 根据 自己 的 缓存 策略 来 处 
理 这 个 IO 请 求 ， 比 如 ， 如 果 Cache Hit， 则 直接 将 数据 复制 到 
SystemBuffer。 对 于 写 请 求 ，IOM 会 首先 将 用 户 程 序 缓存 中 待 写 入 的 数 
据 复 制 到 方才 分 配 的 SystemBuffer 中 ， 并 立即 返回 给 用 户 程 序 完 成 信 
号 ， 然 后 向 下 发 起 IRP 过 程 ， 下 层 驱 动 会 直接 从 SystemBnuffer 中 读数 据 
从 而 写 入 底层 设备 。 当 然 对 于 文件 系统 驱动 这 一 层 ， 由 于 使 用 了 
Buffered IO ，FS 会 缓存 这 个 写 IO 并 做 优化 处 理 ， 在 Flush 衫 触发 后 ， 才 
会 将 数据 继续 向 下 从 驱动 写 入 。 


(6) 当 内 核 读 IO 完成 后 ，OS 会 将 SystemBuffer 中 的 内 容 复制 到 用 
户 程 序 缓存 空间 ; 当 内 核 写 IO 完成 后 ， 用 户 程序 不 会 有 感知 ， 因 为 
Buffered IO 模式 下 ， 在 用 户 程 序 写 IO 发 起 后 便 立 即 被 通知 完成 了 。IO 
完成 后 ， 内 核 使 用 ExFreePool 功 能 函数 来 释放 针对 本 次 IO 分 配 的 
SystemBnuffer。 每 次 IO 均 要 分 配对 应 的 SystemBnuffer。 


注意 : 在 上 述 过 程 中 ， 当 SystemBuffer 被 分 配 之 后 ， 对 应 的 
用 户 程 序 Buffer 便 可 以 被 OS 使 用 换 页 机 制 将 其 内 容 复制 到 人 硬 
盘 上 的 Pagefile 中 存放 ， 以 便 腾 出 物理 内 存 空 间 给 其 他 程序 使 


用 。 如 果 IO 吞 吐 量 很 大 ， 但 同时 依然 使 用 了 了 Buffered IO 模 
式 ， 那 么 不 但 因为 多 次 内 存 数据 复制 而 效率 低下 ， 而 且 会 由 
于 在 内 核 分 配 SystemBuffer 时 可 能 由 于 内 存 池 中 没有 对 应 这 
么 大 数据 空间 的 连续 内 存 地 址 段 而 造成 内 核 极 力 去 释放 内 存 
空间 ， 而 首当其冲 的 就 是 释放 文件 系统 缓存 空间 。 而 释放 FS 
缓存 时 就 又 涉及 到 Flush IO 的 操作 ， 这 些 操作 在 底层 又 随时 可 
能 导致 路 径 中 其 他 模块 需要 分 配 内 存 ， 而 这 就 成 了 一 个 死 循 
环 ， 可 能 导致 系统 失去 响应 。 所 以 IO 路 径 中 分 配 内 存 的 操作 
需 慎 之 又 慎 。 


2。IOM 对 DIO 处 理 过 程 


如 图 19-62 所 示 为 IJOM 处 理 DIO 过 程 (底层 设备 使 用 DMA 方 式 ) 的 
示意 图 。 其 中 共有 6 个 主要 步 又， 下面 我 们 就 分 项 描述 这 6 个 步骤 。 


图 19-62 ”IOM 处 理 DIO 过 程 示 意图 


(1) 用 户 程 序 自身 的 缓存 位 于 操作 系统 虚拟 出 来 的 虚拟 内 存 空 
间 ， 并 且 是 连续 的 。 这 块 虚 拟 连 续 的 空间 实际 上 是 被 映射 到 物理 内 存 
中 的 ， 并 且 可 能 是 不 连续 的 。 操 作 系 统 会 针对 这 个 程序 的 缓存 空间 生 
成 一 份 Memory Description List (MDL) 用 来 描述 虚拟 地 址 和 物理 地 址 
的 映射 关系 等 信息 。 


(2) 程序 向 操作 系统 发 起 DIO 读 请 求 ， 并 在 自身 的 缓存 内 预 留 好 
了 接收 读 出 数据 的 空间 ， 并 将 这 个 空间 的 地 址 信息 通告 给 操作 系统 。 


(3) IOM 根据 收 到 的 缓存 地 址 信息 ， 调 用 
MmProbeAndLockPages 功 能 函数 将 对 应 的 物理 内 存 地 址 锁定 。 


(4) IOM 生 成 IRP 以 便 下 发 给 驱动 链 的 顶层 驱动 ， 并 在 其 中 给 
用 于 接收 本 次 IO 数据 的 物理 内 存 空 间 位 于 MDL 中 的 指针 。 直 到 本 次 IO 
完成 ， 否 则 指针 对 应 的 内 存 空间 一 直 处 于 锁定 状态 。 


(5) 底层 设备 使 用 MmGetMdlVirtualAddress 功 能 函数 来 获取 这 些 
指针 。 


(6) 底层 设备 从 介质 中 读 出 数据 之 后 ， 将 数据 直接 送 至 这 些 指针 
指定 的 物理 内 存 空 间 。 (由 于 Windows 下 DIO 模 式 要 求 用 户 程序 发 起 
的 IO Size 必 须 与 最 底层 设备 的 最 小 存储 单位 对 应 ， 所 以 此 处 可 以 直接 
由 底层 设备 将 数据 返回 而 不 再 途径 文件 系统 返回 。 但 是 对 于 一 些 底层 
加 入 虚拟 化 效果 的 驱动 ， 比 如 卷 镜 像 、RAID 等 ， 则 最 底层 设备 驱动 需 
要 将 数据 返回 给 其 上 层 驱 动 ， 然 后 由 上 层 驱 动 负 责 将 数据 置 入 用 户 程 
序 缓存 。) 


综 上 所 述 ，IOM 统 管 着 OS 内 核 中 所 有 驱动 以 及 上 层 调 用 接口 ， 为 
整个 系统 IO 请 求 流动 的 骨架 。 当 一 个 IO 进入 IOM 之 后 ， 第 一 次 转发 是 
IOM 主 动 发 向 驱动 链 顶 层 驱 动 的 ， 随 后 的 进一步 下 发 是 由 各 层 驱 动 主 
动 发 起 的 ， 此 时 IO 请求 流 动 的 驱动 力 为 IoCallDrive 图 数 (IOM 提 
供 ) ， 各 层 驱 动 调用 这 个 函数 即 可 将 IRP 下 发 给 下 层 驱 动 。 当 然 也 可 
以 认为 上 层 驱 动 执 行 完 IRP 后 将 IRP 通 过 IoCallDrive 闵 数 扔 给 IOM， 然 
后 IOM 再 发 送 给 下 层 驱 动 ， 因 为 IoCallDrive 是 IOM 自 身 的 功能 ， 所 以 
本 质 上 这 么 理解 也 可 以 。 


3。 成 也 Page Cache， 败 也 Page Cache 


Page Cache 是 操作 系统 内 最 后 一 层 Cache， 再 往 下 走 ， 就 是 实 实在 
在 的 物理 硬件 设备 了 。 在 Linux 系 统 中 ， 早 在 2.2 内 核 版 本 的 时 代 ， 除 


了 Page Cache (Pcache) 之 外 ， 还 有 一 个 Buffer Cache (Bcache) 处 于 
Pcache 下 层 。 这 两 者 的 区 别 是 ，Pcache 用 于 缓存 文件 系统 层面 的 文件 
块 数据 ， 而 Bcache 则 用 于 缓存 块 设备 层面 的 设备 块 数据 。 这 两 个 Cache 
之 间 保 持 严格 同步 ， 即 一 个 文件 块 若 处 于 Pcache 中 ， 则 这 个 文件 块 所 
对 应 的 磁盘 块 也 必须 同时 处 于 Bcache 中 ， 针 对 任何 一 个 块 进行 的 改 
动 ， 必 须 也 体现 到 另 一 个 Cache 对 应 的 块 中 ， 即 同步 读 入 同步 修改 。 但 
是 到 了 Linux 2.6 内 核 之 后 ，Bcache 的 作用 被 弱化 了 ， 基 本 上 没有 用 
处 ， 文 件 和 块 设备 的 缓存 都 使 用 Pcache 并 且 不 再 同步 。 


Pcache 与 文件 或 者 块 设 备 其 实 是 一 种 映射 关系 ， 即 内 核 会 将 文 
件 或 者 块 设 备 上 对 应 的 块 映 射 到 Pcache 中 对 应 的 Page，Page 作 
为 文件 或 者 块 设 备 上 对 应 块 的 顶头 缓存 而 存在 。 在 非 DIO 模 式 
下 ， 针 对 某 个 文件 或 者 块 设备 的 IO 操作 ， 必 须 经 过 Pcache。 比 
如 读 请 求 ， 内 核 首 先 检 查 Pcache 中 对 应 这 个 IO 所 请 求 的 块 的 
Page 中 是 否 有 数据 ， 如 果 有 ， 则 直接 返回 ， 无 须 从 底层 磁盘 读 
取 ; 对 于 写 请 求 ， 内 核 也 是 首先 将 数据 写 入 对 应 的 Page， 然 后 
再 批量 写 入 磁盘 。 

Pcache 向 下 映射 到 文件 块 或 者 块 设备 块 ， 向 上 则 可 以 映射 到 用 
户 程 序 缓存 ， 这 样 ， 利 用 Pcache 作 为 中 间 人 ， 程 序 只 要 访问 自 
身 缓 存 内 映射 过 来 的 Pcache 对 应 的 Page， 就 等 于 访问 到 了 
Pcache 下 所 映射 的 文件 块 或 者 块 设备 块 ， 途 中 如 果 遇 到 Cache 非 
命中 的 情况 ， 则 会 产生 Page Fault， 触 发 从 底层 磁盘 设备 的 读 操 
作 。 这 种 Pcache 上 行 的 映射 称 为 Memory Mapping，Mmapping 需 
要 用 户 程序 显 式 地 向 操作 系统 申请 ， 使 用 mmap0O 功 能 函数 。 利 
用 mmap 机 制 ， 如 果 有 多 个 程序 共同 读 取 同 一 个 底层 块 ， 那 么 内 
核 无 须 将 这 个 块 分 别 复制 到 每 个 程序 自身 缓存 内 ， 只 需要 放置 
一 份 在 Pcache 对 应 的 Page 中 即 可 ，Pcache 的 上 行 map 会 将 这 个 实 


际 的 Page 分 别 map 到 各 个 程序 自身 的 缓存 内 ， 这 样 就 大 大 降低 
了 物理 内 存 耗 费 。 对 于 写 操 作 ， 也 同样 会 写 到 Pcache 中 对 应 的 
Page， 每 个 程序 任何 时 刻 都 看 到 的 是 相同 内 容 并 且 最 新 的 
Page， 也 就 是 说 任何 时 刻 只 有 Pcache 中 的 一 份 Page 数 据 ， 这 样 
就 可 以 保证 数据 的 一 致 性 。 当 需要 将 被 修改 的 Page 写 入 磁盘 
时 ， 程 序 可 以 调用 msync0O 功 能 函数 进行 。 


一 个 文件 或 者 块 设备 往往 比较 大 ， 不 可 能 全 被 映射 到 Pcache 中 。 
但 是 对 于 用 户 程序 来 讲 ， 其 所 被 分 配 的 内 存 地 址 都 是 虚拟 的 ， 往 往 可 
以 很 大 ， 甚 至 大 过 物理 内 存 ， 所 以 程序 向 OS 内 核 所 申请 映射 的 整个 文 
件 /设备 或 者 其 一 部 分 ， 对 于 虚拟 内 存 来 讲 是 有 空间 映射 的 。 


由 于 内 核对 程序 缓存 做 了 起 供 处 理 ， 比 如 虚拟 内 存 为 10MB 空 
间 ， 而 实际 上 内 核 只 给 了 其 5MB 的 物理 内 存 空间 ， 所 以 只 能 够 拆 东 墙 
补 西 墙 。 所 以 内 核 需 要 维护 一 个 Page Table 来 记录 当前 实际 的 虚拟 地 址 
与 物理 Pcache 地 址 的 映射 关系。 


当 程 序 需要 对 虚拟 地 址 空间 内 某 个 page 进 行 IO 操 作 时 ， 内 核 检 查 
PageTable， 如 果 没 有 找到 这 个 虚拟 Page 对 应 的 物理 Page， 那 么 内 核 只 
能 先 把 当前 被 占用 的 物理 Page 中 最 少 被 程序 访问 的 那些 想 办 法 腾 出 来 
给 新 请 求 使 用 。 


腾空 间 的 机 制 有 多 种 ， 比 如 最 划算 的 是 先 删 挥 物理 Page 中 那些 目 
从 被 读 入 之 后 就 没有 改过 的 ， 也 就 是 对 应 的 块 与 下 层 磁盘 上 的 块 内 容 
一 致 的 那些 Page， 它 们 占 在 这 里 除了 增加 一 些 缓存 命中 率 之 外 别 无 它 
用 ， 所 以 毫 不 犹 欧 地 将 它们 标记 为 Free 即 可 。 


其 次 就 是 Flush Dirty Page， 即 如 果 物 理 Page 中 有 些 已 经 修改 过 的 
但 尚未 被 写 入 磁盘 的 Page， 那 么 它们 占 在 这 基本 上 为 了 那 微乎其微 的 
缓存 命中 率 ， 此 时 也 没 多 大 意义 ， 因 为 此 时 此 刻 燃眉之急 是 物理 空间 
不 够 用 ， 所 以 即刻 触发 Flush 将 其 写 入 磁盘 后 也 标记 为 Free。 


更 糟糕 的 是 ， 如 果 上 面 两 个 动作 都 做 完了 ， 物 理 空间 还 是 不 够 
用 ， 那 么 还 有 最 后 一 根 救 命 稻草 ， 即 将 当前 占用 的 物理 Page 中 的 内 容 
写 到 磁盘 上 一 个 特定 的 空间 〈Swap 分 区 ) 或 者 文件 (Pagefile) 中 暂 
存 ， 以 腾 出 空间 ， 并 且 在 Page Table 中 做 好 记录 ， 这 个 过 程 称 为 Page 
Out。 待 什么 时 候 程序 又 需要 访问 已 经 被 Page Out 的 Page 了， 内 核 的 
Cache Manager 发 现 目标 Page 并 没有 在 物理 内 存 中 ， 此 时 就 算 发 生 了 一 
次 Page Fault， 那 么 Cache Manager 就 得 根据 Page Table 中 的 记录 ， 从 
Swap 分 区 或 者 Pagefile 中 将 对 应 的 之 前 Page Out 出 去 的 Page 再 读 入 物理 
内 存 供 使 用 ， 这 个 过 程 叫 做 Page In。 


然而 ， 最 糟糕 的 是 ， 物 理 Page 已 经 全 满 ， 该 做 的 也 做 了 ， 而 此 时 
又 恰恰 需要 Page In， 那 么 没 办 法 ， 只 能 将 物理 Page 中 最 少 被 访问 到 的 
(使 用 LRU 算 法 ) Page 写 到 Pagefile 或 者 Swap 分 区 ， 再 将 Pagefile 或 
Swap 分 区 中 要 Page Im 的 Page 读 入 ， 这 种 情况 称 为 Page Exchange， 是 最 
糟 糙 的 状态 。 


按理 说 Pcache 的 存在 会 大 大 提高 IO 性 能 ， 但 这 只 是 在 一 定 条 件 下 
而 已 。Pcache 以 4KB 的 Page 为 单位 进行 读 写 ， 只 能 一 次 读 入 或 者 写 入 
一 个 或 者 多 个 Page， 而 不 可 能 读 写 诸如 200B，1000B 这 种 除 不 尽 4KB 
的 数据 。 然 而 ， 程 序 在 访问 文件 或 者 块 设备 的 时 候 ， 却 可 以 以 任何 
offset 为 起 始 ， 发 起 任何 长 度 的 IO 请 求 。 这 就 使 得 Pcache 很 难 办 ， 一 旦 
遇 到 这 种 尺寸 不 能 对 齐 Page 边 界 而 且 长 度 又 不 能 被 4KB 除 尽 的 IO 请 
求 ， 就 会 发 生 本 章 前 文 所 描述 的 各 种 花样 的 读 写 惩 罚 。 


另外 ，4KB 的 Page Size 为 x86 平 台 普遍 使 用 ， 其 他 一 些 平台 比如 安 
腾 ， 其 Page Size 为 64KB。IO Size 与 Page Size 相 差 越 大 ， 惩 罚 比 例 就 越 
大 。 但 是 Page Size 越 小 ， 那 么 Page Table 中 所 需要 的 条 目 就 越 多 ， 由 于 
Page Table 也 存在 于 内 存 中 ， 所 以 就 需要 浪费 更 多 的 物理 内 存 。 


所 以 说 ， 成 也 Pcache， 败 也 Pcahce。Pcache 的 成 败 ， 最 终 决定 因素 
还 是 在 用 户 程序 的 IO 设计 ， 是 否 充 分 考虑 了 各 种 情况 。 


另外 ， 对 于 一 些 慢 速 与 高 速 存储 介质 共存 的 系统 内 ， 比 如 SSD 与 
机 械 硬 盘 共 存 ， 此 时 可 以 针对 SSD 设 备 使 用 DIO 模 式 ， 将 有 限 的 RAM 
一 级 缓存 留 给 更 需要 它 的 机 械 硬 盘 。 


4. Cache、Buffer、Queue 的 作用 层次 与 关系 


从 本 章 一 开始 给 出 的 那 张 系统 全 景 IO 路 径 图 中 可 以 看 到 ， 系 统 中 
的 各 处 都 会 有 缓存 ， 还 有 Queue， 同 时 还 存在 一 种 图 中 尚未 画 出 的 东 
西 ， 就 是 Buffer。 这 里 有 必要 讲解 一 下 这 三 者 的 层次 与 关系 。 


Cache 是 一 个 海洋 ， 其 中 可 以 有 长 时 间 固 定 不 动 的 东西 。 而 
Queue， 很 显然 它 就 像 一 个 水 渠 ， 其 中 的 数据 是 无 时 无 刻 不 在 流动 
的 。 而 Buffer 更 像 是 一 个 溢出 的 水 渠 ， 比 水 渠 的 空间 更 大 一 些 ， 但 是 
Buffer， 更 应 该 被 翻译 为 “缓冲 ”而 不 是 缓存 ， 也 就 是 说 Buffer 中 的 数据 
会 很 快 被 清 走 ， 或 者 传输 到 上 游 模 块 ， 亦 或 是 被 传输 到 下 游 模 块 。 
Buffer 有 两 个 作用 : 一 是 针对 慢 速 设备 提供 一 个 速度 适 配 的 缓冲 空 
间 ， 二 是 为 了 给 某 种 计算 操作 提供 数据 暂 存 的 空间 。 比 如 有 某 种 存储 设 
备 ， 数 据 在 被 读 出 或 者 写 入 介质 之 前 需要 进行 某 种 检查 或 者 运算 处 
理 ， 而 这 种 运算 是 非常 底层 而 不 是 高 层 的 ， 那 么 就 有 必要 为 这 个 设备 
创建 一 块 缓冲 ， 也 就 是 Buffer 空 间 用 于 存放 计算 之 前 的 数据 以 及 运算 


之 后 的 结果 。 刻 录 光 盘 时 系统 分 配 的 内 存 空 间 视 为 缓冲 ， 因 为 这 个 
Buffer 中 的 数据 不 可 能 长 期 被 放 在 里 面 不 动 。 但 是 Cache， 也 就 是 “ 绥 
存 ”， 是 比 Queue 与 Buffer 更 高 层 的 东西 ， 其 作用 主要 是 用 来 加 速 数 据 
IO 而 不 是 缓冲 IO 流动 的 ， 其 中 可 以 存在 长 期 不 流动 的 数据 。 


Cache、Buffer、Queue， 这 三 者 的 数据 流动 性 是 一 级 比 一 级 高 ， 
路 径 中 作用 层次 一 级 比 一 级 低 ， 所 发 挥 的 功能 一 级 比 一 级 低级 。 越 往 
宏观 速度 越 慢 而 空间 越 大 ， 越 往 微 观 速度 越 快 而 空间 越 小 ， 计 算 机 IO 
路 径 也 完全 符合 这 个 自然 法 则 。 


19.1.5 ”底层 设备 驱动 层 
1. Windows 系 统 下 的 驱动 链 


IO 请 求 从 应 用 程序 发 起 ， 经 历 了 文件 系统 、 卷 管理 系统 ， 现 在 这 
个 IO 请 求 要 经 历 它 离开 主机 操作 系统 前 的 最 后 一 天 : 设备 驱动 程序 。 
我 们 以 Windows 系 统 的 驱动 层次 架构 为 例 说 明 操 作 系 统 是 如 何 使 用 底 
层 人 硬件 设备 的 。 


设备 分 为 虚拟 设备 和 实际 物理 设备 ， 我 们 在 此 不 讨论 虚拟 设备 。 
一 个 实际 的 物理 设备 ， 一 般 是 以 某 种 总 线 来 连接 到 计算 机 主板 上 的 ， 
比如 PCIX、PCIE 总 线 ， 主 板 上 的 导线 连 入 对 应 的 总 线 控制 器 必 片 (一 
般 是 与 北桥 或 者 南 桥 或 者 CPU 集成 的 ) ， 操 作 系统 就 是 从 总 线 控制 心 
片 来 获取 所 有 外 部 设备 信息 的 ， 任 何 发 向 或 者 收 自 外 部 设备 的 数据 和 
控制 信息 流 ， 都 经 过 这 个 总 线 控制 器 ， 总 线 控制 器 只 负责 将 数据 流转 
到 对 应 总 线 的 对 应 地 址 上 的 设备 ， 但 是 数据 流 本 身 的 流动 是 由 设备 
DMA 部 分 直接 负责 的 。 


所 以 ， 操 作 系统 要 想 看 到 一 个 设备 ， 必 须 通过 这 个 设备 所 在 的 总 
线 控制 器 。 操 作 系统 内 有 一 类 称 为 “总线 驱 动 ” 的 驱动 程序 ， 这 个 驱动 
程序 位 于 操作 系统 最 底层 ， 它 可 以 从 总 线 控制 心 片 来 获取 当前 总 线 上 
的 任何 动静 以 及 任何 已 经 接 入 的 设备 信息 ， 也 就 是 说 这 个 驱动 是 用 来 
驱动 总 续 控 制 器 的 ， 也 叫做 "总 线 控制 器 驱动 ”。 任 何 新 接 入 的 设备 都 
会 在 硬件 上 被 总 线 控制 器 感受 到 ， 从 而 也 就 被 总 线 驱 动 所 探知 到 ， 然 
而 ， 总 线 驱 动 只 能 够 探知 到 总 线 上 新 接 入 了 一 个 设备 ， 却 不 知道 这 是 
什么 设备 ， 该 怎么 用 。 要 想 使 用 这 个 设备 ， 就 得 在 其 上 再 加 载 一 层 驱 
动 ， 也 就 是 这 个 设备 自身 的 驱动 。 


比如 ， 如 果 这 个 设备 是 一 张 PCIE 接 口 的 SCSI 卡 ， 那 么 操作 系统 会 
首先 通过 PCIE 总 线 驱 动 探 知 到 有 一 个 类 型 为 SCSI Host 的 设备 ， 然 后 系 
统 会 立即 将 SCSI Port/Miniport 驱 动 加 载 到 这 个 设备 之 上 ， 从 而 可 以 正 
常 操作 SCSI 卡 。SCSI 卡 其 实 本 质 上 也 是 一 个 总 线 控制 器 ， 它 后 端 控制 
着 一 个 或 者 多 个 SCSI 总 线 ， 在 前 端 则 作为 PCIX/PCIE 等 主机 总 线 上 的 
被 动 设 备 而 存在 ， 所 以 ，SCSI 卡 的 驱动 程序 也 相当 于 SCSI 控 制 器 的 总 
线 驱 动 。 所 以 ， 加 载 了 这 个 驱动 之 后 ， 操 作 系 统 就 会 看 到 这 张 SCSI 卡 
上 面 所 连接 的 SCSI 总 线 信 息 以 及 SCSI 总 线 所 连接 的 SCSI 设 备 。 然 而 ， 
此 时 操作 系统 只 能 够 看 到 一 个 或 者 多 个 SCSI 设 备 ， 却 不 知道 它们 各 自 
是 什么 设备 ， 怎 么 用 它 ， 所 以 ， 还 需要 再 加 载 一 层 驱 动 ， 也 就 是 ， 
PCIE 主 机 总 线 上 的 SCSI 控 制 卡 上 的 SCSI 总 线 上 的 SCSI 设 备 的 驱动 。 


还 没 结束 。 每 个 SCST 设 备 上 还 可 以 存在 多 个 LUN 逻 辑 单元 ， 所 
以 ， 还 需要 针对 每 个 LUN 加 一 层 驱动 。 但 是 一 般 来 讲 ， 这 一 层 驱动 与 
前 一 层 是 同一 个 驱动 类 型 的 不 同 例 程 罢 了 ， 因 为 一 个 SCSI Target 上 的 
LUN 其 功能 一 般 与 Target 本 身 相 同 ， 不 会 存在 某 个 SCSI Target 多 个 LUN 
里 有 的 是 磁盘 而 有 的 却 是 磁带 或 者 光驱 的 。 至 此 我 们 数 一 数 这 个 驱动 


链 里 的 驱动 数目 : 主机 总 线 驱 动 ~ SCSI 控 制 器 驱动 ~ SCSI Target 设 备 
驱动 ~LUN 设 备 驱动 。 


还 没 结束 。 假 设 某 个 LUN 是 一 个 磁盘 设备 ， 至 此 ， 操 作 系 统 已 经 
知道 如 何 使 用 这 块 磁盘 了 ， 可 以 向 其 中 读 写 数据 了 。 但 是 磁盘 还 可 以 
分 区 ， 操 作 系统 会 对 待 每 个 分 区 就 像 一 块 物理 磁盘 一 样 。 所 以 ， 还 需 
要 为 每 个 分 区 再 加 载 一 层 驱 动 ， 这 个 驱动 与 上 一 层 驱 动 其 实 是 一 样 
的 ， 如 果 使 用 某 种 卷 管理 软件 来 生成 卷 而 不 是 分 区 ， 则 就 需要 加 载 卷 
驱动 ， 这 个 驱动 由 卷 管理 软件 提供 ， 作 为 一 种 Filter 驱 动 〈 见 下 文 ) 类 
型 存在 。 


至 此 ， 还 没 结束 。 有 了 卷 或 者 分 区 就 完结 了 么 ? 非 也 。 文 件 系统 
还 没 进来 呢 。 文 件 系 统 也 算是 一 种 驱动 ， 内 核 为 每 个 卷 或 者 分 区 加 载 
对 应 的 文件 系统 驱动 之 后 ， 整 个 驱动 链 才 算 最 终 完结 ， 此 时 应 用 程序 
就 可 以 读 写 文件 了 。 当 然 如 果 不 使 用 文件 系统 ， 那 么 可 以 把 驱动 链 终 
止 在 卷 一 层 ， 甚 至 LUN 一 层 ， 应 用 程序 可 以 通过 内 核 来 直接 访问 到 底 
层 设 备 ， 比 如 对 块 设备 或 者 裸 设 备 的 IO 操作 。 


如 图 19-63 所 示 ， 左 边 为 Windows 下 的 一 张 PCI 接 口 的 SCSI 卡 的 驱 
动 链 ， 右 侧 为 一 个 PCI 接 口 的 IDE 卡 的 驱动 链 。 
图 19-63 ”Windows 下 的 驱动 链 示 意图 
对 于 左 侧 的 SCSI 驱 动 链 ， 系 统 是 按照 如 下 过 程 操 作 的 。 


(1) 由 于 系统 中 有 多 个 PCI 总 线 ， 总 线 驱 动 通 过 总 线 控制 器 发 现 
所 有 总 线 之 后 ， 会 为 每 个 PCI 总 线 创建 一 个 PDO (Physical Device 
Object) 对象， 并且 再 创建 一 个 FDO (Function Device Object) 对 象 表 


示 这 个 设备 (此 处 为 PCI 总 线 ) 具体 功能 将 由 总 线 驱 动 来 负责 。 图 中 
的 最 底层 即 为 其 中 一 个 PCI 总 线 的 FDO。 


(2) 总 线 驱 动 扫 描 这 个 总 线 上 的 所 有 设备 ， 感 知 到 了 两 个 PCI 设 
备 ， 一 个 IEEE 1394 适 配 卡 (在 此 不 介绍 ) 和 一 个 SCSI 适 配 卡 。 所 以 总 
线 驱 动 为 这 两 个 设备 分 别 创建 各 自 的 PDO， 由 于 总 线 驱 动 不 知道 如 何 
使 用 这 两 个 设备 ， 所 以 不 能 为 其 创建 FDO。 


(3) 以 SCSI 适 配 卡 为 例 ， 内 核 将 SCSI Port/Miniport 驱 动 ， 也 就 是 
SCSI 控 制 器 驱动 加 载 到 其 PDO 上 ， 并 同时 生成 一 个 针对 这 个 设备 的 
FDO， 即 功能 性 对 象 ， 意 即 加 载 了 SCSI 控 制 器 驱动 后 这 个 设备 自身 的 
功能 就 可 以 被 操作 系统 使 用 了 。 SCSI 控 制 器 驱动 ， 也 就 是 
Port/Miniport 驱 动 被 加 载 之 后 ， 就 可 以 从 这 个 SCSI 卡 后 端 所 连接 的 
SCSI 总 线 感知 到 具体 的 SCSI Target 设 备 了 。 本 例 中 SCSI 总 线 上 连接 了 
一 块 磁盘 和 一 个 CDROM 光 驱 ， 所 以 驱动 为 这 两 个 设备 创建 了 各 自 的 
PDO。 由 于 SCSI 控 制 器 驱动 只 负责 SCSI 总 线 的 维护 以 及 向 SCSI Target 
设备 发 送 和 接收 数据 ， 并 不 知道 如 何 使 用 这 些 SCST 设 备 ， 也 并 不 知道 
向 其 发 送 的 数据 的 具体 内 容 和 格式 ， 所 以 不 能 为 这 些 设备 创建 FDO， 
这 个 工作 将 由 更 上 层 驱 动 完 成 。 


(4) 在 CDROM 设 备 的 PDO 之 上 ， 系 统 加 载 了 一 个 Audio Filter 
Driver， 即 音频 过 滤 驱 动 。 过 滤 驱 动作 为 一 个 夹层 角色 存在 ， 可 以 插 
入 任意 两 层 常规 驱动 之 间 而 不 改变 夹 着 它 的 上 下 两 层 驱 动 间 的 接口 。 
关于 过 滤 驱 动 将 在 下 文 介绍 。 


(5) 此 时 操作 系统 已 经 发 现 了 一 块 硬盘 和 一 个 CDROM 光 驱 ， 为 
了 使 用 这 两 个 设备 ， 操 作 系 统 必须 要 加 载 针 对 它们 的 功能 性 驱动 。 针 
对 磁盘 设备 ， 内 核 加 载 了 Disk Class Driver; 针对 CDROM 光 驱 ， 内 核 


加 载 了 CDROM Class Driver。 Class Driver 的 意思 即 “ 类 驱动 ”>， 也 就 是 
说 针对 任何 磁盘 设备 ， 只 要 是 磁盘 ， 不 管 是 哪个 厂家 生产 的 什么 规格 
的 磁盘 ， 统 统 属于 磁盘 类 ， 它 们 都 可 以 使 用 同一 个 驱动 程序 来 行使 它 
们 的 功能 ， 除 非 有 一 些 厂商 自行 设计 的 特殊 功能 ， 则 需要 加 载 对 应 的 
Miniclass 驱 动 。 类 似 的 Class Driver 还 有 诸如 CDROM、 磁带 机 、 机 械 
手 、 显 卡 、 键 盘 、 鼠 标 等 。 


(6) 至 此 ， 操 作 系 统 已 经 可 以 使 用 对 应 的 设备 了 ， 比 如 读 写 等 操 
作 。 但 是 硬盘 是 可 以 分 区 的 ， 针 对 每 一 个 分 区 ， 内 核 还 会 再 次 加 载 一 
层 Disk Class Driver。 


(7) 最 后 ， 本 例 中 还 包括 了 一 个 磁盘 加 密 过 滤 驱 动 ， 这 个 驱动 的 
作用 是 在 文件 系统 驱动 《本 例 中 未 表示 ， 位 于 磁盘 加 密 过 滤 驱 动 之 
上 ) 和 Disk Class Driver 之 间 将 自身 插入 ， 截 取 文 件 系 统 本 应 该 直接 发 
向 磁盘 驱动 的 IO 请 求 ， 加 密 其 中 的 数据 ， 然 后 将 加 密 的 数据 除了 内 容 
之 外 ， 原 封 不 动 地 发 送 给 磁盘 驱动 。 现 在 很 多 的 加 密 程序 都 是 使 用 底 
层 过 滤 驱 动 来 实现 的 。 


对 于 IDE 适 配 卡 的 驱动 链 加 载 过 程 可 以 参考 SCSI 适 配 卡 的 过 程 ， 
二 者 大 同 小 异 ， 这 里 不 再 描述 。 


2。Windows 系 统 下 的 IO 设备 驱动 类 型 


Windows 系 统 将 IO 设备 的 驱动 程序 按照 层次 分 为 了 两 大 类 ， 即 上 
层 的 Class Driver 以 及 下 层 的 Port Driver。 关 于 这 两 种 驱动 程序 的 角色 
和 作用 ， 上 文 已 经 做 了 简要 介绍 。 这 里 将 进一步 介绍 这 两 种 驱动 的 具 
体 功 能 项 目 。 


如 图 19-64 所 示 为 这 两 种 驱动 的 层次 示意 图 。 先 来 看 左 侧 部 分 ， 应 
用 程序 想 要 执行 某 些 IO 操作 ， 它 可 以 调用 window 提 供 的 API， 比 如 打 
开 某 个 文件 读 写 等 ，Window API 会 自动 向 下 调用 对 应 的 内 核 层 驱动 比 
如 文件 系统 驱动 来 执行 对 应 的 功能 ; 应 用 程序 也 可 以 调用 用 户 态 驱 动 
程序 〈 在 用 户 态 执行 的 驱动 程序 ) 来 执行 一 些 高 层 的 、 可 以 在 用 户 态 
就 完成 的 功能 ， 如 果 不 能 在 用 户 态 完成 ， 那 么 用 户 态 驱动 会 自行 调用 
Windows API 执 行 对 应 操作 。 一 些 打 印 机 驱动 程序 就 属于 用 户 态 驱动 
程序 。 


图 19-64 ”设备 驱动 层次 和 类 型 


内 核 为 多 数 的 设备 类 型 都 提供 了 Class Driver 来 实现 基本 功能 ， 比 
如 鼠标 ， 不 管 鼠 标 有 几 个 其 他 按键 ， 其 基本 的 功能 无 非 就 是 左右 键 和 
滚轮 ，Class Driver 就 提供 了 对 这 些 功 能 的 支持 。 至 于 鼠标 上 的 其 他 按 
键 以 及 其 他 一 些 更 高 级 的 功能 ， 可 以 由 厂商 提供 各 自 的 Miniclass 
Driver 或 者 Filter Driver 来 单独 实现 这 些 功能 。Class 与 Miniclass 互 相 链 
接 以 共同 完成 设备 的 全 部 功能 。Port Driver 则 是 专门 用 来 驱动 各 种 外 部 
总 线 控制 器 的 ， 比 如 USB、IDE、SCSI 等 ; 同样 ，Miniport Driver 则 是 
用 来 驱动 这 些 控制 器 上 的 一 些 厂商 特定 的 功能 的 ， 不 同 厂 商 可 能 有 不 
同 的 特殊 功能 ， 所 以 不 同 厂 商 需 要 有 不 同 的 Miniport Driver。 最 底层 则 
是 主机 内 部 总 线 驱 动 ， 比 如 PCIE 总 线 驱 动 。 


再 来 看 右 侧 ， 这 个 图 表示 IO 在 这 些 驱 动 层次 之 间 的 流动 。 上 层 将 
IRP 〈 见 本 章 前 文 ) 发 向 下 层 的 Storage Class Driver，Class Driver 将 IRP 
转换 为 SRB (SCSI Request Block) ，SRB 中 包含 了 CDB (Command 
Description Block) 以 及 其 他 一 些 内 容 (有 人 可 能 不 解 ，Storage Class 
Driver 对 任何 设备 都 使 用 SCSI 协 议 集 么 ”底层 如 果 是 AIA 磁 盘 的 话 怎 


么 办 呢 ? 是 的 ， 这 个 问题 我 们 下 文 再 描述 ) ，Port Driver 接 收 到 SRB 之 
后 ， 对 SRB 进 行 分 析 ， 并 将 SRB 转 换 为 外 部 总 线 所 要 求 的 指令 格式 发 
送 给 对 应 的 设备 。 


下 面 我 们 对 每 层 Driver 进 行 分 别 介绍 。 
3. Storage Class Driver 


Class Driver 是 驱动 某 个 最 终 设备 的 功能 性 驱动 。Windows 针 对 所 
有 的 硬盘 设备 ， 不 管 其 是 SCSI 还 是 IDE 或 者 U 盘 或 者 SSD， 亦 或 是 磁盘 
阵列 的 LUN、 卷 等 ， 都 使 用 相同 的 驱动 程序 ;同样 ， 针 对 其 他 大 类 的 
设备 ， 也 都 使 用 相同 的 驱动 。 所 以 称 其 为 "Class Driver”。 Storage 
Class Driver 专 指 存 储 类 的 驱动 ， 比 如 Disk Class Driver、CDROM Class 
Driver、 Tape Class Driver 等 。 Class Driver 由 操作 系统 自身 提供 ， 不 需 
要 广 商 针对 自己 的 设备 再 开发 完整 的 一 套 Class Driver， 如 果 某 个 设备 
的 功能 并 不 能 由 操作 系统 自 带 的 Class Driver 来 驱动 ， 那 么 厂商 只 需要 
开发 一 个 附属 在 主 Class Driver 上 的 额外 驱动 模块 即 可 。 这 个 额外 的 小 
模块 就 叫做 Miniclass Driver， 下 文中 将 会 描述 。 


Class Driver 处 理 上 层 (比如 用 户 程序 或 者 文件 系统 驱动 等 ) 下 发 
的 IRP， 根 据 IRP 的 请 求 内 容 ， 将 请 求 转换 成 包含 有 SCSI CDB 的 SCSI 
Request Block (SRB) ， 然 后 将 SRB 发 向 下 层 驱 动 ， 比 如 SCSI Port 
位 于 其 下 的 过 滤 驱 动 (如 果 有 的 话 ) 。Storage Class Driver 

一 使 用 SCSI 指 令 集 来 操作 底层 设备 ， 如 果 底 层 物 理 设 备 并 非 SCSI 
i 比如 ATA 人 磁盘， 那么 会 由 位 于 Class Driver 下 层 的 ATA Port Driver 

(下 文 介绍 ) 将 SCsI 协 议 映射 翻 译 为 ATA 协 议 指 令 。 此 外 ，Class 
Driver 也 并 不 关心 底层 设备 对 应 的 总 线 物理 地 址 ， 底 层 寻 址 的 操作 由 
Port Driver 执 行 。 


Storage Class Driver 需 要 执行 的 具体 功能 如 下 。 


为 每 个 具体 设备 生成 FDO 对 象 。 如 果 设 备 上 存在 分 区 ， 则 对 每 
个 分 区 生成 PDO 和 FDO。 

获取 每 个 设备 的 属性 信息 ， 比 如 是 否 支持 Write Cache 及 其 模 
式 、 最 大 传输 单位 等 。 

处 理 上 层 下 发 的 IRP 请 求 ， 将 IRP 映 射 翻译 成 SRB 并 继续 下 发 。 
维护 每 个 请 求 的 超时 机 制 。 

根据 底层 反馈 的 所 能 接受 的 每 个 请 求 的 最 大 传输 单元 ， 将 上 层 
的 IRP 请 求 的 数据 长 度 分 割 为 底层 所 能 接受 的 值 。 
错误 处 理 机 制 ， 处 理 底层 所 不 能 处 理 的 错误 ， 比 如 SCSI Check- 
Condition 等 。 


1) SCSI PassThrough 支 持 


Storage Class Driver 支 持 SCSI PassThrough， 即 用 户 程序 可 以 直接 
生成 CDB 而 发 向 底层 设备 ，Class Driver 收 到 上 层 的 CDB 之 后 ， 会 做 一 
定 的 格式 检查 ， 判 断 为 正确 格式 之 后 ， 还 需要 检查 IO Size， 如 果 大 于 
底层 规定 的 最 大 值 ， 则 做 分 割 操作 ， 然 后 直接 将 CDB 封 装 到 SRB 中 发 
送 给 Port Driver 处 理 。 


2) 关于 Command Queue 


对 于 Class Driver 层 ， 没 有 必要 对 所 有 上 层 发 来 的 IRP 做 Queue 处 
理 ， 因 为 Queue 的 处 理由 其 下 层 的 Port Driver 全 权 负 责 ，Class Driver 只 
管 将 上 层 的 IRP 翻 译 成 SRB 然 后 源源 不 断 地 向 Port Driver 的 Queue 里 填 
充 即 可 。Port Driver 会 为 每 个 LUN 分 别 创建 Queue， 比 如 SCSI Tagged 
Queue。 当 某 个 LUN 的 IO 发 生 错 误 时 ，Port Driver 会 将 对 应 的 Queue 进 


行 Freeze， 并 将 自己 无 法 处 理 的 错误 报告 给 Class Driver， 由 后 者 进行 
处 理 。 Class Driver 会 查询 底层 设备 所 支持 的 Queue 方 式 ， 如 果 支 持 
Queue， 则 Class Driver 会 在 每 个 SRB 中 设置 对 应 的 标记 告诉 Port Driver 
本 次 IO 可 以 使 用 对 应 的 Queue ， 并 且 还 附带 了 对 本 次 IO 进行 SCSI 
Command Queue 的 策略 信息 ， 比 如 : SRB_SIMPLE_TAG_REQUEST 
(SCST 控 制 器 可 以 将 这 个 IO 重 排 到 任何 位 置 ) 、 
SRB_HEAD_OF_QUEUE_TAG_REQUEST (控制 器 必须 将 这 个 IO 放 到 
队列 首 处 ， 首 先 执 行 ) 或 者 SRB_ORDERED_QUEUE_TAG_REQUEST 
(SCSI 控 制 器 必须 将 这 个 IO 放 到 队列 尾部 按照 顺序 执行 ) 。 


3) 关于 获取 设备 属性 信息 


Class Driver 需 要 获取 它 所 驱动 的 设备 〈 此 处 其 实 是 获取 SCSI 或 者 
IDE、1394 等 控制 器 和 具体 的 SCSUIDE 设 备 的 属性 信息 ， 因 为 Class 
Driver 下 层 是 Port Driver，Class Driver 发 出 的 SRB 必 须 服从 Port Driver 
的 要 求 ， 也 就 是 服从 SCSWIDE 控 制 器 的 要 求 ， 同 时 也 要 符合 最 终 设备 
的 要 求 ) 的 属性 信息 ， 这 些 属性 信息 包括 : 


=。 SCSIIDE 控 制 器 的 最 大 传输 单元 ， 即 每 次 IO 的 最 大 可 读 写 的 扇 
区 长 度 ; 

"。 是 否 SCSIIDE 控 制 器 在 DMA 时 可 以 读 写 不 连续 的 物理 内 存 
Page， 数 量 是 多 少 ， 

" SCSIIDE 控 制 器 对 Buffer 边 界 对 齐 的 要 求 信息 ; 

a SCSIIDE 控 制 器 是 否 支持 SCSI 的 TCQ 以 及 是 否 支 持 基于 每 个 
LUN 的 TCQ ; 


SCSIIDE 控 制 器 是 否 支持 WriteBack 模 式 的 写 缓 存 ， 具 体 类 型 是 什 
么 ， 比 如 是 否 有 电池 保护 等 。 


4) 关于 设备 写 缓存 的 模式 


一 些 外 部 设备 比如 RAID 适 配器 、SCSI 适 配器 ， 都 具有 自己 的 缓 
存 。 这 些 缓存 如 果 用 来 做 预 读 操作 ， 那 么 没有 任何 问题 ， 但 是 如 果 用 
Write Back 的 模式 来 缓存 号 数据 ， 那 么 在 这 些 适 配 卡 没有 电池 保护 其 
上 缓存 的 情况 下 ， 一 旦 发 生 供电 故 障 或 者 Down 机 ， 则 被 缓存 的 写 数据 
就 会 永久 丢失 。Class Driver 层 有 必要 知道 底层 设备 是 否 支持 Write 
Back 缓 存 ， 如 果 支 持 ， 是 否 有 电池 保护 等 信息 。 对 于 没有 电池 保护 的 
WriteBack 模 式 的 设备 缓存 ，Class Driver 有 两 种 解决 办 法 。 第 一 种 是 使 
用 SCSI SYNCHRONIZE CACHE 指 令 来 强制 让 设备 将 缓存 内 的 所 有 
Dirty 写 数据 写 入 存储 介质 中 ， 这 种 方法 需要 消耗 很 多 的 设备 自身 的 处 
理 资 源 ， 因 为 设备 一 旦 接收 到 这 个 指令 ， 就 需要 全 力 以 赴 地 执行 。 而 
写 盘 动作 是 一 个 慢 速 动 作 ， 在 执行 这 个 动作 期 间 ， 新 进入 的 写 IO 可 能 
得 不 到 处 理 ， 而 上 层 在 此 时 的 反应 就 仿佛 设备 挂 死 一 般 。 如 果 频 繁 地 
使 用 SCSI SYNCHRONIZE CACHE 指令， 系统 整体 性 能 将 会 非常 差 。 
第 二 种 方法 则 是 针对 每 个 写 IO 使 用 Write Through 标 记 (FUA 置 1， 即 
Force Unit Access) ， 这 样 ， 设 备 在 从 总 线 上 接收 这 个 IO 请 求 写 的 数据 
入 缓存 的 同时 ， 将 数据 写 向 介质 中 ， 只 有 成 功 写 入 了 介质 ， 才 返回 完 
成 信号 ， 而 写 入 完成 后 ， 缓 存 中 的 这 些 数 据 将 被 视 作 预 读 内 容 处 理 。 
使 用 Write Through 的 方法 虽然 也 不 能 提高 写 性 能 ， 但 是 其 相对 SCSI 
SYNCHRONIZE CACHE 指 令 的 方式 来 讲 节约 了 设备 处 理 资源 。 有 些 
设备 并 不 支持 FUA， 但 是 它 对 待 每 个 与 IO 都 会 做 Write Through 处 理 ， 
也 就 是 原生 的 WT 模式 写 缓 存 。 而 有 些 设备 则 带 有 电 闻 为 其 缓存 供 
电 ， 那 么 这 时 候 ，Class Driver 就 没有 必要 发 起 Write Though 或 者 SCSI 
SYNCHRONIZE CACHE 了 。 


Class Driver 使 用 IOCTL_ STORAGE QUERY PROPERTY 功 能 函数 
来 向 Port Driver 查 询 设备 属性 信息 ， 其 中 就 有 关于 写 缓存 的 信息 ， 具 体 
写 缓存 信息 如 下 。 


" 设备 是 否 具有 写 缓 存 。 

" 设备 具有 何 种 写 缓 存 类 型 。 又 包含 两 种 具体 类 型 : Write Back 
和 原生 Write Through。 

。 设备 是 否 支持 SCSI SYNCHRONIZE CACHE 指 令 。 

" 设备 是 否 具有 电池 保护 。 


提示 : 我 们 在 Linux 系 统 启动 的 时 候 经 常会 看 到 一 些 信息 ， 
比如 在 发 现 某 个 sd 设备 的 时 候 ， 后 面 会 跟着 一 条 描述 信息 ， 
比如 “Write Through”， 这 就 表示 Linux 下 的 块 设 备 驱 动 探寻 到 
了 上 有 具体 设备 所 支持 的 写 缓存 方式 。 


5) 关于 Class Driver 层 的 请 求 重 试 


大 部 分 的 IO 请 求 重 试 都 是 由 Port Driver 来 做 的 ， 比 如 数据 校 验 错 
误 、 仲 裁 超时 、Target 设 备 繁忙 、 总 线 Reset 等 底层 错误 。 针 对 这 些 底 
层 错 误 的 重 试 ， 需 要 由 Port Driver 负 责 ， 上 层 的 Class Driver 完 全 不 知 
道 也 不 关心 ， 如 果 Port Driver 重 试 多 次 后 依然 无 法 成 功 ， 从 而 向 Class 
Driver 报 告 ， 那 么 此 时 Class Driver 不 应 该 再 次 重 试 以 做 无 用 功 。 然 
而 ， 一 旦 遇 到 一 些 上 层 逻 辑 的 错误 ， 比 如 Check Conditions 等 ， 那 么 此 
0 Driver 介 入 ， 解 决 对 应 的 错误 并 且 重 试 之 前 的 请 求 ， 由 

错误 发 生 之 后 ， 原 本 积压 在 Port Driver 的 Queue 队 列 中 的 所 有 IO 请 求 
。 等 待 错 误 恢 复 ， 所 以 Class Driver 需 要 将 重 试 的 请 求 标记 
SRB_HEAD OF QUEUE TAG 


_REQUEST 以 便 Port Driver 优 先 执行 这 个 IO 请 求 。 
4. Storage Miniclass Driver 


上 文中 曾经 简要 描述 过 ，Storage Miniclass Driver 的 角色 类 似 一 种 
Agent Driver， 用 来 针对 特殊 的 设备 实现 对 应 的 特殊 功能 。 这 些 功 能 
于 不 是 普遍 的 每 个 三家 都 来 实现 ， 所 以 在 Class Driver 中 并 不 包含 ， 厂 
商 自 行 开 发 Miniclass Driver 然 后 将 其 与 主 Class Driver 链 接 起 来 形成 一 
个 驱动 对 而 存在 。 


5. Storage Port Driver 


Port Driver 是 位 于 Class Driver 之 下 的 一 层 驱 动 程序 ， 同 样 也 是 由 
Windows 操 作 系统 自身 提供 。Port Driver 是 用 来 驱动 各 种 外 部 总 线 控制 
器 的 ， 而 外 部 总 线 控 制 器 一 般 又 位 于 主机 总 线 之 上 ， 也 就 是 表现 为 一 
块 接 入 主机 PCIE 等 总 线 的 适 配 卡 ， 所 以 说 Port Driver 又 可 以 被 看 做 是 
这 些 适 配 卡 的 驱动 程序 。 如 果 这 些 适 配 卡 是 专门 用 于 适 配 与 存储 有 关 
的 总 线 或 者 设备 的 话 ， 那 么 就 将 这 些 Port Driver 称 为 Storage Port 


Drivero 


所 有 类 型 的 基于 SCSI 的 存储 适配器 ， 不 管 它 是 SCSI 卡 、FC 卡 还 是 
ISCSI 卡 ， 亦 或 是 RAID 卡 ， 它 们 对 外 提供 的 总 是 一 个 或 者 多 个 SCSI 
Target 设 备 以 及 LUN， 上 层 的 驱动 比如 Class Driver 不 管 这 些 LUN 是 通 
过 IP 网 络 达到 、 通 过 FC 网 络 达到 还 是 通过 SCSI 总 线 网 络 达到 ， 统 一 对 
待 。 这 也 就 是 适配器 ”三 个 字 的 本 质 所 在 ， 适 配 的 就 是 这 种 不 同 的 后 
端 网 络 传输 方式 。 既 然 这 些 适 配器 都 对 外 具有 统一 性 ， 那 么 它们 的 驱 
动 程序 就 一 定 具 有 统一 性 ， 这 个 被 统一 的 驱动 程序 就 是 Windows 自 带 
的 Storage Port Driver。 Port Driver 将 大 部 分 统一 的 功能 驱动 编写 好 ， 任 


何 适配器 厂商 只 需要 编写 实现 自己 特殊 功能 的 那 部 分 Miniport Driver 即 
可 ， 大 大 简化 了 复杂 度 以 及 工作 量 。 


适配器 驱动 与 适配器 硬件 的 工作 分 工 是 不 同 的 。 比 如 并 行 SCSI 适 
配器 和 它 对 应 的 Port Driver 之 间 ， 适 配器 上 的 SCSI 控 制 器 硬件 本 身 所 
做 的 工作 包括 SCSI 总 线 的 初始 化 扫描 、 数 据 传输 时 的 总 线 仲裁 等 ， 而 
其 对 应 的 Port Driver 所 做 的 工作 则 是 将 IO 请 求 提 交 给 控制 器 ， 控 制 器 
再 将 请 求 发 送 给 对 应 的 SCSI Target， 当 Target 执 行 完毕 返回 ACK 信 号 给 
控制 器 之 后 ， 控 制 器 将 这 个 信号 也 发 送 给 Port Driver 表 示 成 功 执行 ， 如 
果 Target 执 行 过 程 中 出 现 错误 ， 那 么 控制 器 会 将 错误 信息 传递 给 Port 
Driver 处 理 。 对 于 FC 适配器 ， 与 并 行 SCSI 控 制 器 所 不 同 的 地 方 就 是 由 
并 行 SCSI 变 为 了 FC 网 络 和 链 路 ， 所 以 一 切 FC 网 络 和 链 路 层 的 逻辑 都 
需要 由 FC 控制 器 硬件 来 完成 ， 而 网 络 链 路 所 承载 的 SCSI 上 层 人 逻辑 依然 
由 其 对 应 的 Port Driver 来 处 理 ，Port Driver 使 用 SCSI 上 层 人 逻辑 来 收发 数 
据 和 控制 Target， 与 并 行 SCSI 适 配器 所 不 同 的 只 是 FC 卡 的 Port Driver 可 
以 探测 并 且 控 制 一 些 FC 网 络 和 链 路 层 的 参数 ， 比 如 设置 WWN 或 者 更 
改 FC Port 类 型 等 控制 性 操作 。 同 理 ， 对 于 RAID 适 配器 等 也 都 是 这 个 
道理 。 


在 Windows 中 提供 三 种 Storage Port Driver ， 分 别 是 : SCSI Port 
Driver (SCSIPORT.sys 文 件 ) 、ATA Port Driver (ataport.sys 文 件 ) 以 
及 Storport Driver (storport.sys 文 件 ) 。 下 面 分 别 介绍 。 


1) SCSI Port Driver 


SCSI Port Driver 是 一 个 最 标准 、 最 传统 的 Windows 下 的 用 于 驱动 
基于 SCSI 协 议 的 适配器 的 Port Driver， 在 Windows 2003 之 后 的 版 本 ， 
SCSI Port Driver 被 Storport Driver (下 文 介绍 ) 取代 ， 后 者 专门 针对 高 


性 能 、 


高 带宽 存储 网 络 适配器 做 了 优化 操作 。 但 是 windows 2003 系 统 


中 依然 可 以 使 用 SCSI Port Driver。 


SCSI Port Driver 主 要 提供 如 下 功能 。 


提供 其 驱动 的 适配器 的 各 种 属性 信息 给 上 层 的 Class Driver， 比 
如 最 大 传输 单元 的 限制 以 及 Write Cache 属 性 信息 等 。 Class 
Driver 主动 向 Port Driver ( SCSIPORT Driver ) 发 送 
IOCTL_ STORAGE QUERY _PROPERTY 查 询 请 求 ，Port Driver 
则 将 所 有 信息 放 入 STORAGE_ADAPTER_DESCRIPTOR 中 返回 
给 Class Driver。 

确保 适 配 卡 所 连接 的 所 有 设备 处 于 正常 状态 ， 确 保 尚 未 加 电 的 
设备 不 被 上 层 逻 辑 所 使 用 。 

负责 提取 并 分 析 Class Driver 发 送 的 SRB 中 所 包含 的 CDB， 并 将 
CDB 封 装 为 对 应 物理 设备 可 识别 的 指令 。 

由 于 Class Driver 自 身 并 没有 请 求 队列 ， 针 对 每 个 IRP 请 求 都 是 
尽力 而 为 地 转换 为 SRB 而 直接 充 入 Port Driver 的 Queue 中 ， 这 个 
过 程 是 一 个 异步 过 程 ，Class Driver 无 须 等 待 上 一 个 请 求 的 完成 
信号 就 可 以 发 送 下 一 个 请 求 。Port Driver 处 必须 维护 请 求 队列 ， 
因为 底层 物理 设备 的 处 理 能 力 是 有 限 的 ， 而 且 可 能 随时 发 生 错 
误 ， 当 物理 设备 处 理 不 过 来 而 处 于 Busy 状 态 时 ，Port Driver 必 
须 等 待 并 且 重 试 ， 当 发 生 底 层 错 误 时 ， 同 样 也 需要 重 试 。 另 
外 ， 磁 盘 是 支持 Queue 的 ， 比 如 FC 和 SAS 所 支持 的 TCQ 以 及 
SATA 所 支持 的 NCQ，Queue 的 效果 可 参考 本 章 后 面 章节 。 这 一 
系列 的 逻辑 都 需要 Queue 的 存在 。 

管理 自身 的 请 求 队列 。 比 如 ， 当 发 生 上 层 人 逻辑 错误 (比如 
Check Conditions) 时 ，Port Driver 自 行将 对 应 设备 的 Queue 冻 结 


住 并 将 错误 返回 给 Class Driver 进 行 处 理 ， 等 待 处 理 结果 返回 来 
之 后 ，Port Driver 才 继续 执行 Queue 中 的 请 求 。 为 何 非 要 冻结 
呢 ? 一 个 IO 出 错 ， 并 不 影响 下 一 个 IO 的 执行 。 是 的 ， 但 是 第 
一 ，IO 之 间 是 有 上 层 逻 辑 关 联 的 ， 比 如 当前 发 生 错 误 的 IO 为 针 
对 LBA1 的 写 入 请 求 ， 而 队列 后 紧 跟 着 这 个 IO 之 后 的 是 针对 
LBA1 的 读 请 求 ， 如 果 在 这 个 写 IO 发 生 错 误 之 后 继续 执行 读 
IO， 那 么 读 取 到 的 就 是 时 序 上 不 一 致 的 数据 ; 第 二 ， 当 前 IO 发 
生 上 层 逻 辑 错 误 ， 那 么 就 意味 着 很 有 可 能 后 续 的 IO 都 会 发 生 错 
误 ，Class Driver 很 可 能 会 Cancel 掉 所 有 受 影响 的 10O 请 求 ， 此 时 
如 果 Port Driver 擅 自 处 理 ， 也 是 不 允许 的 ， 所 以 ， 错 误 之 后 的 
Queue 冻 结 是 有 必要 的 。 

除了 自身 管理 自身 的 队列 之 外 ，Port Driver 还 提供 接口 供 上 层 逻 
辑 来 控制 其 自身 的 Queue。 Class Driver 以 及 其 他 上 层 逻 辑 可 以 
向 Port Driver 发 送 Lock、Unlock、Freeze、 Unfreeze 请 求 以 操纵 
其 队列 。 比 如 上 层 使 用 SRB_FUNCTION_RELEASE_QUEUE 功 
能 调用 来 Unfreeze 已 经 被 东 结 的 Queue。 

当 发 生 底 层 错 误 时 ， 对 IO 请 求 进行 重 试 操 作 。 底 层 错 误 指 诸如 
数据 校 验 错误 、 传 输 时 错误 、 目 标 设备 繁忙 、 仲 裁 冲突 等 。 此 
外 ，Class Driver 会 为 每 个 IO 设 定 Timeout 计 时 器 。 但 是 Port 
Driver 对 其 有 更 灵活 的 处 理 ， 比 如 在 执行 IO 过 程 中 遇 到 链 路 中 
断 ， 那 么 Port Driver 此 时 可 能 会 暂停 Timeout 计 时 器 ， 当 链 路 恢 
复 时 再 继续 计时 。 

当 发 生 上 层 逻 辑 错 误 时 ， 将 错误 用 SCSI-2 Sense Status 格 式 封装 
并 传递 给 Class Driver，Class Driver 根 据 Sense 返 回 值 做 出 相应 处 
埋 ; 

提供 接口 支持 Miniport Drivero 


(1) 关于 SCSI Port Driver 与 Class Driver 之 间 的 接口 


在 前 文 描 述 Class Driver 时 曾经 给 出 了 一 些 这 二 者 之 间 应 该 互相 沟 
通 的 东西 ， 比 如 探 询 设备 属性 、SCSI Pass Through 支 持 、 分 割 IO 请 
求 、 传 输 SRB、 错 误 处 理 等 。 由 于 Class Driver 统 一 使 用 SCSI 协 议 指 令 
集 ， 而 SCSI Port Driver 也 是 专门 驱动 基于 SCSI 协 议 的 存储 适配器 的 驱 
动 ， 所 以 二 者 之 间 的 CDB 信 息 是 完全 一 致 的 。SCSI Port Driver 在 收 到 
Class Driver 下 发 的 SRB 之 后 ， 只 需要 将 其 中 包含 的 CDB 加 入 一 些 诸如 
端口 号 、 路 径 、 目 标 Targe ID、LUN ID 等 寻 址 信息 然后 透 传 至 SCSI 
Miniport Driver，Miniport Driver 骨 传递 给 适 配 卡 上 的 控制 器 即 可 。 如 
果 是 ATA Port Driver， 那 么 Port Driver 必 须 将 基于 SCSI 的 CDB 转 换 映 射 
成 对 应 的 ATA 指 令 从 而 发 送 给 IDE 控 制 器 。 


当 出 现 上 层 逻 辑 错 误 时 比如 Check Conditions ，Class Driver 会 要 求 
Port Driver 向 控制 器 发 起 Request Sense 请 求 ，Port Driver 接 收 到 要 求 之 
后 就 会 生成 一 个 Request Sense 措 令 并 将 其 发 送 给 SCSI 控 制 器 ，SCSI 挥 
制 器 再 根据 接收 到 的 CDB 中 的 目标 设备 地 址 和 ID 信息 ， 将 对 应 的 请 求 
通过 对 应 的 总 线 发 送 给 目标 设备 ， 目 标 设备 返回 的 Sense 数 据 中 包含 了 
具体 的 错误 代码 ，Port Driver 再 将 收 到 的 Sense 数 据 返 回 给 Class Driver 
处 理 。 


提示 : SCSI 控 制 器 不 是 一 个 存储 目标 设备 ， 它 只 是 为 所 有 
SCSI 总 线 上 的 目标 设备 提供 一 种 数据 传输 控制 的 一 个 关口 设 
备 ， 是 一 个 “总 线 控制 器 *"， 它 并 不 感知 具体 的 请 求 内 容 ， 只 
管 从 正确 的 目标 收发 数据 。 所 以 驱动 程序 必须 在 IO 请 求 中 附 
带 有 目标 设备 的 地 址 信息 。 


(2) 关于 SCSI Port Driver 与 SCSI Miniport Driver 之 间 的 接口 


二 者 之 间 通 过 一 系列 具体 的 功能 函数 以 及 回调 等 来 实现 沟通 ， 有 具 
体 细节 不 做 介绍 。 如 果 底 层 的 SCSI 适 配器 支持 Tagged Command Queue 
(TCQ) ， 那 么 Port Driver 会 将 自身 Queue 中 的 请 求 异步 地 批量 发 送 给 
Miniport Driver，Miniport Driver 也 同样 会 异步 地 将 请 求 通过 硬件 总 线 
传递 给 SCSI 适 配 卡 ;如 果 适 配 卡 不 支持 任何 Queue 拷 术 ， 那 么 Port 
Driver 就 会 同步 地 将 请 求 发 送 给 Miniport Driver，IO 请 求 一 个 接 一 个 地 
执行 。 同 样 ， 在 目标 设备 与 SCSI 控 制 器 之 间 也 是 这 样 做 的 。 


(3) 关于 SCSI Port Driver 的 队列 管理 


当 出 现 底层 错误 时 ，SCSI Port Driver 将 对 应 目标 设备 的 Queue) 东 结 
以 等 待 Class Driver 做 出 处 理 。 当 Class Driver 需 要 对 目标 设备 做 一 些 影 
响 较 大 的 设置 更 改 时 ， 比 如 修改 目标 设备 的 电源 状态 ， 会 要 求 Port 
Driver 将 Queue 锁 住 不 再 执行 ， 然 后 将 对 应 的 修改 设置 的 请 求 发 送 到 
Port Driver ， 这 个 请 求 中 带 有 Bypass Queue 的 标记 ， 所 以 此 时 虽然 
Queue 被 锁 住 ， 但 是 Port Driver 根 据 这 个 标记 依然 会 将 请 求 发 送 到 对 应 
的 目标 设备 ， 完 成 之 后 ，Class Driver 会 对 Queue 进 行 Unlock 以 恢复 正 
常 执行 状态 。 上 层 驱 动 比如 Class Driver 可 以 在 下 发 的 SRB 中 将 
SRB_FUNCTION_FLUSH_QUEUE 置 位 以 要 求 Port Driver 对 其 Queue 中 
的 所 有 请 求 进行 Flush 操 作 ，Port Driver 接 收 到 这 个 请 求 之 后 ， 会 将 当 
前 Queue 中 的 所 有 请 求 执行 完毕 ， 并 且 还 命令 SCSI 控 制 器 或 者 RAID 卡 
将 它们 自身 的 Cache 中 的 Dirty Data 写 入 磁盘 。 


2) ATA Port Driver 


在 Windows NT 4.0 时 代 ，AIA 设 备 的 驱动 是 作为 一 个 附属 于 SCSI 
Port Driver 的 Miniport Driver 实 现 的 (atapi.sys 文 件 ) ， 这 个 Miniport 
Driver 负 责 将 SRB 转 换 为 ATA 协 议 指令 。 到 了 Win 2000 和 Win XP 时 代 ， 


这 个 Miniport Driver 脱 离 了 SCSI Port Driver ， 并 且 被 分 离 成 为 两 个 层 
次 ， 位 于 Class Driver 之 下 的 一 层 为 IDE Port Driver (atapi.sys 文 件 ) ， 
专门 负责 管理 IDE 控 制 器 的 不 同 IDE 通 道 以 及 翻译 SRB 为 AIA 指 令 ， 其 
再 之 下 的 一 层 为 IDE Controller Driver (pciidex.sys 文 件 ) /Minidriver 

(pciide.sys 文 件 ) 对 ， 专 门 负责 驱动 IDE 控 制 器 硬件 。 到 了 Windows 
Vista 及 之 后 的 时 代 ，ATA 设 备 驱 动 又 被 做 了 一 些 更 改 ， 这 里 就 不 介绍 
下 局 


3) Storport Driver 


Storport Driver (storport.sys 文 件 ) 是 windows 2003 及 以 后 的 系统 
中 用 来 替代 SCSI Port Driver 的 。 Storport Driver 在 性 能 和 接口 上 做 了 一 
些 改 进 ， 更 加 适合 于 诸如 RAID 卡 以 及 FC 卡 等 高 性 能 高 带宽 的 存储 IO 
适配器 。 Storport Drver 相 对 SCSI Port Drver 在 接口 方面 的 改动 很 小 ， 所 
以 ， 厂 商 自 开发 的 SCSI Miniport Driver 升 级 到 Storport Miniport Driver 
也 是 比较 容易 的 。 


Storport Driver 相 对 于 SCSI Port Driver 的 最 大 改进 就 是 Storport 
Driver 与 Storport Miniport Driver 之 间 的 接口 由 原来 的 同步 变 为 了 异 
步 ， 即 使 物理 设备 不 支持 Queue。 而 SCSI Port Driver 只 有 在 物理 设备 支 
持 Queue 的 时 候 才 异步 地 向 Miniport Driver 发 送 IO 请 求 。 其 次 ，Storport 
Miniport Driver 不 再 需要 在 中 断 与 IO 发 起 之 间 保 持 同步 ， 二 者 可 以 各 干 
各 的 ， 所 以 类 似 一 种 全 双 工 模式 。Storport Port Driver 使 用 Push 方 式 将 
IO 强行 推送 给 Miniport Driver ， 而 SCSI Port Driver 则 靠 Miniport Driver 
每 执行 完 一 个 IO 后 从 Port Driver 的 Queue 中 将 IO 请 求 Pull 过 来 执行 。 


另外 ，Storport Driver 在 Queue 管 理 方 面 也 有 提升 ，Storport Driver 
为 每 个 LUN 维 护 一 个 Queue，Queue 最 大 深度 为 254， 即 Queue 中 可 以 排 


有 254 个 尚 待 处理 的 IO 请 求 ， 如 图 19-65 所 示 。 


19-65 ”Storport 对 Queue 的 处 理 


另外 ， 当 出 现 目标 设备 繁忙 的 错误 时 ，SCSI Miniport Driver 不 会 
向 SCSI Port Driver 报 告 这 个 状态 而 只 会 自行 重 试 发 送 IO 请 求 ，Storport 
Driver 则 允许 Storport Miniport Driver 报 告 Busy 状 态 ， 从 而 Storport 
Driver 会 暂停 向 Miniport Driver 发 送 IO 请 求 。 


使 用 Storport Driver 有 一 些 其 他 限制 ， 这 里 就 不 再 介绍 了 。 
4) Storage Miniport Driver 


在 Windows 系 统 下 ， 我 们 常见 的 RAID 卡 、FC 卡 、SCSI 卡 、iSCSI 
卡 的 驱动 程序 其 实 几 乎 都 是 Miniport 这 种 架构 ， 这 些 卡 件 的 功能 区 别 
体现 在 其 后 端 所 连接 的 总 线 方式 。 比 如 SCSI 连 接 的 直接 就 是 最 原始 的 
并 行 SCSI 链 路 ， 而 FC 卡 则 是 连接 了 FC 网 络 ，iSCSI 当 然 就 是 连接 了 IP 
网 络 了 ， 至 于 RAID 卡 ， 其 实 只 是 在 上 面 罗 列 的 任何 一 种 卡 上 附带 有 
RAID 控 制 器 而 已 ， 加 了 一 层 虚 拟 化 操作 。 前 文 曾经 说 过 ， 这 些 适 配器 
本 是 同根 生 ， 其 驱动 也 具有 统一 性 ， 但 是 每 种 设备 不 可 能 都 一 样 ， 总 
有 一 些 区 别 于 其 他 设备 的 细 化 功能 。 而 这 些 功能 上 的 区 别 ， 到 了 软件 
层面 就 体现 在 Miniport Driver 上 ， 而 位 于 Miniport Driver 上 面 的 所 有 软 
件 层次 模块 看 到 的 其 实 都 是 同样 的 东西 。 


Miniport Driver 表 现 为 一 个 DLL 文 件 ， 它 与 Port Driver 进 行动 态 链 
接 。 针 对 每 种 Port Driver，Miniport Driver 又 可 以 分 为 SCSI Miniport 
Driver、 Storport Miniport Driver 和 ATA Port Miniport Drivero 


Miniport Driver 需 要 执行 的 部 分 任务 包括 : 


" 发 现 适配器 并 探寻 其 各 种 属性 ; 
" 初始 化 适配器 ，; 

" 执行 数据 IO 过 程 ; 

ma 处 理 中 断 、 总 线 Reset 等 事件 ; 
= 维护 超时 计时 器 。 


5) Storage Filter Driver 


过 滤 驱 动 泛 指 插入 某 两 个 驱动 层次 之 间 ， 用 自己 设 定 的 处 理 过 程 
来 改变 原 有 的 IO 内 容 或 者 路 径 或 者 丢弃 某 些 符 合 设 定 条 件 的 IO 请 求 的 
一 种 特殊 驱动 程序 。 过 滤 驱 动 由 于 插入 在 两 层 原 有 驱动 之 间 ， 所 以 它 
必须 适 配 上 下 层 ， 让 上 下 层 都 感觉 不 到 它 的 存在 。 


典型 的 例子 ， 比 如 键盘 上 的 一 些 自 定义 的 功能 键 、 按 键 组 合 等 ; 
或 者 文件 加 密 工 具 ， 它 能 入 Class Driver 之 上 和 Filesystem Driver 之 下 来 
发 挥 作 用 ; 再 比如 卷 镜像 软件 ， 它 插入 Port Driver 之 上 和 Class Driver 
之 下 ;还 有 存储 系统 中 常用 的 多 路 径 软 件 ， 也 是 一 种 过 滤 驱 动 。 


6. Linux 下 的 存储 系统 驱动 链 


1) SCSI 设 备 驱动 链 


上 文 介绍 了 Windows 下 的 Storage Driver 层 次 架构 ， 现 在 介绍 一 下 
Linux 下 的 层次 架构 。 其 实 Linux 下 的 存储 系统 驱动 程序 链 与 Windows 
下 的 主体 层次 大 致 是 一 致 的 ， 只 是 并 没有 Windows 下 那么 简洁 的 层次 
而 已 。 如 图 19-66 所 示 为 Linux 下 的 一 个 典型 的 驱动 链 层次 。 


图 19-66 ”Linux 下 的 SCSI 设 备 驱 动 链 


位 于 首 层 的 当然 是 UNIX 类 系统 的 著名 的 VFS 目 录 层 ， 这 个 就 不 用 
多 做 解释 了 。 


下 一 层 是 Solid File System 层 ， 其 中 Solid 为 作者 自行 选择 的 用 词 ， 
之 所 以 使 用 Solid 这 个 词 是 为 了 显示 出 与 VFS 目 录 层 的 本 质 区 别 。Solid 
FS 层 为 实 ， 表 现 为 阴 的 实质 基础 ，VFS 层 为 虚 ， 表 现 为 阳 的 生发 能 
量 ， 所 以 用 Solid 表 示 “ 阴 实 ”。Solid FS 层 可 以 是 任何 一 种 实质 的 文件 系 
统 比 如 EXT2/3 或 者 NTFS 等 。 


再 下 一 层 ， 就 是 系统 缓存 了 ， 全 局 的 Page Cache 缓 存 区 ， 可 
Prefetch 也 可 以 Write Back。 再 下 一 层 是 Generic Block Layer， 这 一 层 是 
FS 抽象 的 结束 ，FS 将 文件 IO 映射 为 Block IO 之 后 ， 就 要 发 送 到 Generic 
Block Layero 


再 往 下 就 是 各 个 块 设 备 的 驱动 层 ， 通 用 块 层 将 对 应 的 IO 请 求 发 送 
给 对 应 的 块 设 备 驱 动 ， 著 名 的 IO Scheduler 调 度 器 就 运行 在 此 层 ， 此 处 
调度 器 需要 一 个 Queue。 


再 往 下 是 一 个 公共 服务 层 ， 即 SCSI Middle Layer， 这 一 层 的 功能 
是 专门 处 理 SCSI 上 层 逻 辑 ， 比 如 数据 IO、 错 误 处 理 等 机 制 ， 还 负责 将 
上 层 的 块 IO 映射 翻译 成 对 应 的 SCSI 协 议 CDB， 然 后 发 向 其 下 层 的 SCSI 
Host Controller， 即 SCSI 控 制 器 驱动 ， 这 里 也 需要 有 一 个 Queue。 到 了 
这 里 ， 再 往 下 就 是 系统 总 线 和 外 部 总 线 、 适 配 卡 等 硬件 了 。 


如 果 非 要 将 Linux 下 驱动 链 与 Windows 下 的 做 类 比 的 话 ， 那 么 
Generic Block Layer 和 Block Device Driver Layer 以 及 SCSI Middle Layer 
这 三 者 合 起 来 提供 的 功能 相当 于 Windows 下 的 SCSI Class Driver; SCSI 
Host Controller Driver 就 相当 于 Windows 下 的 SCSI Port Driver 。 


Windows 下 的 存储 子 系统 驱动 链 中 只 有 一 个 Queue， 即 Port Driver 所 维 
护 的 Queue， 而 Linux 下 有 两 处 。 


下 面 详细 介绍 一 下 一 个 IO 请 求 在 Linux 内 核 中 的 流动 过 程 。 


(1) 用 户 程序 对 一 个 VEFS 目 录 对 象 (比如 /mntytest.file) 发 起 
Open0 操 作 。 


(2) 随后 进行 read0 操 作 ， 内 核 接 收 到 read0 请 求 之 后 ， 首 先进 入 
了 文件 系统 的 处 理 流 程 当 中 ， 文 件 系 统 入 口 为 generic file read0。 入 
口 函 数 判 断 本 次 IO 是 否 为 Direct IO ， 如 果 是 则 调用 
generic_file_direct_ IO0O 国 数 来 进入 DIO 流 程 ， 如 果 是 Buffered IO ， 则 调 
用 do_generic_file_read0 了 图 数 进入 Cache Hit 流 程 。do_generic_file_read0) 


其 实 只 是 一 个 外 壳 包 装 ， 其 内 部 其 实 是 do_generic_mapping_read()。 


(3) 文件 的 区 段 都 会 被 映射 到 Page Cache 中 对 应 的 Page 中 ， 这 个 
国 数 首先 检查 请 求 的 数据 对 应 的 Page 是 否 已 有 数据 填充 ， 如 果 有 ， 则 | 
Cache Hit ， 直 接 将 其 中 数据 返回 给 上 层 ; 如 果 未 命中 ， 则 调用 
readpage() 图 数 来 向 底层 发 起 一 个 块 请 求 ，readpage0 调用 了 
mpage_readpage()o 


(4) mpage_readpage() 又 调用 了 do_mpage_readpage() 团 数 来 创建 
一 个 bio 请 求 〈 即 Block IO， 这 个 bio 相 当 于 Windows 系 统 下 的 IRP) 。 


(5) 然后 接着 调用 mpage_bio_submitO 处理 这 个 bio 请 求 ， 
mpage_bio_submitO 其 实 调用 了 submit_bio0 函 数 将 bio 发 送 给 下 层 函 数 
generic_make_request()。 generic_make_redquestO 孜 数 为 通用 块 层 的 入 口 
疯 数 ， 这 个 冰 数 调用 make_request_fn() 义 数 将 bio 发 送 给 下 层 ， 也 就 是 
Block Device Driver 层 的 IO Scheduler 的 队列 中 。 


(6) make_request_fn0 了 图 数 为 块 设备 驱动 层 的 入 口 函 数 ， 也 是 IO 
Scheduler 的 入 口 函数 ， 这 个 函数 包装 了 _make_request(0) 国 数 ， 它 是 实 
现 IO Scheduler 的 调度 功能 的 主要 水 数 。 关 于 IO Scheduler 的 具体 功能 
将 在 下 文 介绍 。 


(7) IO Scheduler 通 过 调用 request_fn() 疯 数 从 而 将 bio 下 发 给 了 
SCSI 控 制 器 驱动 ，SCSI 控 制 器 驱动 程序 调用 相关 函数 将 这 个 bio 转 换 成 
SCSI 指 令 ， 然 后 调用 scsi_dispatch_cmd0 将 指令 发 送 给 对 应 的 SCSI 控 制 
器 硬件 。 


以 上 过 程 可 以 对 应 图 19-67 所 示 的 流程 图 来 理解 。 
图 19-67 Linux 系 统 块 设备 IO 流 程 图 
2) Linux 对 ATA 设 备 的 驱动 链 


如 图 19-68 所 示 ， 与 Windows 下 的 ATA Port Driver 类 似 ，Linux 也 使 
用 一 种 LibATA 库 来 负责 将 SCSI 协 议 转 换 为 AITA 协 议 并 发 送 给 ATA 控 制 
器 驱动 程序 。 


图 19-68 Linux 下 ATA 设备 驱动 链 
3) IO Scheduler 


IO Scheduler 是 Linux 下 专用 来 对 IO 进行 优化 的 一 个 模块 ， 所 有 针 
对 底层 存储 设备 的 IO 都 要 经 过 这 个 模块 的 优化 操作 ， 然 后 将 被 优化 之 
后 的 IO 顺序 地 放 到 底层 存储 控制 器 驱动 程序 的 Queue 中 ， 如 图 19-69 所 
示 。 


图 19-69 IO 调度 器 基本 架构 图 


IO Scheduler 首 先 要 做 的 优化 是 对 所 有 Block IO 进行 重新 排序 操 
作 ， 即 Reorder， 让 它们 按照 LBA 地 址 进行 排序 。 因 为 磁盘 的 磁头 臂 每 
执行 一 个 IO 就 至 少 需要 一 次 寻 道 操作 ， 如 果 将 上 层 无 序 的 IO 直接 发 给 
磁盘 执行 ， 那 么 磁头 臂 可 能 会 做 很 多 不 必要 的 来 回 摆动 ， 极 大 影响 IO 
性 能 ; 而 如 果 将 IO 预先 按照 LBA 地 址 排序 然后 再 发 给 磁盘 ， 那 么 磁头 
臂 就 可 以 持续 地 向 一 个 方向 寻 道 ， 避 免 了 摆 回 去 再 摆 过 来 的 浪费 。 


其 次 ，IO Scheduler 还 可 以 对 相 邻 LBA 地 址 的 同类 型 的 IO 请 求 进 行 
合并 操作 ， 即 Merge。 比 如 有 两 个 读 IO 先后 到 达 ， 第 一 个 的 起 始 LBA 
地 址 为 0， 长 度 1024， 第 二 个 的 起 始 LBA 为 1024， 长 度 3072， 则 IO 
Scheduler 就 可 以 将 这 两 个 IO 合并 成 一 个 起 始 地 址 为 LBA0、 长 度 为 
4096 的 大 读 IO。 当 然 ， 如 果 后 到 的 同类 型 的 IO 的 目标 地 址 与 之 前 的 某 
个 IO 地 址 完全 重合 ， 则 调度 器 会 直接 抛弃 之 前 的 IO ， 如 果 后 到 的 同类 
型 的 IO 与 之 前 的 IO 目标 地 址 有 交集 但 是 不 全 重合 ， 那 么 调度 器 会 取 并 
储 


0o 


另外 ， 既 然 IO Scheduler 对 IO 进行 了 有 区 别 的 对 待 ， 那 么 它 就 一 定 
要 在 区 别 的 同时 保证 每 个 IO 的 利益 ， 比 如 有 某 个 IO 其 目的 LBA 地 址 是 
一 个 在 一 段 时 间 内 比较 冷门 的 地 方 ， 一 般 IO 没 去 那里 的 ， 所 以 IO 
Scheduler 想 找 几 个 IO 和 它 做 伴 ， 以 减少 运费 ， 但 是 苦 耐 一 直 没 找到 ， 
那么 只 能 将 它 放 在 队列 里 等 着 ， 但 是 过 了 很 长 时 间 依 然 也 没 去 执行 
它 。 这 种 情况 IO Scheduler 需 要 尽量 避免 。 


还 会 发 生 另 外 一 种 情况 ， 即 有 些 IO 拉 帮 结 派 ， 专 横 跋 雇 得 很 ， 动 
辑 一 大 批 一 下 子 进来 排队 ， 弄 的 队列 里 被 它们 占 了 大 部 分 地 方 。 比 如 
在 程序 使 用 Buffered IO 模式 十 同步 IO 调用 的 时 候 ， 对 于 写 操作 的 执行 
总 比 读 操作 快 ， 因 为 写 操 作 永远 都 是 被 内 核 接受 并 且 数 据 被 复制 到 内 
核 缓存 后 就 返回 成 功 信 号 ; 而 读 则 不 行 ， 读 操作 在 缓存 未 命中 的 情况 


下 ， 必 须 从 存储 介质 中 读 出 并 且 返 回 给 程序 才 算 完成 ， 而 这 种 情况 下 
读 操 作 是 很 慢 的 ， 在 同步 IO 调用 情况 下 ， 读 操作 只 能 一 个 接 一 个 的 
来 ， 而 写 则 可 以 大 批 地 执行 。 其 次 ， 读 总 比 写 要 重要 ， 这 里 的 重要 是 
对 于 程序 自身 来 讲 的 ， 因 为 只 要 一 个 程序 发 起 读 操作 ， 就 证 明 它 需 
这 份 数 据 才能 够 做 出 下 一 步 动 作 ， 如 果 人 迟 返 不 给 它 这 份 数据 ， 那 么 它 
很 有 可 能 就 处 于 等 待 状态 ， 处 理 效率 和 吞吐 量 就 降低 了 。 但 是 程序 如 
果 发 起 写 操 作 ， 证 明 它 已 经 处 理 完了 这 些 数 据 需 要 将 它们 存 到 硬盘 ， 
而 如 果 述 迟 不 处 理 这 些 写 数据 ， 那 么 程序 的 效率 和 计算 否 吐 量 可 能 根 
本 不 会 受到 影响 或 者 受到 很 小 的 影响 ， 程 序 会 继续 读 入 数据 、 处 理 计 
算 ， 然 后 党 试 写 入 硬盘 ， 虽 然 此 时 写 入 的 时 候 有 积压 。IO Scheduler 必 
须 解决 这 个 问题 ， 即 * 读 钱 死 "问题 。 


同时 ， 在 多 个 用 户 进 程 同 时 发 起 IO 时 ， 不 管 是 读 还 是 写 ， 也 存在 
争 抢 问题 ， 有 些 进程 发 起 大 量 的 IO ， 而 有 些 则 发 起 很 少量 的 IO ， 此 时 
一 样 会 出 现 队列 争 抢 问题 。IO Scheduler 有 必要 本 着 公平 公正 的 原则 处 
理 。 


如 图 19-70 所 示 为 Linux 下 的 IO Scheduler 对 IO 进行 Merge 操 作 时 的 
基本 流程 。 其 中 FrontMerge 和 BackMerge 分 开 对 待 是 因为 Merge 之 后 必 
然 需要 Split， 调 度 器 根据 Front 和 Back 来 判断 被 Merge 的 IO 是 追加 在 之 
前 IO 的 后 面 还 是 被 贴 附 到 之 前 IO 的 前 面 ， 这 样 就 可 以 在 Split 的 时 候 根 
据 Front 或 Back 来 进行 Split 操 作 。 


图 19-70 IO 调度 器 对 IO 进行 Merge 时 的 流程 图 


在 Linux 2.6 内 核 中 ， 有 4 种 IO 调度 方式 : NOOP、 Deadline、 
Anticipatory、CFQ。 每 种 方式 的 侧重 点 不 同 ， 实 现 方式 也 不 同 ， 但 是 
基本 的 Merge 操 作 ， 这 4 种 调度 方式 都 会 执行 。 这 些 调度 方式 可 以 在 系 


统 运行 的 时 候 任意 更 改 ， 并 不 会 影响 IO 的 执行 。 下 面 简要 介绍 一 下 这 
4 种 调度 方式 。 


(1) NOOP 调 度 方式 


NOOP 调 度 方 式 可 以 说 并 没有 去 调度 什么 ， 而 只 是 将 所 有 IO 按照 
先进 先 出 的 顺序 进行 排队 ， 它 只 执行 Merge 操 作 ， 而 不 去 改变 IO 的 顺 
序 以 适应 磁头 臂 寻 道 。 如 果 底 层 存 储 介 质 为 机 械 硬 盘 ， 并 且 IO 属 性 为 
随机 IO 的 话 ， 那 么 使 用 这 种 方式 无 异 于 自 找 昔 吃 。 这 种 调度 方式 可 以 
说 是 专门 为 以 Flash 为 介质 的 存储 系统 而 生 的 ， 因 为 Flash 介 质 的 存储 系 
统 不 需要 机 械 寻 道 ， 所 以 是 否 重 排 1O 对 其 没有 任何 意义 ; 但 是 Merge 
IO 依然 具有 意义 ，Merge IO 任何 情况 下 都 具有 意义 。 不 对 IO 进行 重 
排 ， 带 来 的 好 处 是 极 大 地 节省 了 系统 资源 ， 包 括 内 存 和 CPU 资源 。 


(2) Deadline 调 度 方 式 


Deadline 调 度 方式 会 对 Queue 中 的 IO 进 行 Merge 和 重 排 操作 。 它 会 
创建 两 个 队列 和 两 个 表 ， 一 个 队列 是 按照 读 IO 的 LBA 起 始 地 址 进行 排 
序 的 读 IO 队 列 ， 与 其 对 应 的 有 一 个 按照 IO 进入 顺序 排列 的 FIFO 表 ， 用 
来 记录 队列 中 所 有 IO 的 进入 顺序 ; 同样 ， 对 于 写 IO 操 作 也 维护 这 样 一 
个 队列 和 一 个 表 。 常 规 情况 下 ， 调 度 器 将 IO 重 排 后 下 发 给 下 层 驱 动 执 
行 ， 但 是 这 样 势必 会 引起 上 文中 提 到 的 IO 被 冷落 的 情况 ， 所 以 
Deadline 调 度 器 会 维护 计时 器 ， 当 FIFO 表 中 有 某 个 IO 的 进入 时 间 玲 与 
当前 时 间 相 差 到 一 定 程度 时 ， 也 就 是 说 这 个 IO 在 队列 中 待 了 太 久 也 没 
被 执行 ， 那 么 调度 器 会 抛 开 其 他 一 切 因素 将 这 个 IO 下 发 到 下 层 驱 动 。 
这 也 是 其 被 称 为 Deadline 调 度 器 的 原因 。Deadline 调 度 器 针对 读 IO 的 停 
留 闪 值 时 间 为 500ms， 而 对 于 写 IO 则 为 5s， 这 样 考虑 的 原因 是 因为 上 


文中 提 到 过 的 “ 读 饿 死 * 的 情况 。 如 图 19-71 所 示 为 Deadline 调 度 器 的 队 
列 构 成 以 及 调用 的 相关 函数 。 


图 19-71 Deadline 调度 器 队列 结构 
(3) Anticipatory 调 度 方式 


顾名思义 ，Anticipatory 调 度 器 会 做 某 种 预测 从 而 执行 对 应 的 调度 
算法 。 它 会 根据 队列 中 已 经 存在 的 IO 的 起 始 地 址 信息 来 预测 是 否 下 一 
个 到 来 的 IO 其 起 始 地 址 与 队列 中 的 某 个 IO 会 相近 甚至 相 邻 。 如 果 它 判 
断 的 结果 为 是 ， 那 么 它 会 等 待 一 段 时 间 ， 等 待 符合 条 件 的 IO 进入 。 如 
果 进 入 相 邻 的 IO ， 那 么 就 将 其 与 现存 的 IO 进行 Merge 操 作 ; 如 果 是 相 
近 的 IO， 则 可 以 将 其 重 排 ， 磁 头 臂 不 需要 远 距 离 寻 道 。 利 用 这 种 方法 
来 最 大 限度 地 提高 效率 。 这 种 预测 仅 限 于 读 IO， 对 于 写 IO 不 做 预测 。 


如 图 19-72 所 示 为 Anticipatory 调 度 器 的 等 待 判 断 流程 。 其 中 ， 
Mean thinktime 表 示 自 从 上 一 个 读 IO 完成 之 后 到 接收 到 写 一 个 读 IO 的 相 
隔 时 间 的 平均 值 ; Mean seekdistance 表 示 前 一 个 读 IO 的 结束 地 址 与 后 
一 个 读 IO 的 起 始 地 址 之 间 的 距离 平均 值 。 


图 19-72 ”Anticipatory 调 度 器 等 待 判断 流程 


Anticipatory 调 度 器 如 此 的 预测 和 等 待 ， 为 的 只 是 
做 的 根本 原因 还 是 因为 运力 不 够 ， 比 如 底层 存储 系统 
盘 等 情况 。 


多 拉 快 跑 ， 这 样 
是 很 慢 的 机 械 硬 
(4) CFQ 调 度 方式 


CFQ 全 称 为 Completely Fair Queue， 完 全 彻底 的 公平 的 队列 调度 。 
CFQ 调 度 模式 除了 具备 基本 的 Merge、 重 排 等 功能 之 外 ， 还 体现 了 绝 


对 公平 。 这 里 的 公平 二 字 ， 体 现在 对 多 个 进程 ， 或 者 多 个 进程 组 、 多 
个 不 同 用 户 各 自 的 所 有 进程 、 多 个 不 同 用 户 组 各 自 的 所 有 进程 所 发 出 
的 IO ， 按 照 这 些 单位 作为 调度 粒度 ， 在 这 些 单位 之 间 保 持 完全 公平 。 
比如 两 个 用 户 分 别 各 自 运 行 了 两 个 进程 ， 那 么 CFQ 调 度 器 会 为 每 个 用 
户 的 两 个 进程 创建 对 应 的 队列 ， 在 这 两 个 队列 之 间 保 持 公平 ， 比 如 从 
队列 1 被 提取 下 发 了 4 个 IO， 那 么 会 转 到 队列 2 提取 下 发 4 个 IO。 如 图 19- 
73 所 示 为 单 进程 调度 粒度 的 CFQ 调 度 器 的 队列 结构 。 


对 前 文 所 说 的 “ 读 饿 死 ” 情 况 ，CFQ 使 用 了 一 些 参 数 来 控制 这 种 情 
况 的 发 生 。 另 外 ，CFQ 对 Synchronous IO 的 处 理 优先 级 要 比 
Asynchronous IO 高 很 多 ， 因 为 同步 10 表 示 程 序 此 时 是 阻塞 的 ， 程 序 在 
等 待 返 回 ， 而 异步 1O 则 表明 程序 没有 在 等 待 ，CFQ 给 予 同步 IO 以 高 优 
先 级 是 理所当然 的 。 


图 19-73 ”CEFQ 调 度 器 队列 结构 
CFQ 中 的 一 些 可 调节 参数 如 下 。 


" back_seek_max ”这 个 参数 规定 了 后 向 寻 道 距离 的 最 大 值 ， 单 位 
用 KB 表示 ， 默 认 值 为 16384KB。 这 个 参数 效仿 于 Anticipatory 调 
度 模式 下 的 mean seekdisktance 参 数 ， 只 不 过 CFQ 中 这 个 参数 是 
一 个 定 值 ， 而 Anticipatory 调 度 模 式 下 的 这 个 值 等 于 历史 统计 结 
果 平 均值 ， 但 是 参数 决定 的 行为 对 于 两 个 调度 模式 下 是 不 同 
的 。Queue 中 将 要 被 执行 的 IO (此 时 Queue 中 的 IO 已 经 按照 目标 
地 址 和 磁头 臂 摆 动 的 方向 进行 插入 排序 了 ) 的 目标 地 址 如 果 位 
于 当前 磁头 臂 摆动 的 方向 后 方 〈 即 需要 摆 回 去 才能 执行 这 个 
IO) ， 而 且 相 隔 当 前 的 磁头 位 置 (也 就 是 上 一 个 IO 的 结束 地 
址 ) 的 距离 大 于 这 个 参数 给 定 的 值 ， 那 么 CFQ 会 判断 为 后 向 寻 


道 距 离 过 长 ， 不 划算 ， 所 以 继续 执行 队列 中 的 正方 向 的 IO， 
为 磁头 向 一 个 方向 连续 摆动 时 的 寻 道 开销 是 最 少 的 。 如 果 距 离 
小 于 这 个 值 ， 那 么 CFQ 认 为 摆 回 去 是 划算 的 ， 执 行当 前 IO。 
back_seek_penalty ”这 个 参数 的 作用 与 back_seek_max 类 似 ， 只 
不 过 更 加 纯粹 一 些 。 它 同样 决定 了 磁头 辟 后 向 回 押 是 否 划 算 。 
如 果 当 前 磁头 位 置 位 于 a 处 ， 而 Queue 中 有 两 个 IO ， 目 标 位 置 分 
别 为 后 向 a 一 x， 和 前 向 a 十 m， 如 果 (a 一 n) < (a 十 m) / 
back_seek_penalty， 则 CFQ 将 后 向 的 IO 与 前 向 的 IO 同等 对 待 ， 
先 摆 回 磁头 臂 执 行 后 向 IO ， 再 执行 前 向 IO。 

fifo_expire_async ”这 个 参数 规定 了 Queue 中 的 某 个 异步 IO 如 果 
因为 重 排 等 因素 而 一 直 没 有 被 执行 从 而 超过 了 这 个 参数 所 规定 
的 时 间 的 话 ， 那 么 会 强制 执行 这 个 IO。 默 认 值 为 250ms。 
fifo_expire_sync ”这 个 参数 与 fifo_expire_async 类 似 ， 只 不 过 是 
针对 Queue 中 的 同步 10 ， 默 认 值 为 125ms。 可 以 看 到 CFQ 是 偏向 
优先 执行 同步 IO 的 。 

slice_sync ”CFQ 之 所 以 公平 ， 是 因为 它 会 轮流 从 每 个 进程 、 进 
程 组 、 用 户 或 用 户 组 的 Queue 中 提取 IO 并 下 发 给 设备 驱动 。 为 
了 保证 公平 ，CFQ 对 每 个 Queue 的 执行 时 间 是 分 片 的 ， 这 个 值 
就 规定 了 CEFQ 对 每 个 同步 IO 的 Queue 所 执行 的 时 间 ， 默 认为 
100mso 

slice_async 与 slice_sync 类 似 。 默 认 值 40ms。 

slice_asyn_rq 这 个 值 限制 了 CFQ 每 次 执行 异步 IO 队列 时 最 大 可 
以 提取 下 发 的 IO 请 求 数 量 ， 默 认为 2。 当 被 下 发 了 对 应 数值 的 
IO 之 后 ，CFQ 将 转 到 下 一 个 Queue 继 续 执行 。 对 于 同步 IO 队 
列 ， 没 有 这 个 参数 的 限制 ， 可 见 CFQ 对 同步 IO 大 开绿灯 。 
slice_idle 对 于 同步 IO 队列 ， 如 果 轮 到 某 个 同步 IO 队列 被 执行 
时 ， 队 列 中 却 是 空 的 ， 那 么 CFQ 将 等 待 slice_ idle 所 规定 的 时 


间 ; 如 果 超 过 这 个 时 间 仍 未 有 IO 进入 ， 那 么 CFQ 转 向 下 一 个 
Queue 执 行 。slice idle 默认 值 为 8ms。 对 于 异步 IO 队列 ，CFQ 并 
不 等 待 。 可 见 CFQ 对 同步 IO 的 重视 程度 。 

= Quantum ”这 个 值 规 定 了 底层 存储 控制 器 驱动 的 Queue Depth， 
CFQ 不 能 将 多 于 这 个 值 所 规定 的 IO 数量 发 送 给 底层 设备 驱动 。 


提示 : 随 着 外 部 存储 系统 越 来 越 智 能 化 ， 这 些 IO 优 化 任务 其 
中 大 部 分 完全 可 以 交 给 外 部 存储 控制 器 来 执行 ， 主 机 端 完 
没有 必要 多 此 一 举 ， 浪 费 系 统 资源 ， 所 以 目前 IO Scheduler 正 
在 被 逐渐 弱化 ， 仅 仅 对 于 本 地 硬盘 或 者 JBOD 阵 列 有 些许 效 
果 。 因 此 对 于 使 用 外 部 智能 磁盘 阵列 存储 系统 的 Linux 系 统 ， 
可 以 使 用 NOOP 或 者 CFQ 模 式 的 Scheduler。 由 于 外 部 存储 控 
制 器 无 法 感知 到 进入 的 IO 所 附属 的 主机 端 进程 ， 因 此 不 可 能 
做 到 向 主机 端 IO Scheduler 平 衡 多 进程 IO， 所 以 CFQ 是 有 必要 
使 用 的 。 

主机 SCSI 或 者 FC 控制 器 驱动 程序 都 会 探知 到 底层 硬件 是 否 
持 TCQ 或 者 NCQ， 如 果 支 持 ， 则 驱动 程序 会 异步 地 将 批量 IO 
充 入 底层 的 Queue; 如 果 不 支 持 ， 则 只 会 一 个 一 个 地 将 IO 下 
发 ， 严 重 影 响 性 能 。 不 支持 Queue 的 一 般 是 单个 低 端 磁盘 ， 
而 磁盘 同一 时 刻 只 能 执行 一 个 IO 操作 ， 所 以 控制 器 感知 到 这 
一 点 ， 才 会 一 个 一 个 地 将 IO 下 发 。 而 对 于 外 部 磁盘 阵列 系 
统 ， 在 接收 到 主机 端 设备 属性 查询 时 都 会 返回 支持 Queue 以 
K&Battery Backup Write Back Cache。 

另外 ， 不 光 外 部 只 能 用 盘 阵 ， 对 于 支持 TCQ 的 SCSI 磁 盘 或 者 
支持 NCQ 的 SATA 人 磁盘， 如果 对 应 的 控制 器 硬件 以 及 驱动 程序 
也 同时 支持 Queue 的 话 ， 那 么 IO Scheduler 的 效果 同样 也 会 被 
弱化 ， 此 时 选择 NOOP 或 者 CFQ 方 式 即 可 。 


对 于 Linux 操 作 系 统 ， 调 度 器 的 队列 深度 设置 ， 可 以 通过 编 
辑 /sys/block/sda/queue/nr_requests 文 件 中 对 应 的 值 来 实现 。 队 
列 深度 越 大 ， 那 么 IO 优化 的 效果 越 明 显 ， 但 是 每 个 IO 的 延迟 
也 会 随 之 升 高 。 关 于 Queue 深 度 与 IO 延迟 的 关系 见 下 文 描 


(5) IO Scheduler 对 IO 的 Merge 实 例 


程序 对 块 设备 做 IO 时 ， 诸 如 O_SYNC (类 似 WRITE_THROUGH， 
并 不 指 同步 IO 调用 ) 等 参数 依然 适用 ， 并 且 由 于 块 设备 的 写 惩罚 特 
性 ， 在 UNIX 系 统 下 ， 使 用 O_SYNC 模 式 调用 时 ， 写 惩罚 最 严重 ， 如 果 
不 使 用 O_SYNC 或 者 WRITE_THROUGH 之 类 的 参数 ， 那 么 写 数 据 会 被 
块 设 备 驱 动 进行 Merge 操 作 。 下 面 这 个 测试 使 用 的 命令 为 dd if 
二 /dev/zero of 三 /dev/sdb bs 三 512 count 三 1000， 操 作 很 快 完 成 ， 使 用 
iostat 工 具 检测 到 了 这 个 过 程 中 的 所 有 IO 情况 。 


Device: rrqm/s wrqm/s r/s w/Ss rsec/s wsec/s 
avgrq-sz avgddqu-Sz await svctm %util 0.00 0.00 0.00 


0.00 0.00 0.00 0.00 0.00 0.00 


sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 
0.00 0.00 0.00 0.00 
sdb 0.00 115.00 125.00 10.00 1000.00 1000.00 14.82 


0.00 0.00 0.00 0.00 

wrqm/s The number of write requests merged per second that 
were Queued to the device. 

r/s The number of read requests that were issued to 
the device per second. 


w/Ss The number of write requests that were issued to 


the device per second. 
wsec/s The number sector transferred to the device per 


sencond 


GQ) dd 发 起 “offset0 length 512B” 的 写 IO 到 内 核 ， 由 于 使 用 了 
Buffered IO ， 内 核 立 即 通知 dd 完成 了 。 


@) 内 核 首 先 读 出 这 个 块 设备 在 Page Cache 中 映射 的 逻辑 上 的 第 一 
个 4KB 的 Page 也 就 是 Page0， 然 后 修改 前 512B， 再 将 修改 后 的 Page0 放 
入 块 设 备 Queue 中 等 待 写 入 。 


G) 在 上 一 个 Page0 尚 未 写 入 时 ，dd 完 全 可 能 再 次 发 起 “offset 二 512 
length 二 512” 的 下 一 个 写 请 求 ， 同 样 ， 立 即 被 告知 完成 。 


4) 内 核 为 了 服务 第 二 次 512B 的 写 入 ， 需 要 再 次 读 入 Page0。 由 于 
之 前 的 Dirty Page0 还 在 Page Cache 中 ， 所 以 本 次 读 会 命中 缓存 ， 内 核 将 
本 次 的 Page0 的 对 应 区 域 修 改 之 后 ， 再 次 将 这 个 Page0 放 入 块 设备 Queue 
中 等 待 写 入 。 


(9) 块 设备 的 IO Scheduler 前 后 两 次 收 到 了 两 个 针对 同一 个 目标 地 
址 段 的 写 IO， 根 据 调 度 规则 ， 当 然 是 将 前 一 个 写 IO 抛 弃 ， 只 保留 后 一 
个 ,或 者 也 可 以 认为 后 者 覆盖 了 前 者 。 


(6) 程序 发 起 第 3 次 IO、 第 4 次 IO， 内 核 依然 是 读 缓存 命中 ， 同 样 ， 
写 入 的 Page0 也 会 将 前 一 个 履 盖 掉 。 


中 当 程 序 发 起 第 5 个 IO 时 ， 内 核 必 须要 读 出 Page1 了 ， 然 后 继续 重 
复 与 前 面相 同 的 过 程 。 


这 样 算 来 ， 平 均 每 8 次 程序 发 起 的 IO 才 会 触发 一 次 真正 的 对 一 个 
Page 的 读 和 写 操作 。 那 么 程序 共 执行 了 1000 次 IO ，1000:*8 三 125， 根 
据 测 试 的 结果 输出 ， 也 确实 符合 了 这 个 数值 。 但 是 写 操 作 却 为 10 次 ， 
另外 的 115 次 被 Merge 了 。 也 就 是 说 ，Page0 和 Pagel1 或 者 更 多 的 相 邻 
Page 被 Merge 成 一 次 大 的 I0 写 操作 了 。 


(6) IO Scheduler 的 副作用 


是 药 三 分 毒 。IO 调 度 器 在 对 IO 进行 了 优化 的 同时 ， 也 带 来 了 严重 
的 副作用 ， 这 种 副作用 是 任何 层面 的 IO 优化 Queue 所 无 法 避免 的 ， 包 
括 TCQ、NCQ。 


比如 某 程序 打开 一 个 块 设备 /dewsda 进 行 IO 操作 ， 程 序 使 用 DIO 十 
异步 IO 调用 。T1 时 刻 程序 针对 某 地 址 做 了 固定 长 度 的 读 操作 ， 假 设 缓 
存 未 命中 ， 内 核 将 这 个 读 BIO 放 入 块 设备 驱动 的 IO Scheduler 队 列 中 ; 
但 是 紧 接 着 T2 时 刻 ， 程 序 又 发 起 了 针对 同一 地 址 的 固定 长 度 的 写 操 
作 ， 假 设 内 核 将 这 个 写 IO 也 放 入 了 IO Scheduler 的 Queue 中 ， 但 是 经 过 
调度 之 后 ， 这 个 写 操作 被 提前 了 ， 提 到 了 读 的 前 面 ， 先 执行 ， 那 么 这 
个 读 操作 就 不 会 读 到 被 这 个 写 所 覆盖 之 前 的 内 容 ， 而 读 到 的 是 写 覆 盖 
之 后 的 内 容 。 同 样 ， 对 于 先 写 后 读 ， 如 果 读 被 提前 ， 那 么 读 到 的 也 是 
过 期 的 数据 。 


如 果 使 用 Buffered IO ， 则 先 写 后 读 的 情况 下 ， 对 于 后 来 的 读 会 
生 缓 存 命 中 ， 内 核 根 本 不 会 将 BIO 发 向 块 设 备 ， 也 就 不 会 带 来 时 序 问 
题 。 如 果 是 先 读 后 写 而 且 读 未 命中 的 情况 ， 那 么 可 能 会 发 生 读 数据 未 
返回 之 前 、 写 数据 已 经 在 缓存 里 呆 着 了 ， 而 且 也 有 可 能 发 生 写 数据 从 
缓存 中 被 flush 刷 盘 ， 进 入 IO Scheduler， 此 时 读 请 求 依然 未 被 执行 ， 还 


在 IO Scheduler 中 ， 那 么 这 个 写 依然 可 能 会 被 提 到 读 前 面 ， 当 然 ， 等 这 
么 久 那 个 * 读 ”还 排 着 队 的 几率 是 很 低 的 。 


如 果 是 多 进程 共同 IO 同一 个 目标 ， 这 种 问题 一 样 会 发 生 ， 不 过 可 
以 对 目标 进行 Exclusive 模 式 的 锁定 ， 这 样 就 从 根本 上 杜绝 了 多 进程 之 
间 的 时 序 性 问题 ， 但 是 依然 存在 单 进程 的 时 序 性 问题 。 如 果 你 真 的 认 
为 锁定 了 就 没有 时 序 问题 了 ， 你 就 错 了 。 锁 定 与 否 与 底层 的 乱 序 是 无 
关 的 ， 即 便 是 程序 A 锁定 文件 a 进行 IO， 程 序 A 针 对 a 的 10 都 会 被 排队 ， 
A 解锁 之 后 B 继 续 对 a 做 IO，B 的 IO 也 会 被 排队 ， 而 A 和 B 的 IO 依 然 会 在 
底层 乱 序 ，A 和 B 所 看 到 的 内 容 也 可 能 都 是 过 期 的 内 容 。 


这 个 问题 是 IO Scheduler 无 法 避免 的 ， 但 是 可 以 从 应 用 程序 层 去 避 
免 。 比 如 在 DIO 模 式 下 ， 对 于 先 读 后 写 的 情况 ， 避 免 发 生 即 可 。 话 说 
回来 ， 一 个 程序 先 发 出 读 ， 在 没收 到 返回 数据 的 情况 下 又 发 出 了 写 去 
打算 才 盖 之 前 的 数据 ， 这 本 身 是 不 是 有 点 逻辑 错乱 的 意思 呢 ? 就 比如 
你 一 开始 想 拿 一 个 东西 ， 后 来 想 想 又 不 拿 了 ， 然 后 扔 了 一 颗 炸 弹 把 东 
西 炸 了 ， 但 随后 你 拿 到 的 却 不 是 之 前 的 东西 ， 是 一 堆 被 炸 碎 的 东西 。 
也 就 是 说 ， 既 然 在 你 没 拿 到 东西 之 前 ， 你 又 决定 不 要 了 ， 那 么 此 时 这 
个 东西 本 身 就 没有 意义 了 ， 此 时 你 应 该 知道 这 个 结果 ， 而 不 是 进入 脑 
袋 错 乱 的 状态 。 


而 对 于 先 写 然后 在 没 返回 之 前 又 发 出 读 ， 一 般 情况 下 是 没有 这 个 
必要 的 ， 因 为 你 自己 知道 之 前 你 写 进 去 什么 东西 ， 此 时 为 何 还 要 再 把 
它 拿 出 来 看 看 呢 ? 在 这 么 短 的 时 间 内 ， 数 据 一 般 都 依然 在 应 用 的 缓存 
内 ， 没 必要 向 系统 发 出 读 请 求 ， 可 以 直接 在 应 用 层 命中 缓存 。 别 说 ， 
还 真有 这 么 一 类 患 有 强迫 症 的 程序 ， 这 类 程序 就 是 专门 干 这 个 的 ， 因 
为 磁盘 有 时 是 不 可 靠 的 。 对 于 写 操作 ， 磁 盘 返 回 成 功 之 后 ， 数 据 未 必 
真 的 被 写 入 磁盘 ， 甚 至 对 于 Write Through 标 记 的 IO 也 是 如 此 ， 也 就 是 


说 磁盘 并 没有 将 数据 成 功 地 写 入 盘 片 ， 但 是 依然 向 上 层 返 回 了 成 功 应 
答 ， 这 种 极端 发 生 的 情况 称 为 “Lost Write”。 这 类 程序 的 作用 就 是 为 了 
探 察 这 种 情况 的 发 生 。 对 于 这 种 程序 ， 就 要 注意 切 不 可 在 刚刚 写 完 

后 就 立即 发 起 读 ， 一 定 要 过 一 段 时 间 才 发 起 ， 以 避免 在 IO 调度 器 的 队 
列 里 与 之 前 的 写 IO 磁 上 。 而 对 于 使 用 Buffered IO 的 程序 来 说 ， 先 写 后 
读 没 问题 ( 见 上 文 ) ， 对 于 先 读 后 写 的 状况 ， 与 DIO 模 式 下 的 处 理 方 
式 相 同 ， 即 不 应 该 在 没有 收 到 读 返回 数据 的 情况 下 接着 又 发 起 写 IO。 


彻底 解决 这 个 问题 的 办 法 : 对 于 单个 线程 ， 同 步 10 即 可 ;多 线程 
之 间或 者 多 个 程序 之 间 ， 无 解 。 


关于 Lost Write: Lost Write 是 一 种 发 生 概率 非常 小 的 事件 ， 
但 是 一 旦 发 生 ， 其 所 带 来 的 直接 后 果 就 是 数据 不 一 致 。 如 果 
受 影响 的 是 文件 系统 元 数据 中 的 关键 数据 ， 比 如 跟 入 口 指针 
等 ， 那 么 就 有 可 能 直接 导致 文件 系统 全 面 错 乱 ， 需 要 数据 恢 
复 。 而 如 果 是 某 应 用 程序 所 存储 的 关键 数据 ， 比 如 账目 ， 那 
么 当 应 用 程序 下 次 读 出 这 份 上 次 尚未 被 写 入 成 功 的 数据 进行 
处 理 之 后 ， 就 可 能 发 生 错 账 ， 进 而 可 能 引发 重大 生产 责任 事 
故 。 

如 何 解 决 Lost Write? 有 多 种 方法 ， 一 种 最 条 最 耗资 源 的 方法 
便 是 在 写 入 之 后 ， 立 即 再 次 对 这 个 地 址 发 起 读 操作 (前 提 是 
磁盘 本 身 关闭 了 Write Cache， 即 使 用 Write Through 模 式 ) ， 
将 得 到 的 数据 与 之 前 的 待 写 入 数据 进行 比 对 来 检查 是 否 上 一 
次 真 的 被 写 入 了 ， 这 个 动作 应 该 由 存储 控制 器 来 执行 。 但 是 
这 样 做 需要 对 之 前 写 入 的 数据 进行 留 底 ， 需 要 对 每 个 块 进 行 
Hash 计 算 并 保存 起 来 ， 稍 后 读 出 对 应 地 址 数据 之 后 再 次 
Hash， 比 对 两 次 Hash， 如 果 相 同 则 表示 确实 成 功 地 写 入 了 ; 


如 果 不 同 ， 则 表示 未 被 成 功 写 入 。 此 时 就 需要 从 RAID 组 中 这 
个 块 对 应 的 条 带 中 的 其 他 块 来 进行 XOR 运 算 反 算出 当时 应 该 
被 写 入 的 内 容 。 为 何 可 以 用 条 带 中 其 他 Segment 来 反 算 这 块 数 
据 呢 ? 因为 当时 这 个 条 带 发 生 写 入 的 时 候 ， 可 以 认为 只 有 这 
个 块 发 生 了 Lost Write， 而 其 他 盘 同 时 发 生 Lost Write 的 几率 微 
乎 其 微 ， 所 以 可 以 假设 其 他 Segment 中 数据 都 是 一 致 的 。 这 种 
办 法 虽然 答 而 且 极 其 耗费 资源 ， 但 是 却 可 以 彻底 解决 Lost 
Write。 总 之 一 定 要 确保 写 入 改 地 址 之 后 ， 下 一 个 针对 这 个 地 
址 的 IO 一 定 要 是 控制 器 发 起 的 这 个 验证 读 操作 ， 因 为 如 果 不 
立即 检查 的 话 ， 一 旦 间隙 中 有 针对 这 个 地 址 的 非 验 证 读 操 
作 ， 不 管 是 直接 读 还 是 由 于 更 改 条 市 中 其 他 Segment 连 市 导 至 
的 对 本 Segment 的 读 ， 那 么 就 证 明 不 一 致 的 数据 已 经 对 应 用 系 
统 产 生 了 影响 ， 不 管 是 潜在 的 还 是 立即 导致 后 果 的 。 


块 设 备 由 于 底层 IO Scheduler 可 能 造成 IO 乱 序 重 排 执行 的 情况 ， 在 
发 生 系统 Down 机 等 情况 时 ， 底 层 数据 的 一 致 性 就 无 法 得 到 保证 。 由 于 
文件 系统 建立 在 块 设备 之 上 ， 所 以 FSCK 是 一 种 恢复 数据 一 致 性 的 手 
段 ， 但 是 FSCK 只 能 保证 文件 系统 元 数据 的 一 致 却 保证 不 了 数据 实际 内 
容 的 一 致 性 ， 所 以 ， 关 键 应 用 程序 都 直接 使 用 完全 透 传 程序 IO 请 求 的 
字符 设备 进行 IO 操作 。 


7。 系 统 IO 路 径 中 的 Queue Depth 及 Queue Length 


在 系统 IO 路 径 中 ， 有 各 种 各 样 的 Queue， 各 种 层次 的 Queue， 从 应 
用 层 一 直到 设备 驱动 层 。 对 于 Queue 来 说 ， 有 两 个 非常 重要 的 概念 : 
Queue Depth 以 及 Queue Length。 乍 一 看 二 者 似乎 意义 相同 ， 但 是 细 究 
起 来 两 者 并 不 一 样 。 前 者 是 指 某 个 Queue 的 额定 深度 ， 即 这 个 Queue 最 


大 能 充满 多 少 条 记录 或 者 多 少 个 IO; 后 者 则 指 当 前 这 个 Queue 当 前 存 
在 的 ， 或 者 叫做 积压 的 ， 记 录 或 者 IO 数量 。 


随 着 上 层 发 起 的 IO 请 求 不 断 地 下 发 ， 系 统 路 径 下 层 各 处 的 Queue 
可 能 都 会 面临 不 同 程度 的 积压 ， 因 为 底层 硬件 的 处 理 能 力 总 是 有 限 
的 ， 尤 其 是 对 于 存储 系统 来 讲 ， 在 高 压力 下 很 快 达 到 瓶颈 ， 底 层 的 瓶 
人 颈 会 一 层 一 层 地 反映 到 上 层 。 在 上 层 IO 压 力 很 小 的 时 候 ， 系 统 路 径 上 
的 Queue 几 乎 都 没有 积压 ， 随 着 上 层 IO 压 力 逐 渐 增 加 ， 位 于 路 径 中 最 
底层 的 Queue， 也 就 是 设备 驱动 程序 处 的 Queue 会 首先 出 现 积 压 (此 处 
抛 开 IO Scheduler 处 的 Queue 不 谈 ， 因 为 此 处 的 Queue 根 据 一 定 的 调度 算 
法 ， 总 会 有 一 定 积压 ) 。 当 积压 到 一 定 程度 之 后 ， 这 个 Queue 就 进入 
了 Queue Full 的 状态 ， 此 时 ， 往 上 一 层 的 Queue 开 始 积 压 ， 满 了 之 后 ， 
再 上 一 层 的 Queue 就 开始 积压 。 就 这 样 一 直 反 映 到 程序 层 ， 此 时 就 会 
直接 感知 到 性 能 的 急剧 下 降 。 如 果 整 个 系统 中 只 有 一 个 进程 在 做 同步 
十 DIO 模 式 的 IO 操作 ， 那 么 就 可 以 观察 到 系统 路 径 的 最 底层 的 Queue 中 
几乎 任意 时 刻 都 是 空 的 ， 因 为 此 时 Queue 不 可 能 积 庄 ， 任 意 时 刻 只 有 1 
个 IO 请 求 在 从 上 流 到 下 ， 但 是 我 们 在 探 察 的 时 候 能 碰 上 Queue 中 恰好 
有 这 个 IO 存在 的 时 候 的 几率 非常 低 。 当 有 大 量 并 发 的 IO 被 发 起 的 时 
修 ， 整 个 所 经 过 的 路 径 中 的 Queue 可 能 会 被 充满 。 


监测 到 的 Queue Length 越 长 ， 就 证 明 Queue 积 压 越 大 ， 那 么 单个 IO 
的 延迟 就 越 高 ， 对 应 的 计算 公式 为 : IO Latency 二 (Queue Length 十 
1) x IO Service Time， 其 中 IO Service Time 表 示 存 储 系统 硬件 处 理 每 
个 IO 所 耗费 的 时 间 ，IO Service Time 对 于 存储 系统 自身 来 说 ， 也 相当 
于 IO Latency， 每 一 层 的 IO Latency 都 等 于 本 层 的 (Queue Length 十 1) 
x 其 下 层 的 IO Latency， 所 以 这 个 公式 可 以 最 终 改 为 : Layer N IO 
Latency= (Layer N Queue Length 十 1) x Layer (N 一 1) IO Latencyo 


根据 这 个 公式 ， 可 以 推论 出 : 如 果 存 储 最 底层 出 现 瓶 贷 ， 那 么 最 底层 
的 IO Latency (原生 Latecny) 就 会 升 高 ， 它 的 升 高 直接 导致 了 其 Queue 
Length 越 积 越 多 而 升 高 ， 此 二 者 的 升 高 又 成 倍 地 升 高 了 上 一 层 的 IO 
Latency 〈 累 积 Latency) 。 一 层 层 的 扩大 之 后 ， 整 个 系统 路 径 中 的 
Queue 积 压 越 严 重 ， 那 么 最 终 应 用 程序 层 的 IO 延迟 就 会 严重 地 成 倍 地 


升 高 。 公 式 中 的 变量 为 Queue Length 而 不 是 Queue Depth， 这 里 一 定 要 
注意 。 


Queue 积 压 到 一 定 程度 ， 导 致 整个 Queue 充 满洲 出 之 后 ， 下 层 会 向 
上 返回 Queue Full 通 知 ， 上 层 得 知 后 会 做 出 相应 处 理 ， 比 如 降低 IO 发 送 
速率 等 。Queue Full 的 出 现 表 示 存 储 系 统 瓶 颈 已 经 达到 了 不 可 调和 的 地 
步 ， 这 种 情况 一 般 不 会 出 现 。 


主机 端 底 层 发 生 Queue 积 压 情 况 下 系统 瓶 矣 点 判断 方法 : 如 果 链 
路 带宽 和 外 部 存储 系统 的 IOPS 尚 未 达到 额定 饱和 值 而 Queue 积 压 ， 那 
么 说 明 瓶 有 颈 归于 磁盘 ;如 果 IOPS 饱 和 ， 说 明 瓶 有 颈 归于 存储 控制 器 的 处 
理 能 力 ， 如 果 带 宽 饱 和 ， 那 么 瓶颈 归于 链 路 速率 本 身 。 


当 出 现 Queue 积 压 情 况 时 ， 主 机 端的 IO 延 迟 会 呈 指 数 曲线 模式 升 
高 ， 唯 一 可 以 做 的 就 是 降低 主机 端的 IO 并 发 度 或 者 Queue Depth， 这 样 
做 只 是 治标 不 治本 。 降 低 主机 端 IO 并 发 度 或 者 Queue Depth 的 本 质 其 实 
是 要 应 用 做 出 妥协 。 这 里 又 可 以 分 为 两 种 情况 。 第 一 种 是 底层 IO 与 上 
层 业务 响 应 速度 没有 直接 联系 ， 即 底层 IO 响应 变 慢 不 影响 实际 业务 响 
应 时 间 ， 那 么 我 们 此 时 就 可 以 大 刀 阔 人参 地 降低 主机 端的 Queue Depth 和 
IO 并 发 度 ， 减 轻 存储 系统 的 压力 从 而 也 为 其 他 使 用 存储 系统 的 客户 端 
打通 道路 。 这 种 情况 的 一 个 典型 例子 就 是 FS 预 读 ， 比 如 上 文中 论述 FS 
预 读 时 给 出 的 一 组 数据 ， 在 AIX 系 统 下 将 j2_maxpagereadahead 调 节 成 
512， 也 就 是 让 IO Size 为 2MB 大 小 。 当 然 底层 协议 本 身 并 不 允许 这 么 


大 的 IO Size， 所 以 OS 会 自动 将 这 个 值 切 开 成 多 个 小 IO ， 即 每 次 预 读 都 
会 使 用 多 个 IO 来 读 取 数据 ， 不 管 预 读 线 程 是 单线 程 异步 IO 还 是 多 线程 
同步 1O， 单 位 时 间 内 都 会 产生 大 量 预 读 IO 从 而 塞 满 Queue， 造 成 Queue 
积压 。 而 此 时 应 用 程序 的 IO 响应 时 间 与 FS 预 读 力度 之 间 并 没有 很 大 的 
联系 ， 如 果 此 时 因为 FS 的 预 读 造成 了 Queue 积 压 ， 那 么 我 们 就 可 以 毫 
不 犹豫 地 将 记 _maxpagereadahead 降 低 ， 比 如 64。 比 如 下 面 的 数据 ， 将 
j2_maxpagereadahead 调 节 为 512 之 后 ，cp 操 作 所 耗费 的 时 间 并 没有 相对 
调节 为 64 时 有 多 大 的 提升 (相反 还 有 所 降低 ) ， 但 是 反而 造成 了 存储 
系统 的 Queue 积 讨 ， 底 层 的 单个 IO 响应 时 间 急 剧 从 接近 0 增加 到 8 一 
9ms。 也 就 是 说 底层 的 响应 时 间 增 加 了 ， 但 是 其 并 没有 严重 影响 上 层 
响应 时 间 〈 慢 了 不 到 1s， 在 测试 误差 允许 范围 内 ) 。 


aix-cn22:/#ioo -0 j2_maxPageReadAhead 王 512 
Setting j2_maxPageReadAhead to 512 
aix-cn22:/#mount /dev/fslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Om12.46s 

USer Om0 .22s 

sys QOm9.81s 


Read Write Other QFull] Read Write Average Queue Lun 


Ops Ops Ops kB kB Latency Length 
363 0 0 © 91136 0 8.69 30.02 
/vol/Lun/Lunaix 
368 0 0 © 95232 0 9.29 3.05 
/vol/Lun/Lunaix 
747 0 0 © 79592 0 3.72 3.00 


/vol/Lun/Lunaix 


aix-cn22:/#ioo -0 j2_maxPageReadAhead 王 64 
Setting j2_maxPageReadAhead to 64 
aix-cn22:/#mount /dev/fslv0o2 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Om11.67s 

User Om0 .22s 

sys Om9 ,34S 


Read Write Other QFull Read Write Average Queue Lun 


Ops Ops Ops kB kB Latency Length 
383 0 0 © 97856 0 1.04 0.03 
/vol/Lun/Lunaix 
437 0 0 © 95936 0 0.90 0.03 
/vol/Lun/Lunaix 
380 0 0 © 97152 0 1.05 0.03 
/vol/Lun/Lunaix 


参数 的 调节 需要 严格 的 试探 ， 因 为 每 个 系统 都 不 同 ，IO 类 型 也 不 
同 ， 我 们 不 可 能 向 Nio 一 样 钻 到 Marix 里 面 去 探究 代码 的 执行 ， 但 是 我 
们 至 少 可 以 做 试探 来 探究 和 想象 底层 的 行为 。 比 如 确定 
j2_maxpagereadahead 参 数 的 最 适 值 ， 就 需要 我 们 逐渐 增 大 这 个 值 然后 
调查 IOPS、 带 宽 和 IO 响 应 时 间 这 三 者 ， 设 置 过 低 则 不 能 发 挥 性 能 ， 设 
置 过 高 又 会 顾此失彼 ， 根 据 需求 ， 总 有 一 个 最 合适 的 值 存 在 。 


第 二 种 情况 则 是 底层 IO 的 响应 时 间 直 接 关 系 到 应 用 程序 的 响应 时 
间 ， 那 么 此 时 我 们 不 能 轻易 束 降 us Depth 或 者 并 发 度 ， 因 为 这 样 
做 虽然 可 以 使 存储 系统 负载 减轻 一 些 ， 但 是 同样 造成 了 应 用 程序 响应 


更 加 缓慢 。 此 时 就 要 综合 来 决策 ， 碍 看 一 下 是 否 其 他 主机 端 有 可 以 被 
砍 掉 的 不 必要 的 Queue Depth 和 IO 并 发 度 ， 如 果 有 则 砍 掉 以 减轻 存储 压 
力 。 如 果 这 样 处 理 之 后 仍 不 能 改善 ， 那 么 唯一 可 以 做 的 就 是 消除 存储 
端 瓶颈 ， 增 加 磁盘 ， 或 者 其 他 手段 ， 比 如 集群 化 、 渤 移 数据 到 高 性 能 
设备 上 ， 或 者 使 用 SSD 等 。 


既然 Queue 积 压 是 个 坏 现象 ，Queue 中 只 有 1 个 甚至 0 个 IO 等 待 才 是 
最 理想 的 状况 ， 那 么 为 何不 将 Queue Depth 调 成 2 算 了 ? 这 里 要 理解 的 
是 ，Queue 积 压 表 示 有 某 处 出 现 瓶 颈 。 但 是 在 系统 仍 有 充足 的 处 理 能 
力 ， 各 处 没有 产生 普 有 颈 的 时 候 ， 存 储 系 统 对 IO 的 处 理 是 很 快 的 ， 而 如 
果 我 们 将 Queue Depth 调 成 2， 那 么 会 喂 不 饱 存储 系统 。 就 像 吃 饭 时 候 
一 样 ， 你 饿 了 ， 想 吃 一 大 砚 米 饭 ， 但 是 只 给 你 盛 来 一 茶 砚 米 饭 ， 你 吃 
的 爽 么 ?” 吃 完了 虽然 可 以 无 限制 再 去 盛 一 砚 再 吃 ， 但 是 这 样 做 效率 显 
然 不 如 一 下 子 盛 一 大 砚 来 得 快 。 要 将 Queue Depth 调 成 适当 的 值 是 有 必 
要 的 。 当 用 大 砚 盛 饭 之 后 ， 你 一 开始 吃 得 很 快 ， 满 一 砚 立 即 吃 空 一 
砚 ， 但 是 后 来 你 饱 了 ， 下 饭 速 度 越 来 越 慢 ， 此 时 碗 里 剩 饭 就 会 越 来 越 
多 ， 此 时 已 经 达到 狐 颈 了 。 同 样 ， 也 不 能 把 Queue Depth 设 置 的 无 限 
大 ， 因 为 你 敢 给 出 这 个 饭量 ， 证 明 你 对 IO 的 消化 能 力 很 棒 ， 那 么 客户 
端 融会 按照 这 个 饭量 来 给 你 盛 饭 ; 但 是 你 如 果 没 那么 大 饭量 而 硬 充 胖 
子 的 话 ， 结 果 就 是 造成 Queue 积 压 。 所 以 存储 系统 在 设计 的 时 候 就 会 
根据 自身 处 理 能 力 和 IO 类 型 比率 等 诸多 因素 来 最 终 确 定 一 个 对 外 
Queue Depth。 但 是 这 个 Queue Depth 往 往 也 并 不 能 代表 真实 处 理 能 
力 ， 比 如 对 于 小 块 连续 并 发 IO 这 种 最 佳 IO 方式 。 这 就 相当 于 喝 稀 饭 ， 
一 气 很 快 就 喝 完 了 ， 此 时 你 不 给 他 一 个 大 砚 对 不 起 这 速度 ， 但 是 如 果 
改 吃 米饭 ， 那 一 时 半 会 儿 吃 不 完 ， 此 时 你 如 果 还 给 他 个 大 碗 ， 那 就 容 
易 造成 积压 。 所 以 Queue Depth 的 确定 最 终 只 是 一 个 折 中 值 ， 设 计 人 性 
化 的 存储 系统 可 以 让 用 户 自 行 设置 Queue Depth 以 满足 不 同 需要 。 


对 于 一 些 人 为 积压 的 Queue， 比 如 IO Scheduer 中 的 Queue， 某 种 意 
义 上 来 讲 ， 这 个 Queue 必 须 处 于 积压 状态 ， 因 为 只 有 Queue 中 存 有 一 定 
数量 的 IO 之 后 ，IO 调 度 算法 才 会 有 效果 。 但 是 话 又 说 回来 ， 如 果 底 层 
设备 处 理 能 力 够 强大 ， 速 度 也 够 快 ， 快 到 即使 不 使 用 IO 调度 也 能 够 快 
速 吃 掉 Queue 里 的 存货 ， 那 么 此 时 要 IO 调度 有 何 用 呢 ? 人 为 积压 有 何 
用 呢 ? 一 点 用 没有 反而 影响 性 能 了 。 


所 以 ， 任 何 时 刻 只 要 发 现 Queue 中 有 存货 ， 那 就 一 定 证 明 底 层 有 
瓶颈 ， 存 货 越 多 ,瓶颈 越 大 。 这 是 铁 的 事实 。 系 统 IO 路 径 内 任意 两 个 
模块 之 间 的 Queue 都 遵循 上 述 原 则 ， 不 仅 是 主机 与 存储 设备 之 间 的 
Queue， 存 储 系 统 内 部 各 个 模块 之 间 的 Queue 同 样 遵守 。 


如 果 有 多 台 主 机 通过 同一 个 端口 共同 访问 一 台 存 储 设 备 ， 那 么 此 
时 需要 尽量 确保 每 台 主 机 的 适配器 的 Queue Depth 都 相等 ， 并 且 确 保 它 
们 之 和 等 于 这 人 台 存 储 设备 上 一 个 端口 的 Queue Depth。 这 样 做 ， 第 一 可 
以 保证 存储 系统 的 Queue 不 会 发 生 Queue Full 的 情况 ， 第 二 可 以 保证 每 
台 主 机 充 入 存储 设备 Queue 中 的 I0 数 量 大 致 相同 ， 不 会 饿 死 任何 一 台 
主机 。 当 然 也 可 以 为 不 同 的 主机 设 定 不 同 的 Queue Depth 以 便 实现 性 能 
分 级 ， 但 是 同样 要 确保 所 有 主机 客户 端的 Queue Depth 之 和 不 要 超过 存 
储 系统 上 这 个 端口 的 Queue Depth。 


在 某 些 OS 下 可 以 针对 每 个 LUN 设 置 各 自 的 Queue Depth， 当 然 ， 
这 样 做 一 定 需要 对 应 的 存储 控制 器 驱动 程序 支持 。 比 如 在 AIX 系 统 
下 ， 就 可 以 设置 每 个 hdisk 的 Queue Depth， 只 要 保证 系统 中 所 有 hdisk 
的 Queue Depth 之 和 不 大 于 对 应 的 底层 控制 器 驱动 提供 的 总 Queue 
Depth 妈 可， 这样 就 可 以 针对 不 同 hdisk 给 予 不 同 的 优先 级 。 


8。. Queue Length 与 1OPS 的 关系 


一 块 15KB RPM 的 FC 或 者 SAS 磁 盘 ， 其 随机 读 IOPS 大 概 在 +400 左 
右 ， 随 机 写 IOPS 要 低 于 读 ， 有 些 磁盘 写 与 读 相 差 不 太 大 ， 有 些 磁盘 则 
相差 较 大 ， 大 概 20%。 但 是 达到 这 个 峰值 ， 是 需要 做 出 一 定 妥协 的 ， 
这 个 妥协 就 是 IO 延迟 。 但 凡 要 让 磁盘 达到 它 最 大 的 IOPS ( 指 随机 IOPS 
而 不 是 连续 IOPS， 单 块 磁盘 连续 读 IOPS 在 IO Size 很 小 时 可 达 上 千 ) ， 
就 一 定 要 将 磁盘 的 队列 充满 到 一 定 程度 。 为 何 要 这 样 呢 ? 因为 磁盘 都 
是 支持 一 定 的 Queue 算 法 的 ， 比 如 电梯 算法 ， 它 会 将 充 入 Queue 中 的 所 
有 IO 进行 重 排 ， 以 便 磁 头 臂 摆 向 同一 个 方向 时 可 以 撒 带 执行 更 多 的 IO 
操作 。 而 如 果 你 只 向 磁盘 Queue 中 充 入 了 1 个 IO 请 求 ， 执 行 完 之 后 再 充 
入 1 个 IO0， 那 么 此 时 执行 效率 是 最 低 的 ， 但 是 相对 于 每 个 IO 来 讲 ， 这 
个 IO 本 身 被 执行 的 速度 将 会 是 最 快 的 ， 也 就 是 延迟 最 低 ， 因 为 此 时 磁 
头 臂 只 服务 于 这 一 个 IO 请 求 ; 相反 ， 一 次 性 向 Queue 中 充 入 多 个 IO 请 
求 ， 那 么 磁头 臂 就 会 在 一 次 摆动 过 程 中 服务 于 多 个 IO 请 求 ， 而 这 些 IO 
在 微观 上 也 是 一 个 一 个 被 执行 的 ， 只 不 过 执行 效率 提高 了 很 多 。 但 是 
同时 ， 每 个 IO 的 响应 时 间 《延迟 ) ， 也 就 是 磁盘 处 理 每 个 IO 所 人 花费 的 
时 间 也 就 提升 了 (为 何 ? 见 下 文 ) ， 但 是 此 时 磁盘 所 表现 出 来 的 整体 
IOPS 也 提升 了 。 乍 一 看 好 像 有 些 矛 盾 ， 为 何 延迟 升 高 了 ， 也 就 是 处 理 
每 个 IO 所 耗费 的 时 间 提 升 了 ， 而 IOPS 却 不 降 反 升 呢 ? 我 们 就 来 分 析 一 
下 这 个 问题 。 建 议 读 者 在 这 里 先 停 下 自己 思考 ， 然 后 将 自己 的 思考 与 
作者 稍 后 给 出 的 分 析 做 比 对 ， 这 样 可 以 加 深 印 象 。 


如 表 19-3 所 示 为 某 块 15KB RPM 的 3Gb/s SAS 硬 盘 的 测试 结果 。 测 
试 使 用 单 台 PC Server 十 SAS 卡 进行 ， 使 用 IOmeter 作 为 测试 工具 测 神 
盘 ， 在 IOmeter 界 面 中 设置 不 同 的 “Outstanding IO” 来 调查 不 同 Queue 
Length 对 磁盘 IOPS 的 影响 ，IO 类 型 为 4KB 块 的 100% 随 机 读 。 表 中 ART 
表示 Average Response Time，MRT 表 示 Maximum Reponse Timeo 


表 19-3 ”SAS 硬 盘 Queue Length 与 IOPS 


当 Queue Length (下 用 QL 代替 ) 为 1 时 ， 属 于 典型 的 同步 IO 调用 
模式 场景 。 此 时 系统 IO 路 径 中 的 所 有 Queue， 包 括 IOmeter 应 用 程序 
Queue、 块 设备 驱动 Queue、HBA 适 配 卡 Queue、 磁 盘 Queue 中 任何 时 
刻 只 有 这 一 个 IO， 并 且 这 个 IO 只 出 现在 这 一 串 Queue 中 的 一 个 之 中 。 


整 条 路 径 只 服务 于 一 个 IO ， 此 时 IOmeter 所 得 出 的 ART 也 就 约 等 于 
底层 磁盘 的 平均 寻 道 时 间 ， 本 例 中 也 就 是 5.6ms。 


当 QL 增 加 到 2 的 时 候 ， 系 统 路 径 中 的 所 有 Queue 都 不 可 能 产生 积压 
(Queue Depth 一 般 为 8 以 上 ) ， 一 定 会 * 充 入 便 下 发 ”， 那 么 此 时 这 两 
个 IO 一 定 是 被 HBA 直 接 下 发 到 磁盘 Queue 中 等 待 执行 。 


磁盘 会 使 用 NCQ、TCQ 等 算法 ， 结 合 当前 磁头 臂 的 位 置 ， 对 
Queue 中 的 IO 做 电梯 算法 来 决定 先 执行 哪个 后 执行 哪个 ， 那 么 后 执行 
的 就 必须 等 待 先 执行 的 执行 完毕 之 后 才能 被 执行 ， 也 就 是 说 IO 会 在 磁 
盘 Queue 中 发 生 等 待 。 这 样 ， 理 论 上 讲 ， 两 个 IO 执行 完 所 耗费 的 时 间 
应 该 等 于 执行 1 个 IO 耗费 的 平均 时 间 乘 以 2 即 可 ? 


不 是 的 ， 平均 寻 道 时 间 是 使 用 一 个 一 个 的 随机 IO 下 发 到 磁盘 而 统 
计 出 来 的 ， 多 个 IO 经 过 电梯 算法 排队 之 后 ， 会 收 到 一 定 的 优化 效果 。 
比如 可 能 向 相同 方向 摆动 两 次 就 可 以 执行 完 这 两 个 IO ， 而 如 果 将 这 两 
个 IO 分 两 次 下 发 ， 那 么 磁头 可 能 必须 经 过 向 两 个 方向 的 摆动 寻 道 才 可 
以 完成 这 两 个 IO。 所 以 本 例 中 ， 当 QL 二 2 时 ，ART 小 于 5.6x2 = 
11.2ms。 依 此 类 推 ， 当 QL 越 来 越 长 之 后 ， 这 种 效果 所 获得 的 收益 就 越 
强 。 


有 人 会 产生 疑问 : 1000ms/ART (ms) ==IOPS， 这 个 等 式 应 当成 
立 ， 为 何 按照 本 例 中 的 结果 之 后 ， 除 了 QL 三 1 时 成 立 ， 而 其 他 QL 值 对 
应 的 数据 被 代入 后 却 都 不 成 立 呢 ? 比如 QL 二 2 时 ，1000/9.87==101.3， 
而 实际 却 是 202.62， 正 好 是 前 者 的 2 倍 ， 而 QL 二 4 时 所 得 到 的 结果 也 是 
这 样 ， 实 际 值 为 理论 值 的 4 倍 ， 可 以 发 现 IOPS = 二 【1000ms/ART 

(ms) ]】 xQL 这 个 规律 ， 而 如 果 将 单位 ms 变 为 标准 单位 s， 那 么 这 个 
公式 就 变 为 : IOPS 二 QL/ART。 读 者 看 到 这 个 公式 是 否 眼 熟 ? 对 了 ， 
它 就 是 本 书 第 3 章 中 所 给 出 的 公式 。 


这 个 公式 本 身 是 正确 的 ， 那 么 问题 出 在 哪里 ? 还 得 从 IOPS = 
QL/ART 这 个 公式 的 本 质 入 手 。 它 的 含义 是 : 每 秒 IO 操 作 数 等 于 QL 除 
以 平均 响应 时 间 ， 而 按照 常理 ， 每 秒 IO 操 作 数 应 当 等 于 1s 除 以 每 个 IO 
的 平均 响应 时 间 。 前 者 是 实测 所 得 ， 后 者 是 理论 所 得 ， 似 乎 都 没有 
错 。 错 在 哪 ? 关键 就 在 “平均 响应 时 间 ” 上 ，ART 到 底 是 指 每 个 IO 被 执 
行 完成 所 耗费 的 时 间 ， 还 是 整个 QL 队列 的 所 有 IO 均 被 执行 完 所 耗费 的 
时 间 。 如 果 是 前 者 ， 那 么 公式 IOPS 二 1/ART 显 然 是 成 立 的 ; 而 如 果 是 
后 者 ， 那 么 公式 IOPS 二 QL/ART 就 是 成 立 的 。 那 么 也 就 是 说 表 19-3 中 
的 ART 是 指 队 列 中 所 有 IO 均 被 执行 完成 所 耗费 的 平均 (磁盘 可 以 批量 
返回 一 大 批 10 结 果 ， 甚 至 整 Queue 批 量 执行 和 返回 ， 详 见 下 面 一 节 ) 
时 间 ， 既 然 这 样 ，IOPS 也 就 当然 要 用 QL 而 不 是 1 来 除 以 这 个 ART 了 。 


15KB RPM SAS 盘 的 最 高 IOPS 为 400 十 左右 ， 那 么 我 们 用 1000/400 
二 2.5ms， 也 就 是 说 ，NCQ、TCQ 等 队列 优化 算法 最 终 可 以 使 得 单个 
IO 的 执行 时 间 从 本 例 中 平均 的 5.6ms 降 低 到 2.5ms， 提 升 了 约 50%。 但 
是 却 增加 了 IO 在 队列 里 的 等 待 时 间 ， 等 待 多 长 时 间 可 以 参考 上 一 节 中 
给 出 的 计算 方法 : IO 延迟 =IO 等 待 时 间 十 IO 执行 时 间 。 所 以 ，Queue 
的 存在 导致 磁盘 可 以 在 单位 时 间 内 执行 更 多 的 IO， 也 就 是 IO 执行 时 间 


确实 降低 了 ， 但 是 所 有 IO 的 延迟 时 间 却 因为 IO 等 待 时 间 的 加 入 而 变 得 
很 高 ， 每 个 IO 的 等 待 时 间 等 于 排 在 其 前 面 的 所 有 IO 的 执行 时 间 的 累 
加 ， 可 想 而 知 。 


Queue 的 出 现 ， 会 将 每 个 IO 的 执行 时 间 降 低 ， 低 于 平均 寻 道 时 间 
(本 例 中 的 5.6ms) ， 但 是 却 有 一 个 副作用 ， 也 就 是 造成 队列 中 IO 等 待 
的 时 间 加 长 。 因 为 毕竟 IO 到 了 磁头 臂 这 一 层 一 定 是 一 个 一 个 被 执行 
的 ， 一 次 性 充 入 Queue 中 多 个 IO ， 只 是 为 了 在 一 段 时 间 内 能 够 让 磁盘 
执行 更 多 的 IO ， 但 是 所 付出 的 代价 便 是 这 些 IO 需 要 预先 排队 等 待 ， 增 
加 了 IO 总 响应 时 间 ， 也 就 是 IO 延迟 。 


那么 这 样 做 究竟 是 不 是 得 不 偿 失 呢 ? 谁 获 益 了 ? 谁 损失 了 ? 可 以 
这 么 说 ， 在 不 同 层面 看 这 个 问题 会 有 不 同 的 结论 。 先 从 单 块 磁 盘 层 面 
来 看 ，Queue 让 单 块 磁盘 单位 时 间 内 可 以 执行 的 IO 数量 增加 了 ， 这 当 
然 是 好 事情 ， 获 益 于 电梯 算法 ， 当 然 是 提高 了 效率 ， 使 得 单 盘 IOPS 从 
QL 三 1 时 的 178 提 高 到 了 QL 三 32 时 的 389， 同 时 单个 10 的 执行 时 间 也 降 
低 了 。 所 以 ，Queue 对 于 磁盘 来 讲 是 绝对 的 全 面 获 益 。 再 看 看 IO 适 配 
器 一 层 ， 比 如 SAS 适 配器 驱动 程序 处 ， 这 一 处 也 维护 着 多 个 Queue， 包 
括 接收 、 发 送 、 已 完成 、 未 完成 等 Queue， 上 层 下 发 的 IO 先 充 入 这 一 
处 Queue， 然 后 驱动 程序 再 将 Queue 中 的 IO 通过 SAS 网 络 传送 给 对 应 的 
磁盘 Queue 中 ， 此 时 SAS 适 配器 驱动 需要 等 待 这 些 IO 完 成 ， 而 这 个 等 待 
时 间 ， 也 就 是 IO 延 返 ， 会 随 着 QL 的 提高 而 累加 提高 ， 所 以 ，Queue 的 
出 现 对 于 SAS 适 配器 来 讲 有 所 损失 ;但 是 也 有 受益 ， 即 整体 IOPS 增 
加 。 同 样 ， 系 统 IO 路 径 中 再 往 上 ， 包 括 块 设备 驱动 、 文 件 系 统 、 内 核 
其 他 IO 模块 ， 一 直到 最 终 的 应 用 程序 层 ， 皆 表现 为 IO 延迟 上 的 损失 以 
及 IOPS 上 的 收益 。 应 用 层 所 感知 到 的 IO 延迟 是 其 下 层 所 有 延迟 的 累 
加 。 只 有 磁盘 是 唯一 一 个 全 面 获 蔓 的 角色 。 


但 是 ， 刚 才 说 过 ， 在 不 同 层面 看 问题 会 有 不 同 的 结论 。 如 果 从 整 
个 系统 全 局 地 来 看 ，QL 的 提高 会 致使 整体 系统 的 IOPS 提 高 ， 从 这 一 点 
上 来 看 确实 是 整体 受益 的 。 那 么 对 于 应 用 程序 层 来 讲 ， 它 可 以 选择 一 
个 接 一 个 地 发 送 IO， 也 可 以 选择 批量 异步 地 发 送 IO。 如 果 业 务 层 决定 
应 用 程序 就 要 一 个 接 一 个 地 发 送 ， 那 么 此 时 情况 是 从 源头 就 没有 那么 
多 的 IO 量 ; 而 如 果 业 务 层 决 定 应 用 层 需 要 很 高 的 异步 IO 发 送 量 ， 那 么 
此 时 应 用 程序 为 何不 一 股 脑 地 将 IO 下 发 下 去 呢 ? 积压 到 硬盘 处 可 以 提 
高 IOPS， 但 是 如 果 积 压 在 应 用 程序 处 ， 不 但 提高 不 了 IOPS， 反 而 IO 延 
迟 一 样 也 还 会 很 高 ， 积 压 在 哪里 不 是 积压 ? 最 终 还 是 要 看 应 用 层 所 感 
知 到 的 IO 延 迟 。 


综 上 所 述 ， 为 了 保证 整体 较 高 的 JOPS， 底 层 的 Queue 最 好 处 于 积 
压 状态 。 如 果 不 让 IO 等 待 ， 不 排队 ， 那 么 整体 系统 也 就 无 法 达到 高 
IOPS， 此 时 虽然 单个 IO 的 延迟 是 最 低 的 ， 但 那 是 通过 牺牲 整体 IOPS 所 
换 来 的 ， 是 通过 在 应 用 层 积 压 IO 而 不 是 磁盘 层 积压 而 换 来 的 。IO 人 迟早 
要 被 发 送 ， 早 发 送 ， 等 待 长 一 些 以 获得 较 高 IOPS， 还 是 现 用 现 发 送 ， 
以 获得 单个 IO 的 低 延 迟 但 是 整体 较 低 的 IOPS ， 这 个 就 要 看 实际 情况 到 
底 需 要 哪 种 策略 了 。 


手 毛 出 在 手 身 上 ， 有 时 候 可 能 会 人 为 地 降低 Queue Depth 以 限制 
QL 以 保证 每 个 IO 的 延迟 不 要 太 高 。 这 仿佛 是 一 个 博弈 过 程 ， 即 存储 层 
与 应 用 层 的 博弈 ， 存 储 层 通 过 限制 QD 来 获取 比较 好 看 的 IO 性 能 指标 ， 
但 是 其 本 质 其 实 是 通过 牺牲 应 用 层 IOPS 来 换取 的 ， 也 就 是 让 应 用 降低 
IO 下 发 速度 。 实 际 上 ， 现 实 中 多 种 应 用 系统 ， 其 产生 的 IO 属性 大 部 分 
为 同步 ID0 ， 一 方面 是 受制 于 业务 层 需求 ， 另 一 方面 也 受制 于 异步 IO 开 
发 时 候 的 难度 以 及 稳定 性 ， 除 非 对 存储 性 能 有 人 为 的 压榨 目的 考虑 ， 
开发 人 员 不 太 愿 意 使 用 异步 IO 模式 。 这 样 ， 底 层 的 Queue 被 充满 到 一 


定 程度 的 几率 就 会 比较 低 ， 那 么 整体 IOPS 也 不 会 很 高 。 而 这 种 情况 是 
很 多 用 户 所 迷惑 的 ， 当 初 购买 时 使 用 测试 工具 测试 时 表现 出 来 很 高 的 
性 能 ， 但 是 为 何 实际 使 用 中 却 性 能 低下 ? 所 以 ， 看 完了 上 面 的 文字 ， 
你 或 许 应 该 知道 性 能 分 析 应 当 首先 从 哪里 入 手 了 。 


那么 是 不 是 QD 设置 的 越 高 ，IOPS 就 会 线性 提升 呢 ? 显然 不 会 ， 
没有 这 么 便宜 的 事情 。QL 越 长 ，NCQ、TCQ 等 算法 获得 的 效率 提升 比 
率 就 越 大 ， 但 是 这 些 算法 是 有 优化 极限 的 ， 而 且 上 层 下 发 的 每 批 IO 的 
优化 程度 也 是 不 一 样 的 ， 另 外 再 加 上 心 片 处 理 能 力 、 接 口 带 宽 等 潜在 
瓶颈 点 的 限制 ， 所 以 当 单 盘 IOPS 达 到 顶峰 值 以 后 ， 再 增加 Queue 
Length 就 没有 效果 了 ， 反 而 此 时 延迟 会 大 幅 增 加 。 每 个 设备 都 会 提供 
一 个 最 适合 的 Queue Depth 值 给 它 的 上 下 游 。 


大 部 分 HBA 卡 处 的 Queue 一 般 被 限制 为 16， 以 在 IOPS 与 IO 延迟 之 
间 保 持平 衡 。 有 些 厂商 可 以 让 用 户 调节 QD， 有 些 则 不 可 以 。 设 置 QD 
有 一 定 的 讲究 ，IO 上 游 模块 的 靠 下 游 位 置 的 QD 要 等 于 其 可 并 发 连接 的 
下 游 模 块 的 靠 上 游 位 置 的 QD 之 和 ， 如 果 某 IO 模块 下 游 只 连接 了 一 个 模 
块 ， 那 么 这 两 个 模块 耦合 处 的 QD 应 相等 。 不 直接 耦合 的 两 个 IO 模块 之 
间 的 QD 没 有 关联 。 系 统 路 径 上 的 同一 个 IO 模块 上 下 游 位 置 上 的 QD 要 
保持 相同 ， 但 是 有 一 点 例外 ， 比 如 ， 如 果 这 个 模块 会 将 IO 进行 合并 、 
拆 分 等 处 理 的 话 ， 那 么 上 下 游 QD 要 按照 IO 处 理 之 后 产生 的 IO 数量 翻 
倍 或 者 缩 倍 的 倍率 来 进行 匹配 。 


第 3 章 中 曾经 提 到 过 ， 对 于 一 个 具有 强 消化 能 力 的 存储 系统 ， 一 次 
多 个 IO 与 一 次 一 个 IO 相 比 可 能 一 开始 表现 出 的 IO 延迟 相差 不 多 ， 怎 么 
这 里 两 个 IO 时 候 就 已 经 与 一 个 IO 时 候 相 差 较 大 了 ? 因为 这 是 单 块 磁 
盘 ， 不 是 大 存储 系统 ， 消 化 能 力 当 然 有 区 别 ， 大 型 存储 系统 的 巨 量 
RAM 缓 存 对 单 块 磁盘 的 劣势 有 较 好 的 屏 贡 和 优化 作用 。 


IO Size 与 IO 延迟 的 关系 : IO Size 越 大 ， 从 盘 片 读 写 以 及 传 
输 每 个 IO 所 需要 的 时 间 就 越 长 。 所 以 ，Write Merge 操 作 其 实 
是 会 增加 每 个 IO 的 延迟 的 ， 但 是 它 提高 了 效率 ， 提 高 了 系统 
吞吐 量 。 一 些 网 络 传输 技术 ， 比 如 Infiniband 之 类 ， 其 物理 链 
路 编码 速率 可 能 与 其 他 的 传输 技术 相同 ， 但 是 延迟 却 比 其 他 
网 络 低 。 这 里 的 意思 就 是 说 Infiniband 的 传输 单元 小 ， 对 于 一 
些小 的 IO 操作 能 够 实现 更 高 的 响应 速度 ， 适 合 于 高 实时 性 的 
传输 ， 但 是 其 整体 吞吐 量 就 不 一 定 比 其 他 传输 技术 高 了 。 


9。SATA 协 议 中 的 NCQ 


关于 NCQ 的 首次 介绍 出 现在 本 书 的 第 3 章 中 ， 再 结合 之 前 刚刚 介 
绍 的 Linux 下 的 IO Scheduler 原 理 ， 想 必 大 家 已 经 对 队列 〈 不 仅仅 是 
NCQ) 中 的 电梯 和 其 他 优化 算法 有 了 一 个 大 概 了 解 了 。 在 这 里 再 对 
NCQ 深 入 一 步 。 经 过 刚才 的 介绍 大 家 已 经 了 解 ， 磁 盘 可 以 将 队列 中 的 
IO 进行 优化 重 排 然 后 依次 执行 ， 但 是 执行 完毕 每 个 IO 之 后 ， 并 不 一 定 
要 立即 返回 这 个 IO 的 结果 。 按 照常 理应 该 是 立即 返回 ， 但 是 在 Queue 
开启 之 后 ， 磁 盘 往 往 要 积攒 一 定量 的 执行 结果 才 向 主机 端 磁盘 控制 | 器 
(FC 卡 、SAS 卡 、SATA 控 制 器 等 ) 返回 ， 这 样 做 是 为 了 降低 频繁 中 断 
对 控制 器 的 影响 以 及 对 链 路 带宽 的 浪费 。 磁 盘 可 以 将 多 个 IO 执行 的 结 
果 批 量 返回 给 控制 器 ， 每 一 批 传输 只 需要 一 个 中 断 即 可 ， 这 个 过 程 称 
为 中 断 聚 合 。 


再 仔细 考虑 一 下 ， 主 机 端 控制 器 将 IO 一 个 一 个 地 充 入 磁盘 的 
Queue 中 (每 个 需要 被 Queue 化 的 命令 都 会 被 控制 器 设置 一 个 Tag 值 来 
表征 这 个 命令 ，SATA 队列 深度 最 大 为 32， 所 以 Tag 的 值 可 以 是 0~ 
31) ， 但 是 磁盘 却 可 以 将 这 些 IO 打 乱 顺 序 来 执行 ， 而 且 也 不 按照 IO 发 


送 过 来 的 顺序 将 结果 (ACK 或 者 数据 ) 返回 给 控制 器 ， 如 果 没 有 一 种 
特殊 的 机 制 来 处 理 的 话 ， 主 机 控制 器 将 不 会 分 辨 出 磁盘 返回 的 结果 对 
应 的 已 经 完成 的 IO 到 底 是 哪些 。 解 决 这 个 问题 必须 由 磁盘 主动 ， 因 为 
只 有 磁盘 知道 实际 的 IO 执行 顺序 。 在 NCQ 中 ， 这 种 机 制 称 为 First Party 
DMA， 简 称 FPDMA， 之 所 以 称 为 “First Party” 是 因为 DMA 地 址 等 是 由 
磁盘 来 主导 的 。 磁 盘 在 每 执行 一 个 IO 之 前 ， 会 发 送 一 个 FIS (Frame 
Information Structure) 给 主机 端 磁盘 控制 器 ，FIS 中 包含 了 当前 所 执行 
的 IO 的 Tag 值 。 主 机 端 控 制 器 收 到 对 应 的 FIS 之 后 ， 便 知道 磁盘 当前 在 
执行 的 IO 是 哪 一 个 了 (因为 是 控制 器 之 前 将 IO 打 上 Tag 并 充 入 到 磁盘 
Queue 中 的 ) ， 那 么 控制 器 此 时 就 可 以 将 这 个 IO 对 应 的 数据 从 内 存 对 
应 的 地 址 传输 到 磁盘 〈 写 过 程 ) ， 或 者 将 数据 传输 给 控制 器 从 而 控制 
器 将 这 块 返回 的 数据 放置 到 对 应 的 内 存 地 址 ( 读 过 程 ) 。 


另外 ，FPDMA 还 可 以 允许 磁盘 先 传送 某 个 IO 的 一 部 分 数据 ， 然 后 
之 间 穿 差 传输 一 部 分 另外 某 IO 的 数据 ， 再 将 之 前 的 IO 剩余 数据 传 完 ， 
为 何 会 发 生 这 种 场景 ?是 因为 旋转 等 待 时 间 ， 比 如 有 两 个 IO ，IO1 和 
IO2， 当 执行 IO1 时 ， 磁 头 寻 道 至 IO1 所 在 的 磁道 时 ， 刚 好 落 入 IO2 所 在 
的 领地 ， 那 么 此 时 磁盘 不 会 浪费 这 个 时 阶 ， 先 撒 带 着 读 出 或 者 写 入 
IO2 的 内 容 ， 然 后 等 待 盘 片 旋 转 至 IO1 处 时 ， 再 读 出 或 者 写 入 IO1 的 内 
容 。 而 之 前 IO2 的 内 容 可 能 没有 读 或 者 写 全 (比如 刚才 寻 道 时 磁头 并 
没有 落 到 IO2 的 起 点 地 址 对 应 扇 区 的 起 始 字 节 ) ， 那 么 之 后 磁头 继续 
去 读 IO2， 此 时 如 果 有 IO3 可 以 获得 优先 “ 撒 带 ” 式 的 优化 ， 就 重复 刚才 
的 过 程 。 如 此 复杂 的 机 制 ， 全 部 都 是 为 了 让 底层 时 隐 被 充分 利用 。 


10。 面 向 SSD 的 Queue 优 化 


对 于 NAND Flash 颗 粒 ， 单 个 逻辑 颗粒 (一 块 物理 颗粒 中 可 以 有 多 
个 逻辑 独立 的 部 分 ， 暂 称 逻 辑 颗 粒 吧 ) 所 能 达到 的 读 写 速度 或 者 IO 是 
很 低 的 ， 比 如 20MB/s 到 30MB/s 的 样子 。 那 么 为 什么 SSD 可 以 达到 将 近 
280MB/s 的 读 速度 以 及 3000050000 左 右 的 IOPS 呢 ? 除了 SSD 内 部 有 
较 大 的 RAM 缓 存 之 外 ， 还 有 一 个 根本 原因 就 是 SSD 控 制 器 后 端 挂 接 的 
Flash 颗 粒 都 是 并 行 执行 IO 的 ， 而 不 是 像 机 械 硬 盘 那 样 由 一 个 磁头 来 串 
行 执 行 IO。 如 图 19-74 所 示 为 一 个 SSD 的 典型 内 部 逻辑 框图 。8 片 Flash 
心 片 颗粒 ， 每 两 个 挂 在 一 个 通道 上 ， 每 个 通道 为 40MHz 速 率 的 8bit 位 
宽 的 通道 ， 也 就 是 说 每 个 通道 的 速率 为 40MB/s。4 个 通道 共同 连接 到 
Flash 控 制 器 ASIC 心 片上 。 


19-74 SSD 内 部 典型 框图 


每 个 Flash 心 片 其 实 还 可 以 划分 为 更 小 的 单元 ， 也 即 是 Die 和 
Plane， 每 个 Die 可 以 包含 多 个 Plane， 一 般 为 两 个 。 每 个 Plane 都 有 各 自 
的 Page 寄 存 器 用 来 存储 读 出 或 者 待 写 入 的 Page 数 据 ， 所 以 每 个 Plane 可 
以 同时 服务 于 一 个 IO。 如 果 每 个 Flash 颗 粒 有 两 个 Die， 那 么 每 片 就 可 
以 同时 服务 于 4 个 IO ， 也 就 是 并 发 4 个 IO ， 那 么 8 片 Flash 就 可 以 并 发 32 
个 IO ， 也 就 是 每 个 通道 可 以 并 行 各 下 发 4 个 IO 到 其 后 端 下 挂 的 每 片 
Flash 心 片 来 等 待 执 行 。 这 里 可 能 会 产生 疑问 ， 后 端 通道 只 有 8b 宽 ， 这 
么 罕 的 通道 ， 每 个 IO 一 定 是 串 行 在 通道 中 传输 的 ， 何 谈 “ 并 行 ”? 这 个 
问题 与 FCAL Loop 中 如 何 实现 并 发 IO 的 本 质 是 一 样 的 。 可 以 参考 本 书 
附录 中 的 Q&A 相 关 部 分 得 到 答案 ， 即 目标 存储 介质 执行 IO 是 需要 一 定 
时 间 的 ， 对 于 机 械 硬盘 ， 这 个 时 间 间 隐 (时 隙 ) 表现 为 寻 道 十 旋转 延 
迟 。 而 控制 器 利用 这 个 时 隙 ， 将 多 个 IO 下 发 到 多 个 目标 上 由 多 个 目标 
并 行 执 行 《各 自 寻 道 ， 这 个 可 以 微观 并 行 ) ， 这 就 是 并 发 ， 虽 然 在 传 
输 时 一 定 是 串 行 的 ， 但 是 执行 时 却 是 并 行 的 。 那 么 对 于 Flash 心 片 ， 由 


于 没有 寻 道 操作 ， 难 道 它 也 会 产生 时 隐 让 控制 器 “有 机 可 乘 ”， 然 后 分 
派 多 个 IO 下 去 么 ? 一 样 有 ，Flash 心 片 执行 IO 时 有 一 个 次 伏 期 ， 不 管 是 
读 还 是 写 ， 写 需要 的 潜伏 期 比 读 更 大 。 就 是 利用 这 个 潜伏 期 ， 使 得 控 
制 邵 有 充足 的 时 间 可 以 通过 串 行 通道 串 行 地 下 发 多 个 IO 给 后 挂 的 每 个 
Flash 心 片 ， 每 个 Flash 心 片 并 行 地 执行 IO， 然 后 串 行 地 将 结果 返回 给 控 
制 | 如 4。 


图 19-74 中 所 示 的 CE， 即 Chip Enable， 中 文 叫 * 片 选 "， 是 用 来 让 控 
制 器 选择 IO 目标 的 。 每 个 Die 对 应 一 个 片 选 地 址 ， 控 制 器 通过 片 选 来 定 
位 到 每 个 Die 从 而 下 发 IO (可 针对 一 个 Die 中 的 多 个 Plane 并 行 下 发 
IO) 。 


随 着 集成 电路 技术 不 断 发 展 ，SSD 的 规格 越 来 越 高 ， 片 选 的 密度 
越 来 越 高 。 目 前 最 高 的 密度 是 每 个 Flash 必 片 包 含 4 个 CE， 每 片 2.5 英 十 
的 SSD， 其 电路 板 正 反面 每 面 焊接 8 片 Flash， 共 16 片 Flash 就 可 以 有 64 
个 片 选 ， 每 个 片 选 可 以 定 址 一 个 Die， 每 个 Die 如 果 有 两 个 Plane， 那 么 
就 可 以 并 发 128 个 IO。 这 一 点 是 机 械 硬 盘 想 都 不 敢 想 的 〈 机 械 硬 盘 虽 
然 有 多 个 磁头 ， 但 是 同一 时 刻 只 能 有 一 个 磁头 在 读 写 ， 只 能 并 发 一 个 
IO， 或 者 说 不 能 并 发 IO) 。 将 来 可 能 出 现 能 并 发 更 多 IO 的 更 高 规格 。 


-> 


能 并 发 多 少 IO， 就 意味 着 其 前 端的 Queue Depth 至 少 要 有 多 深 。 并 
发 128 个 IO， 那 么 QD 至 少 要 有 128 才 能 满足 胃口 。 而 SATA 协 议 标 准 
中 ，NCQ 最 大 的 QD 不 过 32 而 已 ， 已 经 无 法 满足 SSD 日 益 增 加 的 胃口 。 
对 于 此 ， 不 少 SSD 正 转 为 使 用 SAS 接 口 ， 因 为 SCSI 协 议 标准 中 的 TCQ 
最 大 深度 为 256。 不 仅 如 此 ， 主 机 SAS、SATA 控 制 器 也 要 跟 上 这 一 变 
化 ， 需 要 从 Firmware 和 Driver 两 个 层面 进行 Queue 优 化 操作 。 


如 图 19-75 所 示 为 刚才 那 款 SSD 的 测试 结果 ，100% 的 4KB 随 机 
读 ，thread 为 线程 数 ， 每 个 线程 产生 一 个 同步 I0 ， 所 以 整体 产生 的 并 
发 IO 请 求 等 于 线程 数 ， 也 等 价 于 队列 深度 。 可 以 看 到 1 个 IO 的 ART 为 
0.2ms， 一 直到 16 个 并 发 IO 的 ART 为 0.6ms， 翻 了 3 倍 。 而 对 比 机 械 硬盘 
的 测试 结果 ， 有 天 壤 之 别 ， 其 原因 就 是 因为 SSD 内 部 是 并 发 IO 的 。 但 
是 从 16~32 之 间 却 有 了 质 的 变化 ， 可 以 看 到 32 时 的 ART 相 比 16 时 翻 了 
一 番 ，IOPS 增 加 的 比例 却 微乎其微 ， 此 时 表明 这 块 SSD 的 IOPS 已 经 达 
到 饱和 ， 那 么 可 以 判断 出 ， 这 个 SSD 的 最 大 并 发 IO 数 为 16， 也 就 是 有 
16 个 片 选 。 此 时 再 往 队 列 中 充 入 IO ， 那 么 多 于 16 个 之 后 的 IO 只 能 等 
待 ， 所 以 延迟 翻 舍 。 从 测试 结果 还 可 以 看 出 ，SSD 就 算 再 差劲 ， 其 平 
均 延 迟 是 远 远 低 于 机 械 硬盘 的 ， 而 IOPS 则 是 远 远 高 于 机 械 硬盘 的 。 


图 19-75 SSD 队 列 深度 与 IOPS 曲 线 


另外 ，SSD 的 并 发 10 与 机 械 盘 组 成 的 RAID 一 样 ， 也 是 有 一 定 几 率 
的 ， 在 地 址 完全 平均 分 布 的 随机 小 块 IO 的 场景 下 ， 盲 并 发 几率 达到 最 
高 。SSD 一 样 会 对 充 入 Queue 中 的 批量 IO 进行 优化 算法 ， 控 制 器 会 分 析 
Queue 中 的 IO， 看 看 其 中 哪个 IO 目标 地 址 正好 落 在 了 一 个 空 亲 的 Flash 
颗粒 片 选 上 ， 则 立即 将 其 下 发 。 其 首要 原则 就 是 不 让 任何 片 选 空闲 ， 
所 以 ，SSD 执 行 IO 的 顺序 也 是 乱 序 的 ， 因 此 需要 NCQ 的 FPDMA 来 支 
持 。 


至 此 ， 应 用 程序 发 起 的 IO 请 求 在 内 存 中 经 历 了 文件 系统 、 卷 管理 
系统 、 设 备 驱 动 的 层 层 历练 之 后 ， 终 于 出 了 内 存 ， 被 放 到 了 IO 总 线 上 
进行 传输 。 出 了 内 存 之 后 ，IO 请 求 首 先 被 送 到 了 PCI 控 制 器 然后 立即 
送 上 了 PCI (PCIE、PCIX) 高 速 总 线 快车 道 ， 下 一 站 目的 则 是 位 于 总 
线 那 端的 HBA 适 配 卡 。 进 入 适 配 卡 的 内 存 后 ， 经 由 适 配 卡 上 处 理 器 的 


调度 ， 立 即 又 被 发 送 到 了 适 配 卡 后 端 所 连接 的 浩瀚 网 络 中 。 至 此 ， 这 
个 IO 请 求 终 于 跑 出 了 被 禁 铀 已 久 的 主机 ， 游 尺 于 浩瀚 的 网 络 海洋 之 
中 。 殊 不 知 ， 等 待 它 的 ， 将 是 另 一 个 洞天 ! 


19.2 ”理解 并 记忆 存储 端 1O 路 径 架 构图 


本 节 论 述 IO 的 目的 地 ， 也 就 是 存储 系统 端的 IO 路 径 模 块 架构 。IO 
在 起 源 地 主机 端 经 历 了 一 系列 复杂 的 操作 之 后 ， 最 终 被 发 送 给 存储 端 
处 理 。 任 何 上 层 的 以 及 任何 类 型 的 IO ， 在 离开 主机 端 之 后 ， 都 会 以 
Block IO 的 形式 发 送 给 存储 系统 处 理 (基于 Block 协 议 的 存储 系统 ) 或 
者 以 网 络 文件 IO 的 形式 发 送 给 NAS 存 储 系统 处 理 。IO 请 求 可谓 是 方 出 
龙潭 又 入 虎穴 。 “存储 端 ”? 这 三 个 字 有 三 种 理解 程度 :“ 本 地 人 磁盘” 人“ 主 
机 端 本 地 RAID” 和 “外 部 磁盘 阵列 ”， 其 中 前 者 与 后 两 者 有 着 本 质 区 
别 ， 后 两 者 之 间 并 没有 本 质 区 别 。 对 于 前 者 ， 从 设备 控制 器 驱动 程序 
下 发 的 IO 请 求 会 直接 被 控制 器 透 传 到 目标 设备 ; 而 对 于 后 两 者 ， 驱 动 
程序 下 发 的 IO 请 求 被 控制 器 接收 到 之 后 ， 控 制 器 本 身 还 需要 做 一 定 的 
虚拟 化 映射 处 理 ， 最 终 发 给 目标 磁盘 设备 的 IO 请 求 在 内 容 上 和 数量 上 
都 不 一 定 与 驱动 下 发 的 IO 相同 。 


外 部 存储 系统 对 IO 的 处 理 过 程 与 主机 端 有 很 大 的 同 源 性 。 可 以 说 
存储 系统 本 身 就 是 一 台 主 机 ， 软 件 架 构 上 与 主机 相同 ， 都 是 操作 系统 
十 应 用 程序 组 成 的 ， 存 储 系统 的 操作 系统 ， 有 些 基于 Linux， 有 些 基于 
Windows， 有 些 基于 UNIX， 有 些 则 基于 VxWorks 等 。 


下 面 分 别 描述 一 下 存储 系统 中 的 各 个 层次 。 


19.2.1 ”物理 磁盘 层 


主机 端 发 送 的 任何 数据 最 后 都 要 存储 于 物理 磁盘 中 。 


对 于 一 个 高 可 靠 性 存储 系统 来 说 ， 磁 盘 的 Cache 必 须 被 设置 为 
Write Through 模 式 ， 因 为 物理 磁盘 没有 任何 电池 保护 措施 ， 一 旦 失去 
电源 ， 磁 盘 Cache 中 的 尚未 写 入 盘 片 的 数据 将 会 永久 丢失 ; 而 如 果 
Cache 运 行 在 Write Back 模 式 下 ， 就 将 造成 数据 不 一 致 情况 的 发 生 。 对 
于 不 支持 永久 Write Through 模 式 的 磁盘 Cache， 只 能 靠 磁盘 控制 器 或 者 
驱动 程序 来 强行 设置 每 个 IO 的 FUA 位 来 通知 磁盘 进行 Write Through 模 
式 的 写 入 。 


而 对 于 磁盘 自身 的 读 Cache， 控 制 器 不 会 干预 ， 而 且 所 有 存储 系统 
都 会 允许 磁盘 自身 的 Cache 对 任何 读 操 作 做 缓存 ， 甚 至 还 可 以 进行 磁盘 
自身 的 预 读 。 如 本 章 前 文 所 述 ，Write Through 之 后 的 写 数据 会 一 直 留 
在 磁盘 自身 Cache 中 ， 作 为 读 缓 存 数据 而 存在 ， 这 里 需要 区 别 一 个 细 
节 ， 即 缓存 中 的 预 读 数据 和 被 动 式 的 读数 据 ， 刚 才 说 的 这 种 Write 
Through 之 后 被 动 留存 在 缓存 内 的 数据 称 为 被 动 式 读 数据 缓存 ， 而 磁盘 
缓存 自身 从 盘 片 内 预 读 入 的 数据 为 主动 式 的 预 读数 据 。 


磁盘 读 缓存 对 于 小 块 连续 IO 的 效果 是 非常 显著 的 ， 如 果 在 主机 端 
发 起 512B 的 连续 地 址 IO ， 则 在 存储 系统 处 即 可 以 监测 到 单 块 磁盘 本 身 
接受 和 处 理 的 IOPS 甚 至 可 以 达到 高 于 1000， 这 显然 是 产生 了 Read 
Cache Hit 导 致 。 在 综合 属性 的 IO 下 ， 单 块 磁盘 的 IOPS 一 般 在 200 人 400 
之 间 。 


支持 NCQ 或 者 TCQ 的 磁盘 本 身 具 有 Queue 机 制 ， 控 制 器 可 以 将 一 
批 IJO 充 入 磁盘 Queue 中 从 而 让 磁盘 自身 来 对 Queue 中 的 IO 进行 优化 操 
作 。 


盘 片 大 小 与 性 能 的 关系 


目前 ， 业 界 新 推出 的 存储 系统 都 已 经 推广 使 用 2.5 寸 磁盘 ，3.5 寸 磁 
盘 由 于 其 耗 电量 太 大 ， 占 用 空间 大 ， 已 经 不 能 满足 当今 时 代 节 能 降 耗 
的 需求 了 。 目 前 2.5 寸 的 SAS 磁 盘 其 容量 甚至 比 3.5 寸 SAS 盘 还 要 大 ， 目 
前 最 大 到 900GB。 并 非 技 术 上 3.5 寸 的 不 能 做 到 更 大 容量 ， 而 是 厂家 故 
意 使 然 ， 即 推广 2.5 寸 磁盘 。 那 么 盘 片 变 小 了 ， 其 性 能 是 否 会 减弱 ? 答 
案 是 肯定 的 。 多 种 原因 ， 首 先 2.5 寸 磁盘 其 目前 最 大 转速 为 15krpm， 但 
是 相 比 10krpm 的 2.5 寸 盘 来 讲 ， 成 本 大 幅 提 升 ， 所 以 目前 投入 使 用 的 都 
是 10krpm 的 规格 。 而 3.5 寸 盘 基 本 上 都 使 用 15krpm 规 格 的 ， 转 速 上 低 了 
一 筹 ; 其 次 ， 小 盘 片 其 线 速 度 会 比 大 盘 片 低 ， 加 上 转速 低 ， 两 两 加 
成 ， 导 致 性 能 下 降 。 但 是 我 们 知道 ， 盘 片 越 小 ， 磁 头 摆 动 周期 就 会 越 
短 〈 并 不 是 说 磁头 摆动 的 速度 高 了 ， 而 是 需要 摆动 的 距离 短 了 ) ， 同 
样 的 容量 密度 下 ，2.5 寸 盘 片 比 3.5 寸 盘 片 在 平均 寻 道 时 间 上 要 低 ， 而 寻 
道 时 间 恰 恰 是 影响 IO 性 能 的 重要 指标 ， 那 么 是 不 是 2.5 寸 的 比 3.5 寸 的 
IOPS 性 能 要 高 呢 ? 但 是 还 需要 考虑 一 点 ， 现 在 的 磁盘 对 队列 的 支持 都 
非常 成 熟 了 ， 虽 然 论 单个 IO 的 平均 寻 道 时 间 ，2.5 确 实 比 3.5 强 ， 但 是 
一 旦 外 部 IO 被 队列 化 之 后 ， 那 么 单 IO 平 均 寻 道 时 间 这 个 参数 就 会 被 强 
烈 的 屏蔽 和 弱 化 。 因 为 在 队列 机 制 的 介入 下 ， 磁 头 一 般 都 是 顺 着 一 个 
方向 摆动 就 可 以 撒 带 执行 多 个 IO ， 而 不 是 来 回 频 繁 寻 道 摆动 ， 既 然 这 
样 ， 不 管 盘 片 多 大 ， 哪 怕 10 寸 的 ， 其 向 一 个 方向 持续 摆动 时 执行 IO 的 
效率 ， 就 取决 于 盘 片 旋转 时 的 线 速 度 了 ， 线 速度 越 快 ， 旋 转 延 迟 时 间 
越 少 ，IOPS 就 越 高 。 所 以 ， 在 性 能 上 ，2.5 寸 盘 输 给 了 3.5 寸 盘 ， 但 是 
在 能 耗 上 ， 前 者 比 后 者 可 以 降低 40% 左 右 。 成 本 上 ， 目 前 2.5 寸 盘 依然 
高 于 3.5 寸 盘 ， 相 信和 随 着 时 间 的 推移 ，2.5 寸 盘 的 成 本 会 逐渐 下 降 。 


19.2.2 ”物理 磁盘 组 织 层 


多 块 磁盘 被 插入 到 一 个 扩展 柜 中 进行 集中 供电 散热 和 监测 。 扩 展 
柜 都 会 为 每 个 磁盘 提供 两 个 接口 并 支持 任何 时 刻 从 任何 接口 接收 或 者 
发 送 数 据 。 扩 展柜 上 的 控制 模块 的 作用 请 见 本 书 前 面 的 章节 介绍 。 


扩展 柜 控 制 模块 本 身 可 以 说 是 一 个 诅 入 式 系 统 ， 其 有 上 自己 的 
CPU、 内 存 、Flash ROM 永 久 存储 心 片 ， 软 件 上 ， 它 有 自己 的 操作 系 
统 (一 般 以 Firmware 的 形式 存放 在 Flash Rom 中 ) 。 扩 展柜 控制 模块 掌 
管 着 其 上 磁盘 的 数据 传输 以 及 监测 ， 所 以 控制 模块 硬件 及 Firmware 是 
否 稳定 ， 关 系 到 整个 存储 系统 的 可 用 性 ， 有 些 控制 模块 被 设计 得 很 山 
寨 ， 整 天 不 是 这 坏 就 是 那 坏 ， 硬 件 坏 究 了 就 出 Firmware Bug， 没 完 没 
了 的 问题 。 控 制 模块 一 旦 发 生 问题 ， 轻 则 监测 不 到 硬盘 但 是 硬盘 数据 
IO 正常 ， 重 则 整个 扩展 柜 的 磁盘 直接 与 机 头 断 开 ， 无 法 访问 到 。 


通常 情况 下 ， 扩 展柜 磁盘 的 数据 IO 与 监测 IO 是 分 开 的 两 条 路 径 ， 
控制 模块 上 有 一 类 关键 心 片 ， 也 就 是 FC Loop Switch 心 片 ， 低 端 一 些 
的 只 用 PBC (Port Bypass Circuit) 心 片 。 前 者 在 物理 上 是 交换 直通 架 
构 ， 后 者 则 是 手 拉手 环 Loop 架 构 。 每 个 磁盘 都 与 这 个 已 片 连接 ， 蕊 片 
的 上 行 通 路 或 者 直接 与 机 头 上 的 适 配 卡 连接 或 者 连接 到 上 行 级 联 扩展 
柜 的 同样 心 片 中 ， 数 据 IO 的 直接 控制 者 是 机 头 上 的 适 配 卡 和 它 的 驱动 
程序 ，Loop Switch 心 片 只 起 一 个 物理 数据 传输 的 作用 以 及 FC Loop 仲 
裁 响 应 等 作用 。 所 以 只 要 这 个 心 片 正常 运作 ， 控 制 模块 上 其 他 地 方 出 
现 问题 的 话 ， 那 么 至 少 可 以 保证 数据 IO 是 正常 的 ， 至 于 一 些 监 测 动 
作 ， 比 如 磁盘 温度 的 探寻 、 各 种 传感器 数据 探寻 以 及 与 SES 有 关 的 探 
寻 等 可 能 都 会 变 失效 。 但 是 一 旦 不 稳定 的 Firmware 发 生 骨 溃 导 致 整个 
控制 模块 重启 ， 那 么 此 时 会 连 数 据 IO 都 不 可 进行 ， 机 头 上 的 操作 系统 
会 认为 这 种 情况 为 磁盘 丢失 ， 受 到 影响 的 RAID Group 全 部 需要 被 
Rebuild， 这 无 疑 是 一 个 巨大 的 沪 费 ， 不 但 影响 了 数据 访问 性 能 而 且 还 


降低 了 磁盘 寿命 ， 更 严重 的 情况 还 会 导致 连环 灾难 ， 即 在 Rebuild 过 程 
中 再 次 发 生 丢 盘 ， 一 旦 一 个 RAID 5 组 中 丢 多 余 2 块 盘 ， 那 么 此 时 整个 
RAID 组 的 数据 就 会 宣告 丢失 了 。 


总 之 ， 扩 展柜 控制 模块 的 设计 一 定 要 力求 稳定 。 其 次 在 连接 线 绕 
方面 也 需要 注意 ， 有 些 时 候 因 为 线 线 问题 而 导致 整个 柜子 无 法 访问 。 
磁盘 阵列 后 端 连接 所 使 用 的 线 缆 多 种 多 样 ， 有 各 种 各 样 的 铜 绕 和 光 
缆 ， 虽 然 它 们 都 承载 着 FCAL 协 议 。 


19.2.3 “后 端 磁 盘 控 制 器 /适配器 层 


磁盘 控制 器 以 一 个 适 配 卡 的 形态 存在 于 存储 系统 机 头 当 中 ， 当 然 
有 些 适配器 是 集成 在 主板 之 上 的 ， 但 它 依然 是 通过 PCIX 或 者 PCIE 总 线 
与 系统 桥 心 片 连接 的 。 适 配器 的 每 个 接口 都 会 连接 一 个 扩展 柜上 对 应 
的 接口 ， 由 于 扩展 柜上 提供 了 双 Loop 接 口 元 余 ， 所 以 一 个 机 头 上 可 以 
同时 使 用 两 个 适配器 接口 来 连接 同一 串 扩展 柜 ， 这 样 既 可 以 实现 路 径 
风 余 又 可 以 实现 链 路 带宽 均衡 。 当 然 ， 不 是 所 有 存储 系统 都 支持 这 样 
做 的 ， 扩 展柜 上 的 双 接 口 往往 是 各 自 连 接 不 同 的 机 头 ， 两 个 机 头 之 间 
做 元 余 或 者 负载 均衡 。 


机 头 上 的 操作 系统 执行 与 主机 系统 类 似 的 过 程 ， 通 过 驱动 程序 ， 
从 所 有 适配器 上 发 现 后 端 FCAL 等 网 络 上 的 Target 设 备 ， 每 个 Target 就 
是 一 个 物理 磁盘 。 


注意 : 任何 存储 系统 绝对 不 会 使 用 磁盘 自身 的 Write Back 模 
式 的 缓存 ， 因 为 一 旦 掉 电 ， 数 据 不 保 。 所 以 后 端 磁盘 控制 器 
要 在 初始 化 时 确认 所 有 磁盘 的 缓存 模式 ， 如 果 是 Native Write 
Through 模 式 ， 那 么 控制 器 可 以 不 做 任何 担忧 ， 但 是 如 果 是 


Write Back 模 式 ， 那 么 控制 器 必须 在 每 个 写 IO 指令 中 将 FUA 
位 置 位 以 强迫 磁盘 进行 Write Through。 但 是 一 般 来 讲 ， 稍 微 
高 端 一 些 的 存储 系统 所 使 用 的 磁盘 Fimware 均 为 硬盘 厂商 定 
制 的 ， 这 些 Firmware 会 考虑 到 这 些 的 ， 一般 都 会 支持 Native 
Write Through 模 式 。 但 是 对 于 一 些 低 并 人 存储 系统 ， 所 使 用 的 
硬盘 可 以 是 市 面 上 的 桌面 硬盘 ， 它 们 一 般 都 是 Write Back 模 
式 的 写 缓存 ， 对 于 这 些 存储 系统 的 控制 器 就 需要 注意 了 。 


19.2.4 RAID 管 理 层 


机 头 上 的 操作 系统 识别 到 了 所 有 后 端的 磁盘 ， 下 一 步 它 需要 对 所 
有 这 些 磁 盘 来 划分 RAID Group。 可 以 说 划分 RAID 组 完全 是 一 个 软件 
行为 ， 与 任何 硬件 无 关 。 通 常 所 说 的 所 谓 “ 硬 RAID” 都 是 极 具 误 导 性 的 
说 法 。 所 谓 硬 或 者 软 ， 是 指 对 客户 端 主 机 系统 来 讲 的 。 任 何不 耗费 主 
机 CPU 处 理 资 源 所 实现 的 功能 ， 对 于 主机 来 说 都 是 硬 ， 比 如 硬 解 压 
卡 、 硬 RAID 卡 等 。 至 于 外 部 智能 磁盘 阵列 ， 其 对 RAID 的 管理 当然 也 
不 耗费 主机 端 CPU 资源 ， 所 以 也 可 以 称 为 一 个 超大 硬 RAID 卡 了 。 


但 是 对 于 存储 系统 本 身 来 讲 ， 硬 RAID 这 个 词 没 有 任何 意义 。 操 作 
系统 可 以 使 用 各 种 方式 来 记录 RAID 信 息 ， 比 如 直接 记录 在 所 有 磁盘 上 
的 一 段 固定 保留 区 域 ， 或 者 记录 在 存储 系统 控制 器 的 Flash ROM 中 ， 
但 是 现代 存储 系统 都 会 选择 同时 保存 在 磁盘 固定 区 域 中 和 Flash ROM 
或 者 任何 其 他 形式 的 永久 存储 介质 中 各 一 份 。 这 样 做 的 好 处 就 是 当 把 
磁盘 拔 出 再 插入 时 ， 系 统 可 以 根据 磁盘 上 所 记录 的 信息 来 判断 这 个 磁 
盘 为 尚未 加 入 任何 RAID 组 的 磁盘 ， 还 是 已 经 存在 的 某 个 RAID 组 中 的 
磁盘 ， 而 不 管 这 个 磁盘 插 在 哪个 适 配 卡 接口 下 的 哪个 扩展 柜 。 


Flash 中 保存 的 那 份 则 用 来 在 系统 启动 时 与 磁盘 上 的 信息 作 比 对 看 
看 是 否 一 致 ， 如 果 不 一 致 则 会 用 某 种 方式 提示 用 户 来 选择 使 用 哪 一 
份 。 这 种 功能 的 一 个 应 用 例子 就 是 ， 比 如 两 台 同 样 型 号 的 存储 系统 ， 
某 时 刻 管理 员 想 把 系统 A 上 的 一 整个 RAID 组 迁移 到 系统 B 上 ， 那 么 管 
理 员 需要 把 所 有 系统 A 上 对 应 这 个 RAID 组 的 所 有 磁盘 拔 下 来 然后 插入 
系统 B 上 ， 系 统 B 的 操作 系统 此 时 就 会 读 出 这 些 新 插入 磁盘 上 所 保存 的 
信息 来 与 当前 Flash 中 保存 的 信息 做 比 对 ， 发 现 Flash 中 并 没有 这 些 记 
录 ， 所 以 系统 B 就 会 认为 这 是 一 个 新 的 RAID 组 ， 经 过 一 些 配 置 之 后 ， 
系统 将 Flash 中 的 信息 与 当前 信息 进行 同步 。 


系统 一 方面 可 以 让 用 户 手 动 选择 用 哪些 磁盘 组 成 一 个 RAID 组 以 及 
RAID 的 类 型 ， 另 一 方面 也 可 以 自动 创建 RAID 组 ， 用 户 只 要 给 出 这 个 
组 中 需要 包含 多 少 磁 盘 ， 系 统 就 会 根据 最 优 条 件 自动 创建 。 比 如 尽量 
将 组 中 的 磁盘 分 布 在 不 同 的 后 端 适 配器 接口 的 不 同 扩 展柜 中 ， 尽 量 平 
衡 。 


关于 RAID 条 过 化 编 址 。 条 带 化 其 实 有 两 个 含义 ， 第 一 是 逻辑 地 分 
割 每 个 磁盘 为 多 个 Segment， 每 个 磁盘 相同 位 置 的 Segment 组 成 一 个 横 
向 条 带 ， 然 后 计算 校 验 的 时 候 ， 以 条 带 为 单位 。 条 带 的 另 一 个 含义 ， 
也 是 最 重要 的 含义 ， 是 条 带 把 本 来 的 纵 线 编 址 映射 为 了 横向 编 址 ， 即 
整个 RAID 组 逻辑 空间 对 应 的 物理 地 址 是 以 条 带 为 单位 向 下 排列 的 ， 条 
带 内 则 是 以 Segment 为 顺序 自 左 向 右 的 ， 而 Segment 内 则 又 是 自 上 而 下 
的 顺序 。 这 种 纵横 结合 编 址 的 目的 就 是 为 了 让 某 个 IO 请 求 的 地 址 段 可 
以 跨越 整个 条 带 ， 这 样 ， 每 个 IO 就 会 有 多 个 磁盘 为 它 服务 ， 提 高 速 
度 。 这 种 设计 思想 对 于 某 些 情况 确实 可 以 提高 性 能 ， 但 是 在 另外 一 些 
条 件 下 ， 人 性 能 不 升 反 降 ， 所 以 ， 这 种 思想 目前 正在 被 逐渐 打破 ， 各 种 
新 模式 正在 逐渐 出 现 。 


关于 存储 系统 使 用 的 XOR 芯 片 。XOR 芯 片 只 是 作为 一 种 外 设 与 存 
储 系统 机 头 硬 件 的 IO 总 线 所 连接 ， 比 如 完全 可 以 使 用 PCIE 总 线 来 连接 
这 个 XOR 芯 片 ， 任 何 需要 进行 XOR 的 运算 操作 ， 系 统 都 会 将 数据 发 送 
至 这 个 XOR 心 片 来 计算 ， 计 算 完 成 后 再 放 入 系统 内 存 。 由 于 XOR 心 片 
为 ASIC 设 计 而 不 是 普通 CPU 设计 ， 运 算 方 式 有 本 质 不 同 ， 所 以 大 大 减 
轻 了 存储 系统 主 CPU 的 压力 ， 所 以 可 以 说 XOR 心 片 为 存储 系统 的 一 种 
硬 加 速 器 了 。 


RAID 组 划分 本 身 是 一 个 非常 迅速 的 过 程 ， 因 为 它 并 不 涉及 很 多 实 
际 数 据 的 IO 操作 ， 只 是 将 分 组 信息 数据 写 入 磁盘 固定 位 置 即 可 。 最 耗 
费时 间 的 是 划分 之 后 的 RAID 组 初始 化 过 程 。 关 于 RAID 初 始 化 的 细节 
请 参考 本 书 前 面 的 章节 。 


最 后 ， 创 建 好 的 RAID 组 可 能 还 需要 为 其 指定 一 个 首选 控制 器 ， 即 
选择 由 哪个 机 头 控制 器 来 负责 对 组 内 所 有 磁盘 的 数据 IO 操作 。 由 于 高 
可 用 的 存储 系统 一 般 都 具有 双 控 制 器 机 头 ， 每 个 机 头 都 连接 到 同一 串 
或 者 几 串 扩展 柜 ， 为 了 避免 发 生 数 据 一 致 性 问题 ， 同 一 个 磁盘 任何 时 
刻 一 般 只 允许 由 一 个 机 头 访问 ， 所 以 机 头 一 般 会 向 对 应 的 磁盘 发 起 
SCSI Reservation 操 作 。 创 建 RAID 组 之 后 ， 所 有 组 中 的 磁盘 只 能 同时 
被 一 个 机 头 来 Reserve， 当 一 个 机 头发 生 故 障 之 后 ， 另 一 个 机 头 会 强行 
接管 所 有 的 RAID 组 。 这 种 机 制 的 存储 控制 器 一 般 都 是 松 耦 合 的， 比如 
NetApp 的 FAS 系 列 存 储 。 但 是 目前 几乎 所 有 双 控 存储 系统 都 允许 双 控 
同时 访问 同一 块 磁盘 了 ， 而 只 是 将 其 上 的 LUN 来 分 配给 单独 一 个 控制 
器 机 头 管理 ， 另 一 个 作为 元 余 。 同 一 个 磁盘 上 可 能 会 存在 多 个 LUN 的 
数据 部 分 ， 而 这 多 个 LUN 可 能 又 隶属 于 不 同 的 控制 器 管理 ， 所 以 此 时 
就 需要 双 控 可 以 同时 访问 同一 块 磁盘 。 


存储 系统 创建 RAID 组 的 目的 有 3 个 : 第 一 个 是 为 了 防止 物理 磁盘 
损坏 导致 的 数据 丢失 ;第 二 个 是 为 了 提高 数据 访问 速度 ， 做 对 应 的 条 
带 化 ， 提 高 并 发 度 ， 第 三 个 是 将 底层 的 大 量 磁盘 再 分 割 成 较 小 的 逻辑 
空间 ， 也 就 是 RAID 组 ,方便 管理 。 


1。RAID 的 Write Hole 现 象 及 应 对 方法 


如 图 19-76 所 示 为 Write Hole 现 象 的 示意 图 。 某 时 刻 某 条 带 上 正 有 
一 个 Segment (D1) 以 及 相应 的 Parity Segment (P) 需要 更 新 ， 但 是 在 
更 新 过 程 中 ， 突 然 断 电 。 此 时 磁盘 上 的 数据 状态 可 以 是 以 下 6 种 中 的 一 
种 : D1' 以 及 P' 均 被 成 功 地 更 新 到 了 磁盘 上 、 只 有 P' 被 更 新 、 只 有 D1' 被 
更 新 ，D1' 只 写 了 一 部 分 、P' 只 写 了 一 部 分 、D1' 以 及 P' 均 只 写 了 一 部 
分 。 具 体 是 哪 一 种 ， 系 统 不 得 而 知 。 至 于 “只 写 了 一 部 分 ”是 什么 意思 
呢 ? 大 家 知道 磁头 是 要 在 磁盘 上 进行 磁化 操作 以 写 入 数据 的 ， 所 谓 半 
分 写 入 就 是 指 磁 头 只 磁化 了 对 应 Segment 中 的 一 部 分 扇 区 ， 甚 至 断 电 前 
磁头 所 位 于 的 局 区 本 身 也 只 被 磁化 了 一 小 段 或 者 一 大 段 ， 并 没有 全 部 
磁化 ， 这 就 是 所 谓 的 “部 分 写 入 ” 


19-76 ”Write Hole 现 象 示意 图 


上 述 6 种 状态 中 ， 只 有 一 种 是 需要 的 理想 状态 ， 其 他 都 为 不 一 致 状 
态 ， 比 率 为 15， 所 以 系统 突然 断 电 之 后 ， 数 据 便 会 有 很 大 几率 处 于 不 
一 致 状态 ， 系 统 重启 之 后 必须 对 这 种 情况 进行 处 理 。 断 电 之 前 未 写 入 
成 功 的 数据 ， 磁 盘 不 会 返回 成 功 消 息 ， 那 么 控制 器 就 会 感知 到 断 电 之 
前 的 状态 。 在 电力 恢复 之 后 ， 控 制 器 会 将 上 次 断 电 前 未 写 入 成 功 的 数 
据 再 次 覆盖 写 到 相同 的 地 址 ， 以 确保 写 入 成 功 。 但 这 样 做 的 前 提 是 控 
制 器 中 的 数据 缓存 具有 电池 保护 ， 或 者 可 以 在 断 电 之 前 将 缓存 中 的 数 
据 转 存 到 永久 性 存储 介质 比如 Flash 卡 或 者 磁盘 中 存放 。 同 时 ， 系 统 需 


要 使 用 某 种 状态 机 来 记录 每 次 更 新 条 带 的 结果 ， 更 新 开始 时 将 条 带 标 
记 为 “no_sync”， 表 示 本 次 更 新 尚未 完成 ， 如 果 此 时 掉 电 ， 那 么 重启 之 
后 系统 可 以 感知 到 这 个 条 带 处 于 no_sync 状 态 ， 则 对 其 进行 重新 写 入 ， 
与 入 之 后 将 其 标记 为 in_sync， 即 条 带 此 时 是 一 致 的 。 每 个 条 带 的 状态 
(no_sync/in_sync) 都 被 记录 到 单独 的 元 数据 链 中 保存 。 


2. RAID 层 可 以 考虑 的 一 些 优化 设计 


有 时 候 ， 一 个 RAID 组 的 磁盘 上 可 能 只 承载 了 一 个 或 者 几 个 LUN， 
而 如 果 一 个 RIAD 组 中 的 所 有 的 LUN 所 占据 的 空间 与 RAID 组 全 部 空间 
相差 很 大 的 话 ， 那 么 当 RAID 组 中 某 盘 故障 后 插入 新 盘 开 始 重 构 的 时 
候 ， 就 没有 必要 将 全 部 条 带 都 进行 重 构 ， 完 全 可 以 只 重 构 那 些 被 LUN 
所 占据 的 条 带 。 当 然 ， 前 提 是 这 些 LUN 在 RAID 组 成 员 盘 上 的 位 置 都 是 
固定 的 ， 而 不 是 随时 变化 的 。 这 样 就 需要 RAID 管 理 层 与 LUN 管 理 层 相 
互 配 合 来 实现 这 个 目的 ， 这 样 就 会 大 大 降低 重 构 时 间 ， 延 长 设备 寿 
命 。 目 前 已 经 有 一 些 产 品 实现 了 这 个 功能 。 


RAID 层 在 管理 RAID 0 时 可 以 采用 更 加 灵活 的 方式 。 如 图 19-77 左 
侧 所 示 ， 有 三 块 容量 各 不 相同 的 磁盘 ， 如 果 用 它们 来 组 成 RAID 3/4/5/6 
这 种 校 验 型 的 RAID， 那 么 系统 必定 会 以 容量 最 小 的 盘 为 准 ， 其 他 盘 容 
量 比 这 大 的 部 分 将 会 被 截断 而 不 用 。 但 是 对 于 RAID 0， 无 须 校 验 ， 所 
以 也 就 不 受 这 个 限制 。 图 19-77 右 侧 所 示 的 RAID 0 布局 方式 中 ， 有 三 大 
块 区 域 ， 被 称 为 Zone。 


图 19-77 灵活 布局 的 RAID 0 系统 


此 外 ，RAID 管 理 层 还 负责 局 区 重 定向 等 操作 ， 详 见 本 书 之 前 章 


19.2.5 LUN 管理 层 


RAID 组 划分 之 后 ， 操 作 系 统 对 待 每 个 RAID 组 就 是 一 个 逻辑 上 的 
连续 地 址 的 存储 空间 ， 如 果 用 操作 系统 驱动 链 的 眼光 来 看 ， 那 么 每 个 
RAID 组 也 都 会 有 一 个 驱动 程序 ， 这 个 驱动 程序 负责 将 RAID 组 逻辑 空 
间 地 址 翻译 映射 为 底层 物理 磁盘 的 物理 地 址 ， 然 后 将 对 应 的 IO 请 求 传 
弟 给 磁盘 控制 器 驱动 程序 。 


在 RAID 组 之 上 ， 和 存储 系 统 还 会 生成 男 一 层 人 逻辑 层次 ， 即 LUN ,， 
LUN 也 是 存储 系统 最 终 虚 拟 出 来 的 最 后 一 层 东 西 。LUN 会 被 直接 映射 
给 客户 端 主机 使 用 ， 客 户 端 主机 在 其 自身 存储 适配器 总 线 扫描 的 过 程 
中 会 发 现 一 个 Target 中 的 若干 LUN。 


前 文中 提 到 过 ， 和 存储 系统 会 将 每 个 RAID 组 视 作 一 个 连续 地 址 的 逻 
辑 存 储 空间 ， 也 就 相当 于 一 个 大 逻辑 磁盘 。 那 么 LUN 在 这 个 逻辑 空间 
之 内 到 底 是 怎么 分 布 的 呢 ? 是 像 普通 操作 系统 分 区 一 样 ， 按 照 连续 的 
地 址 一 段 一 段 地 来 分 割 ， 还 是 可 以 像 文 件 系 统一 样 ， 每 个 块 可 以 分 布 
在 逻辑 空间 内 的 任何 区 域内 ， 然 后 用 一 个 复杂 的 数据 结构 来 将 这 些 分 
散 的 块 组 合 起 来 形成 逻辑 上 连续 的 LUN 呢 ? 这 个 问题 并 没有 严格 的 答 
案 ， 每 个 厂商 的 实现 方法 都 不 同 。 有 些 厂商 就 是 使 用 前 者 的 方式 ， 即 
每 个 LUN 在 RAID 组 空间 内 都 是 连续 的 一 大 块 ; 而 有 些 厂商 为 了 获得 极 
高 的 灵活 性 ， 直 接 采 用 了 某 个 文件 系统 来 管理 LUN， 也 就 是 说 ，LUN 
在 这 个 文件 系统 下 面 就 是 一 个 文件 ， 这 个 文件 可 以 存放 在 底层 逻辑 空 
间 内 的 任何 区 块 中 ， 可 以 连续 ， 当 然 也 可 以 随机 分 布 。 使 用 文件 系统 
来 管理 LUN 的 一 个 典型 例子 就 是 NetApp 的 WAFL 文 件 系 统 ， 这 里 就 不 
做 过 多 描述 了 。 所 以 说 ， 存 储 系统 内 部 也 有 卷 管 理 系统 或 者 文件 系 
统 ， 这 两 个 模块 将 底层 逻辑 空间 再 映射 分 割 为 上 层 的 逻辑 空间 ， 也 就 
是 LUN。 


下 面 还 是 用 几 张 示意 图 来 描述 LUN 在 RAID 组 内 的 分 布 方式 吧 。 总 
结 了 一 下 共有 4 种 分 布 方式 。 虽 然 在 具体 设计 实现 的 时 候 又 会 有 细节 的 
不 同 ， 但 是 总 体 的 思想 就 是 这 4 种 。 


1. 纵向 非 条 带 化 LUN 分 布 方式 


这 种 模式 下 ， 每 个 LUN 的 逻辑 地 址 是 纵向 分 布 的 ， 即 用 完了 第 一 
块 磁盘 再 用 第 二 块 磁盘 ， 但 是 底层 的 RAID 组 还 是 以 Stripe 方 式 来 做 逻 
辑 分 割 并 且 计 算 校 验 值 的 ， 所 以 这 种 方式 下 的 LUN 与 条 带 是 垂直 的 。 
这 种 LUN 分 布 方式 在 一 定 条 件 下 是 非常 合适 的 ， 具 体 见 下 文 。 如 图 19- 
78 左 半 部 分 即 为 这 种 方式 的 示意 图 。 


图 19-78 ”条 带 和 非 条 带 LUN 分 布 方式 
2。 横向 条 带 化 LUN 分 布 方式 


这 种 LUN 分 布 方式 是 大 多 数 产品 都 在 使 用 的 设计 。LUN 与 Stripe 平 
行 。 这 种 分 布 方式 在 一 定 条 件 下 会 显示 出 非常 低 的 性 能 ， 具 体 见 下 
文 。 如 图 19-78 中 右 半 部 分 即 为 这 种 方式 的 示意 图 。 注 意 ， 图 中 的 
Parity 磁 盘 只 是 示意 图 ， 对 于 RAID 5 来 讲 Parity 是 分 布 式 的 。 


另外 值得 一 提 的 是 ， 有 些 产 品 设计 要 求 LUN 在 磁盘 上 的 分 布 必须 
连续 ， 不 可 打 断 。 比 如 上 图 中 的 例子 ， 如 果 删 除了 某 个 LUN， 那 么 对 
应 的 这 块 空间 将 会 被 标记 为 空间 ， 而 如 果 随后 需要 创建 一 个 LUN， 但 
是 这 个 LUN 却 比 空余 的 这 块 空间 要 大 ， 那 么 就 不 能 够 直接 使 用 这 块 空 
间 ， 而 必须 在 整个 空间 尾部 划分 一 块 新 的 空间 给 这 个 LUN; 如 果 整 个 


间 加 起 来 却 可 以 容纳 这 个 LUN， 那 么 此 时 系统 会 做 类 似 文件 碎片 整理 
的 动作 ， 将 某 个 或 者 全 部 的 LUN 前 移 或 者 后 移 ， 将 缝隙 合并 ， 空 出 连 
续 的 空间 。 这 样 做 的 根本 原因 就 是 因为 这 些 产品 所 设计 的 LUN 了 映射 管 
理 系统 并 没有 足够 的 智能 来 在 不 连续 的 底层 空间 来 做 映射 。 而 有 些 产 
品 则 可 以 做 到 。 


3。 类 文件 系统 LUN 分 布 方式 


这 种 分 布 方式 与 文件 系统 无 异 ， 只 不 过 每 个 文件 可 能 比较 大 ， 比 
如 几 十 GB， 几 百 GB， 甚 至 上 TB。LUN 其 实 本 来 就 是 一 个 Block 集 合 ， 
逻辑 上 连续 ， 物 理 上 可 以 不 连续 。 这 种 LUN 分 布 方式 其 实 就 是 Filedisk 
思想 ， 再 比如 经 常用 的 光盘 文件 镜像 ISO 格式 。 如 图 19-79 所 示 即 为 这 
种 方式 的 示意 图 。 


图 19-79 ”类 文件 系统 LUN 分 布 方式 


当然 ， 这 张 图 所 表示 的 分 布 情况 并 不 一 定 就 是 实际 情况 ， 而 是 一 
个 极端 情况 。 可 以 看 到 每 个 LUN 的 碎片 都 很 多 ， 而 且 都 是 随机 分 布 
的 ， 这 种 情况 可 不 是 好 现象 ， 过 于 随机 的 分 布 会 导致 当 执 行 连续 地 址 
IO 时 性 能 大 打折 扣 ， 而 连续 IO 本 应 该 是 性 能 最 好 的 IO 方式 。 


4。 基 于 分 布 式 RAID 的 LUN 分 布 方式 


前 文 介绍 了 存储 系统 划分 RAID 组 的 3 个 目的 。 但 是 我 们 仔细 从 宏 
观 的 角度 想 一 想 ， 如 果 不 划 分 RAID 组 ， 又 会 是 一 个 什么 样子 呢 ? 会 不 
会 有 本 质 区 别 呢 ? 也 就 是 说 ， 如 果 将 系统 中 的 所 有 物理 磁盘 组 成 一 个 
大 的 逻辑 空间 ， 然 后 直接 让 LUN 分 布 到 其 上 ， 是 不 是 也 可 以 呢 ? 


如 图 19-80 所 示 即 为 这 种 分 布 式 RAID 的 示意 图 。 所 谓 “ 分 布 式 ” 
RAID， 指 的 是 一 个 RAID 组 无 须 独占 某 几 块 硬盘 ， 可 以 与 其 他 不 同类 
型 的 RAID 共 享 同一 批 物理 硬盘 ， 另 外 ， 同 一 块 磁盘 可 以 承载 任何 一 种 
RAID 类 型 的 一 部 分 。 


图 19-80 “分 布 式 RAID 模 式 的 LUN 分 布 


逻辑 空间 映射 管理 的 最 高 修炼 成 果 融 是 文件 系统 ， 同 样 ， 存 储 系 
统 中 LUN 了 映射 管理 的 最 高 修炼 境界 也 就 是 文件 系统 。 我 们 来 举例 说 明 
一 些 广 商 修炼 的 结果 。 


入 门 代 表 : 多 数 常规 设计 ， 即 图 19-78 所 示 的 两 种 LUN 分 布 和 管理 
方式 。 


进 阶 代表 : WAFL。WAFL 是 绝对 细腻 的 纯 文 件 系统 ， 甚 至 实现 了 
File In File 的 设计 ， 但 是 其 底层 仍 未 脱离 RAID Group。 炉 火 纯 青 代 
表 : XIV、VRAID。XIV 已 经 完全 实现 了 灵魂 脱 壳 而 游刃有余 ， 它 并 
没有 RAID 组 的 概念 。 部 分 原因 是 因为 它 只 能 实现 镜像 式 RAID 10， 只 
不 过 是 分 布 式 RAID 10， 没 有 了 RAID 组 的 概念 。 在 物理 磁盘 出 错时 ， 
它 可 以 只 恢复 被 实际 数据 所 占用 的 空间 而 不 需要 全 盘 恢 复 ， 也 就 是 说 
上 层 人 逻辑 空间 的 分 布 完 全 游离 于 所 有 物理 磁盘 可 以 任意 映射 而 且 也 不 
依附 于 磁盘 ， 关 于 XIV 的 具体 细节 请 参考 本 书 前 面 的 章节 。HP EVA 系 
列 存储 系统 中 用 的 VRAID 的 设计 模式 与 图 19-80 所 示 类 似 ， 但 是 它 尚 未 
做 到 XIV 那 样 的 只 恢复 被 占用 的 数据 。 


提示 : 目前 市 场 上 的 产品 大 多 数 还 是 使 用 横向 条 带 LUN 分 布 
方式 。 纵 向 的 分 布 方式 几乎 没有 人 如 此 设计 。 分 布 式 RAID 的 
LUN 分 布 方式 也 没有 产品 能 做 到 如 图 所 示 的 那 种 灵活 程度 ， 


HP 公司 VRAID 只 是 一 个 初级 版 。 但 是 类 文件 系统 的 LUN 分 布 
方式 ，WAFL、XIV、3PAR 等 都 已 经 可 以 做 到 ， 而 且 WAF] 也 
是 有 潜力 做 到 以 任何 方式 分 布 LUN 并 且 提 供用 户 配置 接口 的 
潜力 的 。 完 全 块 级 虚拟 化 的 LUN 分 布 方式 是 将 来 的 趋势 。 


5.。 全 打 散 式 LUN 分 布 方式 


上 述 的 几 种 LUN 分 布 方式 都 是 局 限 在 某 个 RAID 组 中 的 。 比 如 系统 
中 共有 100 块 盘 ， 每 10 块 做 成 一 个 RAID 5 组 ， 然 后 在 各 个 RAID 组 中 再 
划分 LUN， 每 个 RAID 组 之 间 的 LUN 互 不 影响 。 划 分 成 多 个 RAID 组 有 
利于 性 能 和 容量 隔离 ， 组 与 组 之 间 在 容量 与 性 能 上 不 会 产生 冲突 ( 忽 
略 底层 传输 链 路 以 及 系统 总 线 等 底层 冲突 ) 。 然 而 ， 有 另 一 些 新 型 的 
开放 式 存储 ， 比 如 IBM 的 XIV 以 及 3PAR 等 ， 它 们 的 LUN 是 被 打 散 成 小 
块 (比如 XIV 粒 度 是 1MB) 然后 将 这 些 块 均衡 地 分 散在 系统 中 的 所 有 
磁盘 中 。 这 种 分 布 方式 的 优点 是 巨大 的 ， 在 应 对 随机 IO 方面 提速 很 
多 。 理 论 上 讲 ， 如 果 将 LUN 均 衡 分 散在 所 有 磁盘 中 ， 系 统 中 如 果 有 
180 块 磁盘 ， 那 么 系统 理想 状态 下 最 大 可 以 并 发 针对 这 个 LUN 的 180 个 
随机 IO ， 实 际 中 并 发 几率 也 很 高 《并 发 几率 随 着 盘 数 提高 而 提高 ) ， 
每 个 盘 同一 时 刻 都 服务 于 一 个 IO， 而 如 果 只 将 这 个 LUN 分 布 到 比如 10 
块 盘 组 成 的 RAID 5 组 中 ， 理 论 上 最 大 只 可 以 并 发 5 个 随机 IO， 而 且 并 
发 几率 很 低 。 线 性 提升 随机 IO 的 性 能 是 这 种 全 打 散 的 LUN 分 布 方式 的 
最 大 好 处 。 


但 是 这 种 分 布 方式 也 有 一 个 致命 的 缺点 ， 即 在 面 对 大 块 连续 IO 的 
情况 下 ， 系 统 很 难受 。 如 图 19-81 所 示 为 某 采 用 全 打 散 式 LUN 分 布设 计 
的 产品 。 假 设 某 LUN 的 物理 块 顺序 为 1234567， 这 7 个 块 的 分 布 如 图 所 
示 ， 系 统 中 会 为 每 个 块 保留 一 份 元 余 块 。 当 某 应 用 发 起 读 取 从 1 一 7 这 7 


个 块 的 时 候 ， 本 应 为 连续 IO， 但 是 此 时 系统 所 做 的 事情 就 完全 不 是 连 
续 IO 的 行为 了 。 由 于 系统 并 不 是 按照 严格 横向 条 带 化 方式 分 布 LUN， 
所 以 原本 连续 的 块 可 能 随机 地 分 布 到 每 块 硬盘 的 不 同位 置 ， 这 样 ， 原 
本 连续 IO 就 变 为 了 随机 IO。 虽 然 此 时 仍然 可 以 多 盘 并 发 提供 服务 ， 但 
是 每 个 盘 都 要 随机 寻 道 来 读 写 它 所 拥有 的 分 块 。 传 统 意义 上 的 “连续 IO 
不 需要 频繁 寻 道 ”的 结论 不 再 适用 这 个 情况 了 。 


图 19-81 全 打 散 式 LUN 分 布 模式 
主机 发 起 对 这 个 LUN 上 的 这 7 个 数据 块 的 连续 读 IO 操 作 时 : 


(1) 先 从 一 个 柜子 中 的 磁盘 上 将 1 和 2 数据 块 读 入 缓存 (磁盘 需要 
多 次 寻 道 ) 。 


(2) 再 从 另 一 个 柜子 将 3、4、7 数 据 块 读 出 (磁盘 需要 多 次 寻 
道 ) ， 并 且 通 过 内 部 以 太 网 矩阵 传递 给 接收 主机 IO 请 求 的 那个 柜子 。 


(3) 再 从 另外 一 个 柜子 中 将 5、6 数 据 块 读 出 (磁盘 需要 多 次 寻 
道 ) ， 并 且 通 过 内 部 以 太 网 矩阵 传递 给 接收 主机 IO 请 求 的 那个 柜子 。 


(4) 接收 主机 IO 请 求 的 柜子 收集 到 所 有 数据 块 之 后 ， 将 数据 块 
返回 给 主机 。 


以 上 只 是 在 单 LUN 的 连续 IO 方面 ， 而 在 面 对 多 LUN 并 发 的 大 块 连 
续 IO 时 ， 整 个 系统 性 能 又 降 。 本 质 原因 就 是 因为 LUN 被 均衡 打 散 ， 大 
块 连续 IO 必定 会 在 单位 时 隐 内 占用 几乎 所 有 磁盘 为 某 个 LUN 服 务 ， 而 
此 时 如 果 再 有 第 二 个 LUN 也 接受 大 块 连续 IO， 那 么 所 有 的 磁盘 也 同时 
需要 服务 于 这 个 LUN， 这 样 这 两 个 LUN 就 产生 了 资源 争 抢 ， 系 统 到 底 
优先 服务 于 哪个 LUN 呢 ? 这 就 像 一 个 十 字 路 口 ， 红 灯 到 底 亮 几 秒 才 合 


适 呢 ? 不 管 怎么 样 ， 系 统 肯 定 不 会 以 太 大 的 时 隙 粒度 来 轮流 服务 每 个 
LUN， 这 样 就 必然 导 臻 雪上加霜。 对 一 个 LUN 的 连续 IO 访 问 已 经 牵动 
了 所 有 盘 ， 更 别提 同时 服务 多 个 LUN 的 IO 了 。 


所 以 ， 全 打 散 的 LUN 分 布 方式 ， 最 好 提供 给 用 户 以 可 控 的 接口 ， 
让 用 户 来 定义 具体 某 个 LUN 如 何在 系统 中 的 磁盘 上 进行 分 布 。 针 对 不 
同 的 应 用 系统 ， 选 择 不 同 的 分 布 方式 ， 而 不 是 一 竿 子 定 死 。 目 前 据 笔 
者 所 知 只 有 中 科 蓝 鲸 的 BWFS 提 供 横向 条 带 化 与 纵向 顺序 分 布 这 两 种 
文件 分 布 方式 (文件 分 布 与 LUN 分 布 本 质 是 相同 的 ) 。 


另外 ， 为 了 避免 磁盘 频繁 寻 道 的 问题 ， 全 打 散 式 的 LUN 分 布 可 以 
选择 尽量 将 逻辑 上 连续 的 LUN 块 分 布 到 尽量 连续 的 物理 磁盘 块 中 ， 这 
样 最 起 码 可 以 保证 单 LUN 大 块 连续 IO 情况 下 性 能 不 打折 扣 。 这 样 做 就 
相当 于 横向 条 带 化 的 分 布 模式 了 ， 只 不 过 是 横 跨 到 系统 中 的 所 有 磁盘 
中 了 ， 但 是 这 样 做 也 同时 降低 了 LUN 分 布 的 灵活 性 。 但 是 不 要 误解 一 
点 ， 横 跨 系 统 中 所 有 盘 并 不 意味 着 所 有 盘 组 成 一 个 大 的 RAID 5 组 ， 可 
以 组 成 多 个 RAID 5 组 ，LUN 分 布 于 底层 传统 RAID 是 分 开 的 两 个 层 
面 。 应 始终 牢记 ， 不 管 LUN 如 何 分 布 ，RAID 只 管 在 组 内 磁盘 的 横向 相 
同 地 址 上 的 数据 计算 校 验 并 保存 ，RAID 是 防止 单 盘 失效 的 ， 不 要 将 其 
与 上 层 的 东西 混淆 。 


6. LUN 分 布 方式 的 设计 对 其 他 阵列 高 级 功能 的 影响 


LUN 分 布 的 方式 直接 决定 着 一 个 产品 后 期 对 Snapshot、RAID 组 扩 
容 、Thin Provision 以 及 动态 数据 分 级 (Dynamic Storage Tiering ， 
DST) 的 开发 难 易 度 以 及 粒度 。 这 个 问题 很 显然 ， 如 果 采 用 横向 条 带 
化 定 死 方式 来 分 布 LUN， 那 么 其 他 一 切 高 级 功能 的 设计 也 就 受到 很 大 
局 限 了 。 


RAID 组 扩容 : 首先 来 看 RAID 组 扩容 应 该 怎么 处 理 。 当 RAID 组 内 
新 加 了 一 块 磁盘 之 后 ， 为 了 保持 所 有 LUN 依 然 横 跨 所 有 盘 ， 而 且 还 必 
须 保证 物理 地 址 或 者 逻辑 地 址 的 连续 性 ， 那 么 系统 可 以 选择 使 用 两 种 
方式 来 填充 新 加 入 的 空余 空间 。 第 一 种 是 完全 策 办 法 ， 就 是 将 Segment 
一 个 一 个 地 往 上 移动 ， 从 而 填补 空隙 ， 这 个 工作 是 耗费 大 量 IO 和 计算 
资源 的 ， 读 出 、 写 入 频繁 ， 写 入 时 还 需要 计算 XOR， 但 是 此 时 的 XOR 
计算 读 惩罚 要 相对 少 一 些 ， 因 为 根据 公式 新 数据 的 校 验 数据 = ( 老 数 
据 EOR 新 数据 ) EOR 老 校 验 数 据 ， 此 时 老 数据 =0， 系 统 事先 就 知道 
了 ， 不 需要 读 盘 操作 ， 但 是 老 校 验 数据 还 是 要 读 出 的 。 进 行 重 构 的 同 
时 还 需要 继续 接受 上 层 下 发 的 IO 操作 ， 对 应 用 不 能 有 影响 《具体 机 制 
可 以 参考 本 书 之 前 章节 以 及 附录 1 中 对 RAID 初 始 化 过 程 的 描述 ) 。 如 
图 19-82 所 示 为 扩容 前 与 扩容 后 的 分 布 图 。 虽 然 这 个 办 法 很 笨 而 且 耗 费 
大 量 资源 ， 但 是 其 可 以 保证 LUN 物 理 地 址 的 连续 性 ， 一 了 百 了 。 


图 19-82” 策 办 法 扩容 


第 二 种 办 法 则 是 不 移动 实际 数据 ， 磁 盘 加 入 之 后 ， 首 先进 行 重 
构 ， 将 Parity 重 算 成 一 致 的 〈 由 于 是 在 线 扩容 ， 同 时 可 以 接受 主机 IO，， 
所 以 必须 重 算 Parity; 如 果 是 离线 扩容 ， 那 么 只 需要 向 磁盘 发 送 Zero 
Disk 指 令 让 磁盘 自己 将 自己 的 数据 清 零 ， 之 后 就 不 需要 重 算 Parity 了 ， 
因为 根据 XOR 算 法 ， 加 入 0x00 之 后 ， 原 有 的 Parity 值 不 变 ) ， 之 后 就 放 
那 不 管 了 。 因 为 加 入 新 磁盘 对 之 前 的 LUN 容 量 是 没有 影响 的 ， 之 前 的 
LUN 完 全 可 以 选择 不 动 地 方 。 如 果 此 时 用 户 想 在 这 块 剩余 空间 或 者 原 
有 磁盘 的 剩余 空间 内 创建 新 LUN， 首 先 选择 在 原 有 空间 内 横向 分 布 这 
个 LUN， 如 果 空 间 不 够 ， 那 么 拿 这 块 新 加 入 的 纵向 空间 来 补 齐 ， 这 样 
会 造成 LUN 的 物理 地 址 并 不 是 按 顺 序 横 跨 在 物理 磁盘 上 的 ， 就 需要 做 
一 个 映射 表 来 影射 不 规则 的 物理 地 址 到 规则 的 逻辑 地 址 了 。 如 图 19-83 


所 示 为 这 种 思想 指导 下 的 扩容 前 后 布局 图 ， 可 以 看 到 LUN3 已 经 被 分 
成 两 部 分 ， 横 向 部 分 横 跨 原 有 磁盘 ， 空 间 不 够 的 话 就 支出 一 个 分 部 到 
新 加 入 磁盘 中 纵向 分 布 。 这 么 做 的 好 处 就 是 除了 重 算 Parity 外 不 耗费 其 
他 资源 ， 但 是 会 永远 维护 一 个 地 址 影射 表 ， 而 且 同一 个 LUN 的 不 同 部 
分 有 不 同 的 性 能 。 属 于 一 种 野 路 子 。 


图 19-83 “地址 映射 方式 扩容 


相对 的 ， 如 果 使 用 类 文件 系统 的 块 级 虚拟 化 方式 来 分 布 LUN， 那 
么 应 对 RAID 组 扩容 根本 不 是 问题 ， 甚 至 可 以 除了 重 算 Parity 外 什么 都 
不 用 做 ， 为 何 呢 ? 因为 这 种 LUN 分 布 方式 其 原本 就 维护 了 比较 复杂 的 
块 映 射 表 ， 而 且 分 块 粒度 恒定 ， 分 布 的 有 章法 有 套路 ， 虽然 上 面 那个 
野 路 子 也 有 点 这 个 意思 了 ， 但 是 毕竟 还 是 野 路 子 。 


同时 ， 如 果 选 择 使 用 纵向 非 条 带 化 模式 ， 那 么 面 对 这 种 情况 也 根 
本 不 用 做 什么 ， 除了 Parity 重 算 之 外 。 


" Thin Provision : 对 于 横向 条 带 化 的 LUN 分 布 模式 下 如 何 实现 
Thin， 请 参考 本 书 之 前 章节 。 类 文件 系统 的 LUN 分 布 方式 虽然 
可 以 天 然 地 实现 Thin， 但 是 依然 面临 性 能 问题 ， 它 的 性 能 问题 
与 是 否 开启 Thin Provision 功 能 无 关 ， 而 是 其 这 种 机 制 天 然 就 决 
定 了 在 大 块 连续 IO 下 的 性 能 折扣 ( 见 前 文 ) 。 即 使 对 全 打 散 模 
式 做 了 改进 ， 比 如 前 文 提 到 的 让 逻辑 连续 的 块 物理 上 也 尽量 连 
续 ， 那 么 一 旦 开启 Thin 之 后 ， 物 理 上 是 否 连 续 就 不 是 我 们 所 能 
控制 的 了 ， 多 个 LUN 会 互相 挤占 ， 这 样 就 不 连续 了 ， 此 时 大 块 
连续 IO 性 能 无 法 得 到 保证 。 

Snapshot: 我 们 知道 Snapshot 有 两 种 方式 ，CoFW、WR (或 称 
Redirect On Write，ROW) 。 复 制 或 者 重 定向 写 是 有 一 个 粒度 


的 ， 比 如 4KB ， 甚 至 128KB 等 。 对 于 小 块 全 打 散 式 LUN 分 布 模 
式 ， 这 些小 块 就 可 以 作为 Snapshot 的 复制 粒度 ， 另 外 ， 这 种 模 
式 下 系统 本 来 就 需要 维护 一 份 元 数据 ， 比 如 各 种 链表 、 位 图 等 
来 记录 逻辑 位 置 与 物理 位 置 的 对 应 关系 ， 而 Snapshot 也 需要 类 
似 的 元 数据 ， 所 以 元 数据 方面 又 可 以 统一 整合 了 。 这 极 大 方便 
了 Snapshot 的 设计 和 开发 。 而 对 于 横向 条 带 化 或 者 纵向 非 条 带 
化 模式 ，5| 入 Snapshot 之 后 需要 引入 一 套 额外 的 元 数据 链 ， 增 
加 了 开发 难度 和 设计 难度 。 

DST: 既然 是 块 级 动态 数据 分 级 ， 那 么 天 然 就 可 以 与 全 打 散 的 
LUN 分 布 模式 以 及 类 文件 系统 LUN 分 布 模式 相 融 合 了 。 只 需要 
增加 基层 Tier 级 别 的 定义 ， 比 如 SSD Tier0， 将 热点 块 分 布 到 
SSD 中 同时 变更 地 址 映射 表 即 可 ， 另 外 ， 再 加 入 一 层 热 点 判断 
和 迁移 策略 层 即 可 。 底 层 丝毫 无 须 改 变 。 而 对 于 其 他 类 型 的 
LUN 分 布 模式 ， 就 需要 引入 全 新 的 映射 链表 来 处 理 分 布 在 不 同 
Tier 中 不 同位 置 的 LUN， 增 加 了 开发 难度 。 


所 以 ，LUN 分 布 方式 直接 决定 了 一 款 产 品 的 前 后 期 开发 难度 、 功 
能 、 性 能 、 易 用 性 、 后 期 新 功能 开发 可 行 性 等 。 阵 列 中 玩 的 就 是 
LUN， 除 了 RAID 之 外 ， 其 他 高 级 数据 加 工 功能 都 是 基于 LUN 的 ， 底 
层 架 构 直接 决定 上 层 实现 方式 和 效率 。 


7。 关 于 LUN 的 对 齐 问 题 


所 有 存储 系统 在 创建 LUN 的 时 候 都 会 要 求 用 户 来 选择 这 个 LUN 将 
要 被 何 种 主机 操作 系统 使 用 ， 这 样 做 的 原因 其 实 是 因为 不 同 操作 系统 
使 用 不 同 的 文件 系统 和 卷 管理 系统 ， 而 不 同 的 文件 系统 或 卷 管理 系统 


又 会 从 磁盘 的 不 同 地 址 来 作为 文件 系统 管理 的 空间 的 起 始 地 址 ， 比 
如 ， 至 少 不 可 能 将 LBA0， 也 就 是 MBR 局 区 作为 文件 系统 的 空间 。 


而 常规 情况 下 ， 存 储 系统 中 所 ”图 19-84 起 始 地 泪 不 对 并 示意 图 

创建 的 LUN 都 是 Segment 的 整数 倍 ， 

即 Segment 对 齐 的 。 但 是 由 于 文件 系统 或 者 主机 端 卷 管理 程序 会 从 某 个 
非 0 的 起 始 地 址 来 作为 自身 空间 的 边界 ， 并 不 知晓 这 个 LUN 其 实 是 横 
跨 在 多 块 物理 磁盘 上 的 ， 这 种 使 用 非 0 地 址 为 边界 ， 导 致 了 FS 或 者 VM 
的 逻辑 Block 也 可 能 横 跨 于 多 个 物理 磁盘 。 那 么 也 就 是 说 ，FS 或 Cache 
Manager 每 操作 一 个 Block 或 Page， 就 需要 占用 两 块 磁盘 而 不 是 1 块 ， 产 
生 了 惩罚 ， 如 图 19-84 所 示 。 为 了 解决 这 个 问题 ， 存 储 系统 会 根据 用 户 
在 创建 LUN 时 给 出 的 操作 系统 类 型 来 动态 地 在 LUN 了 映射 关系 式 内 将 对 
应 的 起 始 地 址 偏 移 量 变量 的 值 向 前 推移 对 应 的 局 区 数量 ， 从 而 达到 与 
上 层 的 逻辑 起 始 地 址 重合 。 上 下 不 对 齐 会 导致 严重 的 性 能 问题 ， 存 储 
系统 一 般 均 会 判断 这 种 情况 是 否 发 生 并 且 通 过 某 些 输出 来 通知 用 户 ， 
比如 当 存 储 系统 向 后 某 个 LUN 下 发 1 个 IO 请 求 时 ， 到 了 底层 却 变 成 了 
两 个 ， 那 么 就 很 容易 判断 发 生 了 Misalign 情 况 。 


为 了 解决 这 个 问题 ， 存 储 系统 都 会 针对 不 同 的 操作 系统 来 分 布 
LUN， 将 LUN 中 对 应 FS 起 始点 的 LBA 地 址 与 底层 卷 的 Block 边 界 对 
齐 ， 也 就 是 类 似 于 将 LUN 在 底层 RAID Group 中 前 移 一 定 长 度 的 LBA 地 
址 ， 这 段 长 度 会 根据 不 同 操作 系统 而 不 同 。 


8. LUN 碎 片 整理 
请 不 要 误会 这 里 所 说 的 “碎片 整理 ”。 主 机 端的 碎片 整理 整理 的 是 


LUN 里 的 文件 系统 块 ， 而 阵列 段 的 LUN 碎 片 整理 指 的 是 阵列 自身 在 底 
层 物 理 磁 盘 层面 整理 被 分 裂 成 多 块 的 LUN， 将 其 合并 成 一 个 物理 上 连 


续 的 空间 。 为 何 会 出 现 LUN 碎 片 ? 这 个 问题 不 得 不 拿 NetApp 的 WAFL 
来 开刀 了 。LUN 在 WAFL 下 就 是 一 个 彻头彻尾 的 文件 ， 与 普通 文件 系 
统 中 的 文件 别 无 二 致 。 正 因 如 此 ， 不 可 避免 这 个 LUN 会 随 着 时 间 的 增 
长 就 可 能 被 分 布 到 底层 物理 空间 的 各 个 位 置 ， 连 续 IO 到 了 底层 变 为 了 
随机 IO ， 这 是 谁 都 不 想 看 到 的 。 所 以 WAFL 提 供 了 碎片 整理 程序 。 当 
然 ，WAFL 对 LUN 的 分 布 是 最 极端 也 是 最 容易 的 做 法 。 其 他 厂商 对 
LUN 的 分 布 没有 如 此 的 灵活 ， 基 本 上 都 是 连续 的 横向 分 布 在 底层 RAID 
组 之 上 的 。 


比如 EMC 的 Clariion CX4 系 列 存储 中 ， 当 在 某 个 RAID 组 中 创建 了 3 
个 LUN， 之 后 删除 了 第 二 个 LUN， 那 么 此 时 便 会 在 RAID 组 物理 空间 
留 下 一 个 空 阶 。 如 果 随 后 打算 再 次 创建 一 个 新 LUN， 如 果 待 创建 的 
LUN 的 大 小 小 于 等 于 这 个 空 除 ， 那 么 系统 会 将 这 个 LUN 分 布 到 这 个 空 
隙 中， 这 是 最 好 的 状况 ， 如 果 尺 寸 大 于 这 个 空 除 ， 那 么 系统 就 只 能 选 
择 其 他 的 更 大 的 空余 空间 来 创建 这 个 LUN ， 这 块 空隙 就 不 能 够 被 利 
用 ， 这 个 空隙 就 被 称 为 “碎片 ”， 当 然 这 种 碎片 肯定 不 如 WAFL 的 碎片 
粒度 大 。EMC 提 供 了 碎片 整理 程序 ， 如 图 19-85 所 示 为 一 个 空隙 碎片 产 
生 的 过 程 。 图 19-86 所 示 为 碎片 整理 之 后 的 LUN 分 布 状况 。 


图 19-85 LUN 碎片 的 产生 


图 19-86 ”碎片 整理 完毕 的 状态 


在 Scale-Out 架 构 的 存储 系统 中 ， 很 多 厂商 就 希望 LUN 被 打 帮 ， 比 
如 IBM 的 XIV、3PAR InservT 系 列 、EMC 的 Symmetrix V-Max 系列 ， 它 
们 的 LUN 分 布 思想 都 是 打 碎 分 布 到 多 个 节点 的 存储 空间 中 ， 这 样 来 


讲 ， 相 当 于 LUN 被 故意 设计 为 碎片 ， 用 多 个 节点 并 行 地 服务 于 这 些 碎 
片 。 这 样 做 在 随机 10 访 问 的 情况 下 确实 会 提升 效能 ， 但 是 在 多 LUN 并 
发 连续 IO 的 情况 下 ， 效 果 可 能 适得其反 ， 具 体 分 析 可 见 本 章 后 面 内 
容 。 


思考 : LUN 分 布 方式 、ThinProvision、 自动 分 级 存储 ， 仔 细 
想来 ， 这 三 者 其 实 是 可 以 融洽 的 ， 因 为 它们 三 者 的 基础 都 是 
块 级 别 粒度 的 数据 分 布 和 移动 。 比 如 ， 某 个 LUN 以 类 文件 系 
统 方式 来 分 布 ， 分 布 粒 度 以 1GB 为 单位 增长 ， 利 用 类 似 文 件 
系统 元 数据 的 方式 来 记录 整个 LUN 的 映射 链 关 系 ， 同 时 ， 也 
可 以 容易 地 实现 数据 的 自动 分 级 ， 以 1GB 为 粒度 ， 构 建 一 个 
数据 库 来 追踪 记录 每 个 1GB 区 域 的 属性 、 访 问 频率 、 当 前 所 
处 的 层级 等 信息 ， 然 后 定时 启动 分 级 迁移 策略 。 

所 以 ， 在 设计 LUN 分 布 方式 的 时 候 ， 一定 要 结合 考虑 今后 的 
增值 功能 规划 。 如 果 LUN 的 分 布 方式 过 于 定 死 ， 那 么 就 不 利 

今后 的 Thin 以 及 自动 分 级 的 实现 了 。 


19.2.6 ”前 端 接 口 设备 及 驱动 层 


存储 系统 前 端 接 口 用 于 连接 主机 客户 端 。 与 主机 所 不 同 的 是 ， 存 
储 设 备 会 有 更 多 种 类 和 数量 的 网 络 接口 ， 比 如 FC 接口 、 用 于 iSCSI 协 
议 的 以 太 网 接口 、SAS 接 口 等 。 主 机 客户 端 会 通过 前 端 接口 识别 存储 
系统 映射 的 LUN 并 且 对 LUN 做 数据 IO 或 者 控制 IO 操作 。 


注意 : 前 端 接口 处 需要 注意 的 一 个 地 方 就 是 Queue Depth， 
在 各 个 层次 都 尚未 产生 瓶颈 的 时 候 ，Queue Depth 越 大 ， 一 次 
接受 和 处 理 的 IO 就 越 多 ， 系 统 表现 出 来 的 IOPS 和 吞吐 量 就 会 
越 高 。 但 是 当 任 何 一 处 达到 瓶颈 的 时 候 ，Queue 就 会 逐渐 开 


始 积压 IO 请 求 ， 单 个 IO 的 响应 时 间 会 随 着 积压 严重 程度 而 越 
来 越 高 。 


19.2.7 ”缓存 管理 层 


外 部 存储 系统 一 般 都 安 丢 有 比较 多 的 内 存 来 作为 数据 缓存 ， 并 且 
为 了 防止 突然 断 电 或 者 系统 Down 机 导致 的 内 存 数据 丢失 ， 外 部 存储 系 
统一 般 都 会 使 用 各 种 方法 来 保存 这 些 尚 未 被 写 入 硬盘 的 Dirty 数 据 。 有 
些 直接 使 用 电池 给 内 存 供电 ; 有 些 则 使 用 位 于 存储 设备 机 架 内 的 微型 
UPS 不 间断 电源 在 外 部 电源 故障 时 将 内 存 中 的 Dirty 数 据 写 入 硬盘 数据 
区 之 后 再 将 系统 Gracefully Shutdown; 或 者 利用 内 部 微型 UPS 直 接 将 内 
存 中 的 所 有 数据 Dump 到 硬盘 的 固定 位 置 的 空余 空间 之 后 将 系统 
Shutdown 待 电源 恢复 后 再 读 入 内 存 然后 写 入 硬盘 数据 区 ; 有 些 则 使 用 
电 闻 给 内 存 和 一 个 Flash 卡 供电 ， 发 生 电 产 故 障 之 后 ， 通 过 某 个 智能 心 
片 将 内 存 中 的 数据 Dump 到 Flash 卡 中 存放 。 


1. 关于 缓存 的 分 配 


存储 系统 内 存 分 为 两 大 部 分 : 一 是 供 存 储 系统 的 操作 系统 内 核 以 
及 其 他 上 层 程序 运行 所 需要 的 内 存 空间 ， 二 是 用 于 缓存 读 写 数 据 的 数 
据 缓 存 。 数 据 缓存 又 可 分 为 读 缓 存 和 瑟 缓 存 ， 人 至 于 读 和 瑟 组 存 所 占 的 
比例 ， 不 同 产 品 设 计 也 不 同 ， 但 是 一 般 情况 下 ， 写 缓存 所 占 比例 大 于 
读 缓存 。 因 为 对 于 一 个 大 容量 的 存储 系统 ， 缓 存 的 大 小 相对 于 磁盘 容 
量 来 讲 是 九 牛 一 毛 ， 读 缓存 在 大 多 数 情况 下 的 命中 率 都 不 会 很 高 ， 所 
以 与 其 将 内 存 分 配给 读 缓存 ， 不 如 多 分 配 一 些 给 瑟 缓 存 ， 因 为 在 Wirite 
Back 模 式 下 ， 一般 情 况 下 的 写 总 是 “命中 ”的 (区别 于 “ 写 命中 ”， 后 文 
会 介绍 “ 写 不 命中 ”) 。 然 而 请 理解 ， 读 或 者 写 缓存 ， 并 不 一 定 是 物理 


上 分 界 的 ， 各 自 也 并 不 一 定 是 物理 上 连续 的 ， 任 何 一 个 缓存 Page 只 要 
被 标记 为 Dirty， 那 么 这 个 Page 融 属于 写 缓存 ， 一 旦 标记 被 抹 掉 ， 那 么 
它 就 属于 读 缓存 了 。 一 些 高 端 产 品 具 有 很 大 的 缓存 ， 这 些 高 端 控制 器 
对 读 写 缓存 可 能 会 进行 物理 上 的 分 界 ， 读 和 写 互 不 干扰 。 


2. 关于 写 缓存 镜像 


对 于 双 控 制 器 架构 的 存储 系 图 19-87 ” 双 控 制 器 写 缓存 镜像 示意 图 

统 ， 为 了 防止 控制 器 自身 故障 所 导 

致 的 内 存 数据 丢失 ， 两 个 控制 器 之 间 的 写 缓 存 是 互 为 镜像 的 关系 ， 即 
控制 器 A 收 到 一 个 写 IO 操 作 ， 则 会 立即 将 这 个 IO 请 求 及 其 数据 通过 控 
制 器 间 内 部 互联 链 路 发 送 给 控制 器 B 一 份 保留 ， 然 后 才 可 以 向 主机 客 
户 端 返 回 成 功 信号 。 当 控制 器 A 将 这 个 IO 写 入 磁盘 之 后 会 通知 控制 器 B 
将 它 保留 的 IO 副本 作废 以 便 腾 出 空间 。 如 图 19-87 所 示 为 双 控制 器 写 缓 
存 镜像 的 示意 图 。 缓 存 镜像 的 过 程 会 增加 主机 端的 IO 响应 时 间 ， 并 且 
系统 的 总 体 写 带宽 会 受制 于 控制 器 间 的 数据 链 路 速率 ， 当 然 ， 设 计 优 
展 的 存储 系统 都 会 消除 这 个 瓶颈 。 控 制 器 间 链 路 速率 至 少 要 与 所 有 前 
端 总 线 带宽 之 和 的 20% 差 不 多 ， 一 般 场景 下 与 与 读 的 比例 可 以 按照 二 
八 开 。 


3。 关 于 缓存 命中 率 


对 于 连续 IO， 由 于 系统 预 读 的 效应 ， 命 中 率 通常 可 以 保证 比较 
高 。 但 是 对 于 随机 度 很 大 的 IO 请 求 ， 命 中 率 普遍 非常 低 。 对 于 随机 IO 
命中 率 低 的 问题 目前 没有 什么 特效 解决 办 法 ， 除 非 使 用 不 需要 机 械 寻 
道 的 存储 介质 比如 SSD。 被 从 磁盘 读 入 缓存 的 数据 在 传输 给 主机 端 之 
后 并 不 会 立即 作废 ， 而 是 停留 一 段 时 间 来 碰 一 碰 运 气 看 看 是 否 一 段 时 


间 内 还 有 IO 请 求 读 取 同样 的 数据 或 者 地 址 有 交集 的 数据 。 随 着 数据 被 
不 断 的 读 入 ， 系 统 总 要 作废 一 些 老 数 据 而 引入 一 些 新 数据 ， 存 储 系统 
一 般 使 用 LRU (Least Recently Used) 算法 来 决定 缓存 中 哪些 数据 作废 
哪些 继续 保留 。 系 统 会 在 Page Table 中 为 每 个 Page 记 录 一 个 最 后 访问 时 
间 惟 以 及 Dirty Bito 


预 读 是 显著 提高 命中 率 的 手段 ， 预 读 方式 根据 产品 设计 而 不 同 ， 
但 是 目前 厂商 采用 的 方法 都 大 同 小 异 。 有 一 类 Multi Stream Detection 设 
计 需 要 着 重 介 绍 一 下 。 假 设 主机 端 有 1 个 进程 在 对 某 个 LUN 发 起 读 
IO，IO 属 性 为 连续 IO ， 地 址 从 0 往 上 逐 1 增 加 ， 比 如 LBA0、1、2、3、 
， 此 时 存储 系统 会 感知 到 这 种 连续 性 从 而 做 大 力度 的 预 读 
动作 ， 缓 存 命 中 率 非 常 高 ; 但 是 如 果 主 机 端 有 两 个 进程 对 这 个 LUN 做 
读 IO 操作 ， 而 且 每 个 进程 发 起 的 IO 属性 也 各 自 都 为 连续 IO ， 第 1 个 进 
程 从 地 址 0 开始 逐 1 增加 ， 第 2 个 进程 从 地 址 4 开始 逐 1 增加 ， 由 于 两 股 
IO0 流 是 混合 发 向 存储 系统 的 ， 那 么 它们 的 混合 排列 就 可 能 是 类 似 “0 45 
16 234 78 5 9” 这 种 方式 。 存 储 系统 接收 到 这 串 IO 流 ， 虽 然 小 范围 内 地 
址 是 不 连续 的 、 跳 路 的 ， 但 是 大 范围 之 内 ， 地 址 还 是 连续 的 ， 并 且 如 
果 将 这 串 被 合并 的 IO 流 智 能 地 监测 分 开 为 两 个 独立 的 流 (Stream) 的 
话 ， 那 么 就 会 发 现 其 实 看 似 随 机 的 IO 其 实 是 连续 的 ， 那 么 系统 就 可 以 
有 针对 性 地 加 大 预 读 力度 ， 提 高 命中 率 了 。 而 不 具有 这 种 Multi Stream 
Detection 功 能 的 系统 ， 面 对 这 种 混合 流 时 ， 其 预 读 力 度 就 不 会 太 大 。 
实际 情况 中 可 能 存在 多 个 Stream 混 合 ， 这 就 对 算法 的 效率 有 了 更 高 的 
要 求 。 

然而 ， 对 于 大 块 连续 读 IO 来 讲 ， 预 读 就 变 得 没有 意义 了 ， 此 时 前 


端 数据 的 需求 处 于 供不应求 状态 ， 所 以 哪里 还 会 有 “ 预 ” 读 这 一 说 呢 ? 
所 以 ， 有 些 存储 系统 提供 配置 参数 ， 如 果 用 户 确 定 某 个 LUN 所 接受 的 


IO 都 是 大 块 连 续 IO， 那 么 可 以 关闭 针对 这 个 LUN 的 预 读 以 绕 过 系统 预 
读 代 码 流程 ， 节 约 计算 资源 。 


几乎 所 有 人 都 认为 缓存 命中 率 的 概念 只 对 读 IO 有 意义 而 对 于 写 没 
有 任何 意义 ， 其 实 这 种 看 法 是 片面 的 。 在 某 种 特殊 情况 下 ， 写 也 需要 
缓存 命中 的 ， 如 果 不 命中 ， 则 需要 耗费 一 些 额 外 的 惩罚 步骤 ， 说 到 这 
里 大 家 可 能 就 有 所 感觉 了 。 下 文 将 描述 所 谓 真 正 的 “ 写 命 中 ”是 什么 意 


田 
/ENO 


4. 关于 缓存 管理 单位 


目前 所 有 操作 系统 对 内 存 的 管理 都 是 使 用 Page 为 单位 ， 一 个 Page 
可 以 是 4KB、8KB、16KB 甚 至 更 大 。 存 储 系统 内 部 也 运行 着 操作 系 
统 ， 所 以 存储 系统 的 缓存 管理 单位 也 一 样 是 Page。 并 且 ， 操 作 系 统 将 
文件 、 块 设备 等 皆 映 射 到 Page Cache 中 ， 存 储 系 统一 样 也 是 将 LUN 来 
映射 到 Page Cache 中 。 既 然 这 样 ， 本 章 前 文中 所 述 的 那些 在 主机 端 发 
生 惩罚 现象 ， 在 存储 系统 内 部 一 样 是 存在 的 。 如 果 主 机 端 发 向 存储 系 
统 的 IO 请 求 长 度 不 足 1 个 Page， 而 这 个 Page 在 Cache 中 尚未 被 读 入 ， 那 
么 此 时 便 会 触发 Page Fault， 需 要 Page In 过 程 。 而 Page In 过 程 几乎 在 所 
有 的 操作 系统 中 都 是 一 个 同步 过 程 ，Page 只 能 一 个 接 一 个 的 被 从 底层 
读 入 ， 而 这 又 更 拖 慢 了 整体 性 能 ， 如 果 主 机 端 采用 的 是 write Through 
模式 ， 那 么 这 个 影响 会 直接 被 联动 到 IO 源头 。 


明白 了 上 面 这 一 点 ， 就 可 以 彻底 理解 所 谓 “ 写 命中 ”了 。 本 书 前 面 
章节 提 到 的 “ 写 命中 ”只 包含 了 一 种 情况 ， 即 先后 多 次 写 IO 针 对 同一 地 
址 ， 则 所 有 这 些 IO 就 可 以 被 覆盖 为 最 后 所 接收 到 的 写 IO， 最 终 只 需要 
向 下 层 发 起 一 次 IO。 而 写 命中 还 包含 男 一 个 含义 ， 即 一 旦 某 个 写 IO 长 
度 小 于 1 个 Page， 或 者 不 能 被 Page 大 小 除 尽 (比如 4.5KB) ， 那 么 除 不 


尽 的 那 部 分 所 落 入 的 Page 的 内 容 如 果 已 经 位 于 Cache 中 ， 那 么 此 时 这 个 
与 IO 就 命中 了 ， 可 以 直接 在 对 应 的 Page 中 覆盖 入 接收 到 的 数据 并 标记 
整个 Page 为 Dirty。 但 是 如 果 除 不 尽 的 那 部 分 对 应 的 Page 内 容 并 未 在 
Cache 中 ， 需 要 Page Im 过 程 ， 那 么 此 时 就 说 这 个 写 IO 未 命中 ， 或 者 部 
分 命中 ， 意 味 着 需要 耗费 额外 的 读 入 过 程 。 不 管 是 否 全 部 命中 ， 只 要 
是 IO 长 度 除 不 尽 Page， 还 会 产生 额外 的 数据 写 入 〈 除 不 尽 的 那 部 分 所 
占 的 Page 需 要 全 部 被 写 入 底层 介质 ， 而 不 是 仅 写 入 余数 部 分 ) 。 


如 果 遇 到 IO 起 始 地 址 不 对 齐 Page 边 界 的 状况 ， 则 后 果 会 更 加 严 
重 。 如 果 某 个 IO 恰好 横 跨 在 两 个 相 邻 的 Page 中 间 ， 则 系统 需要 读 入 这 
两 个 Page， 如 果 是 写 IO， 则 读 入 之 后 还 要 再 写 入 这 两 个 Page。 


综 上 所 述 ， 最 好 使 用 4KB 可 除 尽 的 IO 长 度 ， 即 起 始 地 址 和 长 度 皆 
为 4KB 的 倍数 ， 否 则 会 引起 性 能 问题 。 使 用 文件 系统 提供 的 API 一 般 不 
会 出 现 4KB 不 对 齐 的 情况 ， 而 如 果 直 接 对 块 设备 或 者 RAW 设备 作 IO， 
则 尽量 在 IO 源头 就 保证 发 出 的 IO 符合 4KB 对 齐 条 件 。 可 见 对 齐 的 重要 
性 。 


有 不 少 高 端 存储 系统 可 以 对 Page 的 大 小 进行 调整 以 符合 典型 的 IO 
长 度 。 比 如 数据 库 类 程序 ， 它 们 一 般 直接 使 用 RAW 设备 进行 IO ， 而 且 
它们 将 数据 以 Extent (或 称 segment、block 等 ， 叫 法 不 重要 ) 的 形式 存 
储 在 LUN 中 ， 它 们 每 次 读 入 或 者 写 出 的 单位 也 是 Extent 的 整数 ， 此 
时 ， 存 储 系统 就 应 当 将 Page 大 小 调节 为 与 Extent 相 等 即 可 。 如 果 小 于 
Extent， 则 会 因为 更 多 的 Page In 请 求 而 影响 性 能 (每 个 Page In 都 是 同 
步 操作 过 程 ) ， 而 且 Page 越 小 ，Page Table 映 射 表 的 容量 越 大 ， 浪 费 就 
越 多 ， 查 找 效率 也 越 差 ; 如 果 Page 大 于 Extent， 则 可 能 会 产生 读 写 惩 
罚 ， 得 不 偿 失 。 所 以 ， 使 二 者 相等 是 最 好 的 办 法 。 


5。 关 于 Cache 分 区 技术 


一 些 存储 系统 甚至 可 以 对 整个 Cache 进 行 分 区 ， 为 不 同 的 LUN 对 
应 的 Cache 设 定 不 同 的 Cache 大 小 以 及 Page 大 小 ， 这 样 做 就 更 加 灵活 
了 。Cache 分 区 商业 化 的 典型 代表 是 HDS 公 司 的 USP 以 及 AMS 系 列 存储 
系统 。 如 图 19-88 所 示 为 针对 不 同 应 用 需求 分 配 不 同 大 小 Page 尺 寸 的 
Cache 分 区 的 示意 图 。 


图 19-88 ”为 不 同 应 用 设置 不 同属 性 的 Cache 分 区 


如 图 19-89 所 示 为 对 分 布 在 SATA 盘 RAID 组 中 的 LUN 和 分 布 在 FC 盘 
RAID 组 中 的 LUN 分 配 不 同 的 Cache 分 区 ， 进 行 逻辑 隔离 。 由 于 SATA 盘 
的 低 性 能 ， 容 易 造成 缓存 积压 ， 影 响 FC 盘 性 能 的 发 挥 ， 所 以 有 必要 进 
行 缓存 的 逻辑 隔离 ， 这 个 问题 被 称 做 “快慢 盘问 题 ， 随 后 会 介绍 。 


图 19-89 为 SATA 盘 的 RAID 组 和 FC 盘 的 RAID 组 隔离 分 区 


如 图 19-90 所 示 为 在 HDS 的 存储 系统 中 创建 多 个 Cache 分 区 的 界 
面 。 图 19-91 则 为 分 配对 应 的 Cache 分 区 给 对 应 的 LUN 的 界面 。 


图 19-90 ”设置 Cache 分 区 图 19-91 将 对 应 的 Cache 分 区 分 配给 对 应 
的 LUN 


6. 关于 Write Back 模 式 的 缓存 对 读 和 写 IO 的 影响 


大 家 都 知道 ， 在 没有 缓存 的 情况 下 ， 读 总 是 比 写 要 快 的 。 但 是 一 
旦 有 了 缓存 ， 情 况 就 彻底 不 同 了 。 如 果 缓 存 是 Write Back 模 式 并 且 足 
够 大 ， 此 时 写 就 可 能 比 读 快 得 多 ， 因 为 读 可 能 不 命中 ， 但 是 写 一 定 都 
会 “命中 ”( 不 考虑 写 惩 罚 ) 。 而 且 Write Back 模 式 的 缓存 也 会 弱化 连续 


与 与 随机 写 之 间 的 性 能 差距 ， 因 为 不 管 是 随机 还 是 连续 ， 主 机 端 发 送 
的 所 有 写 请 求 只 要 一 到 达 存 储 系统 缓存 就 被 通知 成 功 。 判 断 是 否 随机 
和 连续 是 存储 系统 本 身 的 事情 ， 受 影响 的 也 只 是 存储 系统 自身 后 端的 
性 能 ， 但 是 对 主机 端 来 讲 没有 影响 。 所 以 ，WB 模 式 下 ， 对 于 主机 闫 
来 说 ， 随 机 写 总 比 命中 率 低 下 的 随机 读 要 快 得 多 。 综 上 所 述 ， 写 缓存 
比 读 缓存 的 收益 更 大 ， 这 就 是 为 何 写 缓 存 占 的 比例 比 读 缓存 大 的 原 
因 。 


但 是 ， 如 果 遇 到 诸如 每 秒 上 百 兆 流量 的 大 块 的 连续 写 IO 的 情况 ， 
那么 此 时 这 些 写 IO 数据 没有 必要 占用 Cache 不 放 ， 此 时 存储 系统 会 触 
发 类 似 Write Through 的 直接 写 盘 动作 ， 从 而 尽量 快速 地 释放 Cache 空 间 
以 迎接 后 续 IO 的 到 来 。 


存储 系统 对 IO 的 处 理 像 Linux 上 的 IO Scheduler 一 样 ， 也 会 对 IO 进 
行 Merge 处 理 ， 一 旦 遇 到 地 址 连续 或 者 有 重合 交集 的 情况 ， 那 么 这 些 
IO 会 被 Merge 成 一 个 大 IO 来 提高 效率 ， 节 约 后 端 资 源 。 


7. 关于 写 缓存 的 Flush 动 作 


缓存 不 可 能 无 限 大 ， 理 所 当然 ， 当 写 缓存 中 的 Dirty Page 达 到 一 定 
的 比例 的 时 候 ， 系 统 必 须要 将 这 些 Dirty Page 写 入 对 应 的 LUN 以 腾 出 空 
间 来 接收 后 续 的 IO 数据 。 在 中 高 端 存储 系统 中 ， 这 个 比例 一 般 都 是 可 
调节 的 。 缓 存 就 像 一 个 蕾 水 地 ， 当 攻 水 达到 一 定 水 位 线 的 时 候 ， 就 需 
要 有 所 动作 ， 否 则 引起 水 漫 金山 ， 后 果 不 可 收拾 。 所 以 ， 这 个 与 缓存 
Dirty 比 例 阅 值 又 被 称 为 "High Watermark”。 当 水 位 到 达 HW 之 后 ， 引 发 
Flush， 蕾 水 池 放 水 ， 水 位 逐渐 降低 ， 当 降低 到 “Low Watermark” 时 ， 
停止 放水 。 这 种 Flush 触 发 方式 称 为 “watermark Flush”， 当 然 不 同 厂 商 
产品 叫 法 不 同 。Flush 过 程 毕竟 是 一 个 很 耗费 资源 的 过 程 ， 这 期 间 ， 主 


机 客户 端的 IO 会 受到 不 小 的 影响 。 正 因 如 此 ， 如 果 奶 求 稳定 的 写 IO 性 
能 ， 则 应 当 适 当 调 低 HW， 让 系统 增加 Flush 的 频率 ， 每 次 Flush 耗 费 的 
时 间 将 缩短 ， 保 持 有 一 定 的 空余 Cache 和 尽快 释放 系统 资源 以 用 来 接收 
新 到 的 写 IO。 这 样 ， 对 于 前 端 就 会 表现 为 比较 恒定 的 IO 流 ， 而 不 至 于 
每 次 都 到 了 最 后 才 收 拾 烂摊子 ， 导 臻 剩余 Cache 捉 襟 见 肝 ， 前 端 会 表现 
为 IO 流 时 大 时 小 时 快 时 慢 不 稳定 。 


如 果 系 统 长 时 间 未 达到 HW， 那 么 此 时 系统 也 需要 来 一 次 放水 以 
防止 污水 存放 时 间 太 久 ， 夜 长 梦 多 。 比 如 每 10 秒 放 一 次 等 。 这 个 疝 值 
一 般 是 不 可 调 的 。 这 种 Flush 触 发 方式 称 为 “Time Flush”。 


如 果 系 统 需 要 做 一 些 高 层 的 操作 ， 比 如 做 Snapshot 等 ， 那 么 此 时 
务必 需要 将 缓存 Flush 一 次 而 不 管 是 否 达 到 了 时 间 阅 值 或 者 HW。 因 为 
只 有 Dirty Page 全 部 写 入 底层 介质 之 后 ，Snapshot 才 可 以 反映 这 个 时 间 
点 人 硬盘 上 的 数据 。 这 种 Flush 触 发 方式 称 为 “Sync Flush”。 


如 果 遇 到 大 流量 的 连续 大 块 1I0 写 入 ， 那 么 HW 会 频繁 的 达到 ， 
Flush 会 连续 进行 ， 这 种 Flush 方 式 称 为 “<B2B Flush”， 即 Back To Back 
Flush， 发 生 这 种 情况 表明 存储 系统 已 经 应 接 不 上 暇 了 。 但 是 ， 并 不 一 定 
非 要 遇 到 大 流量 的 10 写 入 时 才 会 引发 B2B Flush， 有 时 候 由 于 后 端的 瓶 
颈 ， 也 可 能 引发 。 比 如 在 系统 接收 了 大 量 的 随机 写 IO 之 后 ，Flush 这 些 
随机 分 散 的 IO 会 引起 后 端 磁盘 大 量 的 寻 道 操作 ， 过 程 会 非常 慢 ， 而 此 
时 前 端 如 果 依 然 有 大 量 的 写 IO 到 来 ， 那 么 HW 又 会 达到 ， 系 统 将 再 次 
触发 Flush，Flush 也 会 连续 进行 ， 整 体 性 能 受到 影响 。 


在 系统 进行 Flush 时 ，Dirty Page 被 描述 为 链 对 象 ， 每 个 对 象 包含 了 
一 串 定 量 的 Dirty Page， 每 串 Dirty Page 都 会 尽量 保持 地 址 连续 以 实现 
整 条 写 ， 然 后 这 些 对 象 被 传送 给 RAID 层 ，RAID 层 判断 是 否 需 要 读 出 


Parity 和 被 覆盖 的 数据 来 进行 XOR 计 算 ， 如 果 需 要 则 读 出 ， 如 果 不 需要 
则 为 整 条 写 ， 则 整 条 数据 间 进 行 XOR 计 算 Parity。 然 后 RAID 层 负责 将 
算 好 的 数据 传送 给 底层 设备 驱动 从 而 写 入 对 应 的 硬盘 。Flush 是 一 个 极 
其 耗费 系统 资源 的 过 程 ， 这 个 过 程 会 动员 全 体 资 源 的 支持 ， 尽 快 地 将 
数据 写 入 磁盘 。 


8. 关于 电池 保护 缓存 


对 于 一 些 使 用 电池 保护 缓存 的 产品 ， 当 电池 发 生 故 障 时 ， 比 如 检 
测 不 到 电池 输入 端 电 压 ， 或 者 电压 降低 到 阅 值 之 后 长 时 间 无 法 充电 恢 
复 其 电压 ， 那 么 此 时 系统 就 认为 电 闻 失效 ， 并 且 会 将 缓存 设置 为 
Native Write Through 模 式 ， 任 何 写 IO 必 须要 写 入 磁盘 之 后 才 会 返回 成 
功 信 号 给 主机 客户 端 ， 此 时 系统 性 能 将 会 受到 很 大 的 影响 ， 写 IO 进 行 
重 排 合 并 优化 的 时 间 几 乎 为 0， 只 能 碰 运 气 。 当 电池 恢复 之 后 ， 又 会 重 
新 恢复 Write Back 模 式 。 


有 些 产品 选择 在 掉 电 或 者 以 意外 宕 机 之 后 将 缓存 中 的 数据 复制 到 
一 张 Flash 卡 中 存放 ， 比 如 IBM DS5000 系 列 ， 这 个 过 程 只 需要 耗费 很 
少 的 电量 ， 所 以 只 需 利用 若干 大 电容 来 储存 电量 即 可 。 有 些 厂商 则 提 
供 一 个 小 UPS， 意 外 宕 机 或 者 掉 电 之 后 ， 将 缓存 中 的 数据 复制 到 后 端 
某 几 块 磁盘 中 存放 ， 这 种 做 法 需要 更 大 的 电量 支持 。 


9。 关 于 缓存 LUN 技 术 


某 些 情况 下 ， 主 机 对 某 个 LUN 的 IO 性 能 要 求 非常 高 ， 容 不 得 半点 
延迟 ， 则 有 些 存储 系统 可 以 将 整个 LUN 或 者 LUN 的 某 些 部 分 读 入 缓存 
并 且 对 应 的 Page 不 会 被 Page Out， 这 些 数据 一 直 被 保留 在 缓存 当中 ， 
以 获得 最 小 的 IO 延迟 。 这 种 情况 下 ， 即 便 是 主机 发 送 大 量 的 随机 IO 操 


作 ， 也 不 会 受到 磁盘 寻 道 的 影响 。 这 种 做 法 的 代价 就 是 耗费 大 量 缓存 


空间 。 
10。 资 源 均 衡 问 题 


当 存 储 系统 中 有 不 同性 能 的 介质 层 时 ， 慢 速 介 质 会 消耗 更 多 的 缓 
存 和 IO 资源 ， 因 为 慢 速 介质 相 比 于 快速 介质 需要 更 长 的 时 间 才 能 完 
一 个 IO 请 求 ， 这 样 就 会 导致 缓存 中 对 应 这 个 IO 操作 所 保留 的 资源 将 要 
停留 更 长 的 时 间 。 这 些 资 源 包括 Page 页 面 空 间 、 代 码 堆栈 、 状 态 机 、 
se 这 样 ， 如 果 系统 中 同时 存在 慢 速 和 快速 介质 ， 那 么 快 
介质 的 效果 便 可 能 会 由 于 得 不 到 所 需 的 资源 而 大 打折 扣 ， 在 极端 条 
ee 这 些 资源 可 能 会 被 耗 尽 ， 导 致 不 管 后 端 采 用 何 种 介质 ， 其 对 外 
的 表现 都 会 处 于 同一 个 水 平 。 


此 问题 可 以 扩大 到 任何 对 资源 的 争 抢 问题 。 比 如 ， 即 使 针对 同一 

种 性 能 层级 的 两 个 存储 空间 ， 对 其 下 发 不 同类 型 的 IO 请 求 ， 也 会 造成 

资源 争 抢 。 随 机 IO 总 是 会 占据 更 多 的 资源 ， EE 该 是 表现 出 

更 快 的 速度 ， 但 是 可 能 受累 于 随机 IO 的 资源 争 抢 ， 连 续 IO 的 效果 可 能 
会 被 拖 下 水 ， 在 极端 条 件 下 可 有 ne 


面 对 这 个 问题 ， 所 有 厂商 都 需要 考虑 将 资源 进行 合理 划分 ， 为 高 
速 介 质 分 配 一 定 比例 的 资源 ， 并 且 动 态 调整 。 根 据 某 些 测试 结果 来 
看 ， 并 不 是 所 有 厂商 都 有 此 实现 的 。 当 混用 FC 与 SATA 盘 时 ， 某 些 存 
储 设 备 针对 FC 磁盘 所 表现 出 来 的 性 能 与 同样 数量 的 SATA 盘 所 表现 出 
来 的 性 能 相当 。 


11。 存储 系统 中 的 QOS 


Cache 分 区 、 资 源 预 留 、 自 动 分 级 存储 等 措施 ， 都 属于 存储 系统 的 
QOS 范畴 ， 包 括 上 文中 所 述 的 解决 资源 均衡 的 问题 ， 也 属于 QOS。 不 
同 的 主机 、 不 同 的 应 用 系统 其 所 要 求 的 IO 性 能 或 者 容量 都 是 不 同 的 。 
而 一 台中 高 端 存储 系统 往往 同时 为 多 台 应 用 主机 同时 提供 存储 服务 ， 
这 就 必然 要 求 存 储 系统 对 这 些 主机 和 应 用 区 分 对 待 ， 而 不 是 无 序 的 谁 
抢 着 算 谁 的 。 正 像 网 络 设备 一 样 ， 存 储 系统 也 需要 利用 网 络 进行 数据 
传输 ， 那 么 就 免不了 多 数据 流 争 抢 资源 的 问题 了 ， 存 储 系统 完全 也 可 
以 像 网 络 设备 那样 实现 某 种 加 权 队 列 来 控制 不 同 数 据 流 的 优先 级 和 融 
宽 控 制 。 但 是 目前 这 种 技术 尚未 有 获得 厂商 高 度 推广 的 迹象 。 


HDS 公 司 在 其 高 端 USP 系 列 存储 中 提供 了 多 种 QOS 组 件 ， 包 括 : 
Cache Partition、 Virtual Partition Manager (VPM) 、 Server Priority 
Manager (SPM) 和 HiCommand QOS Modules (HQM) 。 缓 存 分 区 之 
前 已 经 介绍 过 ，VPM 则 是 相当 于 把 一 台 物 理 的 阵列 逻辑 地 划分 为 多 个 
部 分 ， 每 个 部 分 之 间 不 争 抢 资 源 ， 整 个 划分 过 程 通过 两 层 来 实现 : 最 
底层 首先 划分 缓存 以 及 磁盘 ， 称 为 Cache Logical Partition (CLPR) ， 
每 个 CLPR 中 包含 一 定数 量 的 缓存 以 及 一 定数 量 的 RAID 组 ; 第 二 层 为 
Storage Management Logical Partition (SLPR) ， 一 个 SLPR 即 表现 为 一 
个 虚拟 逻辑 阵列 ， 每 个 SLPR 中 可 以 包含 多 个 CLPR。 图 19-92 显 示 了 
SLPR 与 CLPR 之 间 的 关系 。 


图 19-92 ”SLPR 与 CLPR 的 关系 


HDS 公 司 USP 系 列 存储 设备 的 另 一 项 QOS 功 能 则 是 Server Priority 
Manager。 该 软件 的 主要 功能 是 在 多 台 主 机 使 用 同一 存储 系统 的 情况 
下 ， 保 证 高 优先 级 的 主机 应 用 的 性 能 ， 避 免 其 受到 其 他 低 优先 级 主机 
的 影响 。 可 以 选择 从 IOPS 或 者 带宽 两 个 角度 来 对 主机 做 优先 级 处 理 ， 


二 者 不 能 同时 选择 ， 可 以 通过 阵列 端口 或 者 主机 FC 卡 的 WWPN 来 对 不 
同 主 机 进行 分 类 。 此 外 还 提供 Threshold Control 功 能 ， 比 如 当 高 优先 级 
主机 的 IO 需 求 下 降 到 某 特定 值 (用 户 指 定 ) 时 ， 系 统 自动 关闭 对 低 优 
先 级 主机 的 IO 限制 ， 这 样 可 以 避免 当 高 优先 级 主机 的 IO 负载 自己 下 降 
到 很 低 程 度 时 ， 低 优先 级 主机 的 IO 仍然 被 限制 ， 从 而 充分 利用 资源 。 
19-93 所 示 为 在 Server Priority Manager 中 根据 端口 来 配置 IOPS 或 者 带 
宽 需求 时 的 界面 。 


图 19-93 ”Server Priority Manger 配 置 界面 


HQM 则 是 针对 一 系列 应 用 程序 (包括 Oracle、Sybase、Exchange 
Server、File Server) 所 提供 的 一 种 与 应 用 紧密 结合 的 端 到 端的 性 能 监 
空 统计 软件 模块 。 以 HiCommand QoS for Oracle 为 例 ， 它 的 功能 主要 包 
括 : 


= 自动 发 现 Oracle 应 用 的 下 层 构 件 ， 并 将 其 展现 为 拓扑 结构 ，; 

" 识别、 报告 Oracle 应 用 与 AN 构件 的 依赖 关系 ，; 

" 实时 监控 从 应 用 到 存储 系统 的 性 能 状况 ， 通 过 历史 数据 统计 提 
供 性 能 需求 及 预测 ; 

= 自动 发 现 、 监 控 、 分 析 容 量 使 用 情况 ， 协 助 制定 未 来 容量 计 
划 ; 

。 基于 策略 ， 对 影响 Oracle 的 存储 事件 自动 做 出 响应 。 


类 似 地 ，EMC 公 司 的 Navisphere Quality of Service Manager 
(NQM) 也 提供 了 类 似 的 QOS 功 能 。NQM 首 先 根据 用 户 的 设置 对 所 
有 进入 的 IO 流量 进行 分 类 ， 可 以 按照 LUN、IO Size、IO 类 型 ( 读 / 瑟 ) 
以 及 未 明确 指定 的 所 有 其 他 类 型 IO (Background Class 类 型 ) 来 划分 IO 
类 型 ， 系 统 将 持续 监控 这 些 IO 类 别 。 之 后 ， 系 统 根据 用 户 所 设置 的 IO 


优先 级 信息 ， 包 括 IOPS、 带 宽 吞 吐 量 、 响 应 时 间 来 对 对 应 类 别 的 IO 实 
现 优 先 级 排序 从 而 实现 QOS。 如 图 19-94 所 示 为 NQM 的 主 配置 界面 。 
图 19-95 所 示 则 为 定义 IO 类 别 以 及 限制 条 件 的 配置 界面 。 


图 19-94 NQM 的 主 配置 界面 


图 19-95 ”Server Priority Manger 配 置 界面 


12. 特殊 的 VO 和 缓存 管理 


不 得 不 提 一 下 NetApp 的 WAFL 对 IO 与 缓存 的 管理 。 (本 书 多 处 介 
绍 WAFL 并 不 是 笔者 对 其 有 崇拜 之 意 ，WAFL 优 势 很 多 ， 劣 势 也 不 少 。 
只 是 个 人 比较 了 解 ， 打 算 做 到 知 无 不 言 ) 


大 家 知道 Linux 下 的 EXT3 文 件 系 统 ， 其 可 以 使 用 多 种 日 志 模 式 。 
第 一 种 是 只 记录 操作 行为 ， 而 对 所 操作 的 目标 数据 原 内 容 、 新 内 容 不 
记录 ， 这 与 数据 库 的 日 志 不 同 ， 第 二 种 则 是 操作 行为 与 目标 原 内 容 与 
新 内 容 都 记录 ， 与 数据 库 的 记录 方式 相同 。 默 认 方 式 下 使 用 前 者 ， 婚 
降低 资源 消耗 ， 又 能 够 保证 元 数据 一 致 性 ， 但 是 并 不 能 保证 文件 内 容 
也 一 致 。 比 如 ， 复 制 某 超大 文件 到 90% 的 时 候 ， 中 途 断 电 ， 重 启 之 后 
你 可 能 会 发 现 这 个 文件 根本 没有 出 现在 目标 ， 或 者 已 经 复制 的 容量 只 
有 50% 而 不 是 90%。 但 是 如 果 使 用 了 全 内 容 记录 模式 的 日 志 ， 那 么 重 
启 之 后 系统 只 会 将 原子 操作 回 滨 ， 此 时 你 会 发 现 已 经 复制 过 去 的 数据 
可 能 也 是 90% ， 也 可 能 是 89% ， 总 之 回 滚 粒 度 会 变 小 ， 只 回 滚 断 电 瞬 
间 不 一 致 的 已 分 配 间接 块 ， 此 时 这 份 没 复制 完 的 文件 你 可 以 删 掉 然 后 


重新 复制 。 第 二 种 日 志方 式 会 拖 慢 系统 性 能 ， 但 是 却 能 够 获得 最 佳 的 
一 致 性 以 及 最 小 的 数据 丢失 。 


WAFI 也 是 一 个 日 志文 件 系统 ， 也 同样 使 用 内 容 十 元 数据 一 起 记录 
的 日 志方 式 ， 这 是 理所当然 的 ， 因 为 作为 一 个 企业 级 存储 系统 来 讲 ， 
保证 数据 一 致 性 和 不 丢失 是 基线 要 求 。 但 是 如 何 解 决 性 能 拖 慢 问题 
呢 ? WAFL 的 办 法 就 是 将 日 志 直 接 保存 在 RAM 中 而 不 是 硬盘 上 ， 再 使 
用 后 备 电池 来 防止 掉 电 引发 的 数据 丢失 ， 这 样 ， 性 能 问题 解决 了 ; 然 
而 ， 容 量 问题 并 没 解 决 ，WAFL 用 来 保存 日 志 的 RAM (也 就 是 
NVRAM， 其 实 就 是 电池 保护 的 普通 RAM) 只 有 几 GB ， 最 大 也 不 过 
4GB ， 除 去 镜像 对 方 控制 器 的 部 分 ， 只 有 一 半 ， 再 加 上 刷 盘 的 High 
Water Mark 被 定 死 为 50% ， 所 以 每 当日 志 量 达到 1GB 的 时 候 ， 系 统 就 
必须 触发 刷 盘 操作 。 


有 人 产生 疑问 了 ， 存 储 系统 中 不 是 有 几 十 GB 甚 至 上 百 GB 的 缓存 
么 ? 为 什么 不 能 拿 出 大 部 分 来 充当 WAFL 日 志 存 放空 间 ? 这 样 WAFL 的 
性 能 应 该 更 好 啊 ? 是 的 ， 但 是 WAFL 有 个 硬指标 ， 也 就 是 至 少 每 隔 10s 
要 做 一 次 刷 盘 动作 产生 一 个 一 致 性 点 (CheckPoint，CP) 。10s 的 时 间 
并 不 是 空穴来风 ， 有 两 个 原因 。WAFL 最 怕 的 就 是 不 一 致 ， 由 于 其 是 
一 个 彻底 的 文件 系统 ， 所 以 为 了 保障 一 致 性 这 个 基线 要 求 ， 其 刷 盘 的 
间隔 相对 其 他 厂商 产品 来 讲 是 最 频繁 的 ， 即 便 有 电池 保护 ，WAEFL 也 
不 能 够 完全 相信 电池 。 这 一 点 从 NetApp 在 磁盘 上 使 用 额外 空间 来 存放 
Checksum 的 做 法 就 可 见 一 斑 ，NetApp 对 底层 硬件 是 完全 信 不 过 的 ， 因 
为 它 自己 不 生产 硬件 ， 这 是 其 中 一 个 原因 。 另 外 一 个 原因 ， 每 次 刷 盘 
需要 耗费 巨大 的 系统 资产， 所 以 需要 尽量 降低 每 次 刷 盘 的 数据 量 ， 如 
果 每 次 刷 盘 要 几 十 GB 的 数据 ， 那 系统 将 会 顿 卡 ， 前 端 应 用 主机 的 IO 延 
返 将 闫 升 ， 这 是 谁 都 不 想 看 到 的 。 所 以 NetApp 把 NVRAM 的 大 小 进行 


了 严格 限制 ， 这 样 可 以 让 每 次 CP 的 时 候 能 够 快速 完成 同时 不 至 于 对 前 
端 造成 影响 。WAFL 这 种 刷 盘 方式 并 不 是 细水长流 型 的 ， 是 一 批 一 批 
来 的 ， 属 于 山洪 暴 友 型 。 


实际 中 B2B (Back to Back) 类 型 的 CP 时 有 发 生 ， 也 就 是 系统 连续 
处 于 CP 状态 下 。 特 别 是 高 带宽 应 用 下 ，NVRAM 快 速 充 满 ， 造 成 系统 
连续 CP， 此 时 也 相当 于 细水长流 方式 的 刷 盘 了 。 但 是 由 于 NVRAM 总 
数据 量 不 大 ， 连 续 CP 不 会 对 前 端 造成 顿 卡 的 影响 。 


NetApp 在 系统 中 除了 NVRAM， 还 配 有 几 十 GB 的 另 一 部 分 
RAM。 这 部 分 RAM 主 要 用 来 运行 操作 系统 以 及 各 种 增值 软件 功能 、 
存放 预 读数 据 以 及 用 于 刷 盘 时 的 数据 读 入 、 修 改 、 写 入 过 程 所 需要 读 
入 的 数据 〈 从 NVRAM 中 读 出 的 待 写 入 的 内 容 与 RAID 校 验 计算 所 需 从 
磁盘 读 出 的 数据 块 ) 。 


综 上 所 述 ， 对 于 NetApp 的 产品 ， 其 实际 等 效 写 缓 存 为 NVRAM 容 
量 的 四 分 之 一 ， 目 前 最 大 也 就 是 4:4= 王 1GB。 至 于 系统 剩余 的 其 他 
RAM 的 大 小 会 对 性 能 有 多 大 影响 ， 尚 不 可 乱 猜 ， 但 是 从 商务 角度 考 
虑 ， 厂 商 间 都 在 诡 规 格 、 闫 参 数 ， 各 家 产品 都 不 会 在 RAM 规 格 上 落 
后 ， 管 他 有 多 少 效果 ， 先 配 到 业界 水 平 表 说。 同时， 不 了 解 技术 细节 
的 用 户 也 时 常 被 厂商 所 忽悠 误导 了 标书 。 


本 书 的 一 个 目的 就 是 让 所 有 人 了 解 存 储 底 层 细 节 。 
19.2.8 ”数据 前 处 理 和 后 处 理 层 


外 部 智能 存储 系统 之 所 以 称 为 智能 ， 并 不 是 由 于 其 能 管理 大 量 的 
磁盘 ， 生 成 大 量 的 LUN， 拥 有 众多 的 前 后 端 接口 ， 而 本 质 原因 其 实 是 
它们 拥有 一 些 高 附加 值 的 Data Cooker。 这 些 Data Cooker 专 门 对 原始 数 


据 进 行 预 处 理 或 者 后 处 理 ， 它 们 就 像 大 厨 一 样 对 原始 数据 进行 加 工 处 
理 ， 最 后 实现 一 些 让 人 耳目 一 新 的 功能 ， 包 括 : Snapshot、LUN 
Mirror、 LUN Clone、 Data Migrating、 Data Tier、 Disaster Recovery、 
CDP、 Dedupilcation、Space Reclaiming、 Virtualization 等 。 


这 些 Data Cooker 会 以 各 种 方式 嵌入 到 整个 存储 系统 中 ， 比 如 主 入 
到 系统 底层 驱动 链 中 ， We 它们 的 插入 会 改 
变 原 本 的 数据 流 路 径 甚 至 数据 内 容 。 比 如 Snapshot， 一 旦 针对 某 个 
LUN 生 成 了 Snapshot， ee De 
块 过 滤 和 处 理 。Snapshot 属 于 前 处 理 ， 即 数据 在 被 写 入 介质 之 前 就 会 
被 处 理 。 后 台 Deduplication 就 属于 一 种 后 处 理 ， 即 当 数 据 被 写 入 介质 
之 后 ， 当 系统 不 忙 的 时 候 ，Deduplication 模 块 对 数据 进行 采集 和 计算 
并 且 消 除 重复 的 数据 块 。 后 处 理 的 例子 还 包括 比如 Space Reclaiming， 
这 个 模块 也 是 需要 在 后 台 来 完成 对 浪费 的 存储 空间 的 回收 。 


关于 数据 前 处 理 和 后 处 理 的 内 容 已 经 在 本 书 之 前 的 章节 中 介绍 
过 ， 这 里 就 不 再 多 说 了 。 


19.2.9 ”存储 系统 处 理 一 个 IO 的 一 般 典 型 流程 


下 面 用 一 张 图 来 结束 本 节 。 如 图 19-96 所 示 为 一 个 外 部 存储 系统 处 
理 一 个 IO 请 求 的 典型 流程 图 。 图 中 所 示 的 仅 为 基本 的 流程 ， 并 未 引入 
具体 的 细节 ， 细 节 过 程 可 以 参考 本 节 之 前 的 文字 。 


图 19-96 ”存储 系统 IO 请 求 典 型 流程 图 


19.3 IO 性 能 问题 诊断 总 论 


本 章 前 两 节 已 经 遍历 了 从 IO 起 源 地 到 IO 目的 地 之 间 的 全 部 过 程 。 
本 市 将 对 其 做 一 个 总 结 。 


业务 层 ， 始 作 俑 者 ! IO 的 源头 是 应 用 程序 ， 而 程序 是 为 了 业务 需 
求 而 生 的 。 程 序 对 IO 性 能 的 需求 直接 反映 了 业务 的 类 型 和 复杂 度 。 如 
果 我 们 能 够 精简 业务 ， 简 化 业务 流程 ， 提 高 业务 效率 ， 那 么 将 会 从 根 
本 上 降低 程序 对 IO 性 能 甚至 整个 IT 系统 的 需求 。 


应 用 层 ， 身 不 由 己 ! 人 在 江湖 ， 身 不 由 己 ! 程序 反映 的 是 业务 逻 
辑 ， 业 务 逻 辑 有 多 复杂 ， 程 序 就 有 多 复杂 ， 相 对 应 的 数据 库 在 查询 或 
者 更 改 数据 的 时 候 所 发 出 的 IO 就 有 多 复杂 。 当 然 ， 程 序 发 起 的 IO 操作 
并 不 是 与 业务 逻辑 复杂 度 严 格 对 应 的 。 一 些 应 用 程序 或 者 数据 库 执 行 
脚本 对 底层 IO 欠 考虑 ， 编 程 的 时 候 粗 枝 大 叶 ， 并 没有 调查 底层 的 情 
况 ， 所 以 并 未 做 到 优化 处 理 。 有 时 候 应 用 层 只 要 稍微 变 一 变 设 计 、 语 
句 执 行 顺 序 或 者 IO 调 用 方式 等 ， 就 会 带 来 很 大 的 收益 。 所 以 对 IO 要 求 
比较 高 的 应 用 程序 在 设计 时 需要 专门 对 IO 模块 进行 设计 。 比 如 SQL 语 
句 ， 实 现 同 样 的 业务 需求 ， 换 一 种 方式 ， 也 许 就 能 得 到 成 百 上 干 倍 的 
速度 提升 。 


操作 系统 ， 主 战场 总 指挥 官 ! 操作 系统 平台 提供 了 所 有 程序 的 运 
行 环境 ， 直 接 操作 底层 硬件 ， 提 供 多 种 IO 调 用 模式 以 满足 不 同 需求 。 
在 Windows 下 ，IO Manager 使 用 IRP 作 为 信使 来 将 所 有 驱动 链 连 接 了 起 
来 ;在 Linux 下 ， 系 统 使 用 bio 作 为 信使 也 将 各 个 驱动 层 联系 了 起 来 。 


物理 磁盘 ， 鞠 躬 尽 竣 死 而 后 已 ! 存储 系统 中 最 受 尊 敬 者 : 物理 磁 
盘 ! 它们 勇往直前 ， 前 仆 后 继 ， 从 不 偷懒 ， 永 远 勤 劳工 作 于 第 一 线 ! 
存储 系统 最 受伤 的 劳动 者 : 物理 磁盘 ! 为 什么 受伤 的 总 是 我 ， 为 什么 
如 此 平 劳 最 后 却 还 是 成 为 众矢之的 ?只 怪我 独 臂 难 挡 重兵 啊 ! 


网 络 传输 层 ， 我 怎么 感觉 不 到 你 ! 底层 链 路 层 是 很 容易 被 忽视 的 
一 个 地 方 ， 不 过 好 在 这 一 层 出 问 题 或 者 出 现 配 置 不 当 导 致 的 瓶颈 的 几 
率 相对 其 他 层次 来 说 是 很 低 的 ， 只 要 链 路 速率 匹配 ， 绪 缆 接 触 恨 好 ， 
一 般 都 不 会 引发 性 能 问题 。 


19.3.1 所谓“ 优化 ”的 含义 


本 章 前 半 部 分 对 系统 IO 路 径 进 行 了 解剖 ， 形 成 了 一 张 1O 路 径 图 ， 
并 且 洞 察 了 IO 请 求 在 整个 系统 路 径 中 的 流向 以 及 每 个 层次 对 IO 的 处 理 
方式 ， 并 且 引 出 了 一 些 需要 注意 的 地 方 ， 可 以 这 么 说 ， 所 谓 “ 优 化 ”， 
其 实 应 该 是 一 个 消除 瓶颈 和 问题 的 过 程 ， 如 果 各 处 都 没有 瓶颈 或 者 问 
题 ， 那 么 优化 是 没有 意义 的 。 整 个 主机 和 存储 系统 就 像 生 物体 一 样 ， 
是 一 个 造化 产物 ， 其 本 来 就 具有 完美 的 自我 优化 功能 ， 这 是 生命 之 本 
能 ， 但 是 总 会 有 一 些 那 恶 势力 入 侵 导 致 系统 功能 紊乱 ， 或 者 一 些 原 发 
的 系统 自身 功能 亲 乱 。 我 们 需要 做 的 ， 就 是 消除 这 些 导致 功能 亲 乱 的 
问题 ， 让 系统 恢复 如 初 。 


诊断 可 以 在 两 个 层次 上 进行 ， 一 层 是 在 主机 操作 系统 内 核 或 者 存 
储 系统 内 核 设 计 的 时 候 所 做 的 优化 ， 即 原生 的 优化 ， 这 种 优化 不 但 要 
考虑 普遍 情况 ， 还 需要 考虑 特殊 情况 ， 也 就 是 说 需要 提供 足够 的 参数 
设置 让 用 户 根 据 不 同 的 IO 属性 和 要 求 来 调整 这 些 参数 。 第 二 是 在 主机 
操作 系统 或 者 存储 系统 中 进行 瓶颈 探测 和 消除 的 工作 ， 这 种 工作 为 表 
面 优 化 ， 即 尽 最 大 所 能 让 系统 原 有 的 能 力 发 挥 出 来 。 表 面 优化 又 有 两 
层 ， 第 一 是 做 到 参数 的 设置 与 系统 设计 思想 以 及 当前 的 IO 属 性 相 匹 配 
而 不 是 背道而驰 ;第 二 是 做 到 平衡 负载 、 按 需 分 配 (注意 ， 不 是 负载 
均衡 ， 平 衡 不 等 于 平均 ) ， 将 资源 最 大 化 平衡 地 利用 。 


这 便 是 性 能 优化 的 含义 了 。 性 能 优化 既 不 是 魔术 也 不 是 魔法 ， 它 
不 可 能 让 不 存在 的 东西 变 得 无 中 生 有 《但 可 能 将 有 的 东西 弄 丢 ) ， 对 
于 生物 体 来 讲 ， 可 以 服用 一 些 药 物 来 暂时 性 的 激发 各 器 官 功能 ， 但 是 
这 样 做 是 有 害 的， 损害 器 官 功能 ， 它 违背 了 自然 和 谐 的 本 质 ， 并 且 也 
不 能 维持 长 久 。 对 于 计算 机 系统 来 讲 ， 可 以 使 用 超频 等 手段 来 提升 一 
点 点 性 能 ， 但 是 这 无 疑 是 自欺欺人 。 要 做 到 本 质 上 的 优化 ， 只 能 从 造 
物 时 的 设计 入 手 ， 不 同 生物 体 有 着 不 同 的 设计 ， 有 的 力 大 无 穷 ， 有 的 
可 以 飞行 ， 存 储 系统 也 一 样 ， 不 可 能 让 老虎 长 出 翅膀 。 我 们 能 够 做 的 
只 是 治病救人， 而 不 是 去 改造 人 ， 改 造 是 造物 主 的 事情 。 


性 能 优化 的 本 质 包含 四 个 字 : 合适 合理 。 比 如 用 一 个 低 性 能 的 存 
储 系统 来 承载 一 个 对 性 能 要 求 很 高 的 应 用 ， 而 又 要 求 进行 性 能 优化 ， 
妄想 让 存储 系统 “ 超 水 平 发 挥 ”， 这 是 不 可 能 的 。 能 做 的 只 有 将 各 种 参 
数 调 节 成 与 这 个 存储 系统 底层 设计 相合 适 的 值 ， 而 且 合 理 设置 分 配 存 
储 资源 ， 好 钢 用 在 刀刃 上 ， 榨 干 整个 系统 性 能 。 这 样 做 了 之 后 ， 合 适 
合理 就 完成 了 ， 那 么 性 能 优化 也 就 完成 了 ， 如 果 结 果 不 理想 ， 那 只 能 
说 明 存 储 系统 整体 性 能 不 能 满足 应 用 需求 ， 需 要 根据 情况 扩充 硬盘 数 
量 或 者 更 换 更 强大 的 存储 系统 。 


19.3.2 ”如 何 发 现 系统 症状 


当然 ， 下 药 须 对 症 ， 而 要 判断 症状 就 需要 望 闻 问 切 。 对 于 存储 系 
统 ， 一 样 需要 一 番 望 闻 问 切 过 程 。 要 分 析 路 径 中 哪里 出 了 问题 ， 就 一 
定 要 在 整 条 路 径 中 都 来 进行 跟踪 。 


对 于 用 户 程 序 所 发 起 的 IO ，Windows 下 的 Filemon 和 Linux 下 的 
Strace 是 跟踪 程序 发 起 的 IO 的 好 工具 。 当 IO 进入 内 核 层 之 后 ， 在 


Windows 下 可 以 使 用 性 能 监视 器 ，Linux 下 则 可 以 使 用 iostats 等 ，AIX 系 
统 下 这 方面 的 工具 更 多 ， 比 如 topas、filemon、nmon 等 。 


利用 这 些 工具 来 查看 IO 在 内 核 层 是 否 被 分 解 或 者 合并 ， 是 否 产生 
了 读 写 惩罚 ， 产 生 的 惩罚 本 身 是 读 还 是 写 等 ， 在 这 一 层 都 可 以 判断 出 
来 。 而 当 IO 出 了 主机 操作 系统 内 核 进入 外 部 存储 系统 控制 器 之 后 ， 就 
必须 在 存储 控制 器 端 使 用 IO 监测 工具 来 探测 了 。 理 论 上 讲 ， 主 机 端 所 
监测 到 的 内 核 层 IO ， 应 该 与 外 部 存储 端 所 接收 到 的 IO 一 一 对 应 ， 但 是 
并 不 排除 中 途 的 智能 网 络 传输 设备 会 对 IO 进行 诸如 合并 、 分 解 、 复 制 
等 操作 。 一 般 情 况 下 ， 非 智能 网 络 设备 并 不 会 改动 任何 数据 IO ， 所 以 
主机 内 核 层 的 下 部 发 起 的 IO 其 实 也 可 以 通过 外 部 存储 系统 上 的 监测 工 
具 来 查看 。 


IO 流入 外 部 存储 系统 内 核 之 后 所 经 历 的 处 理 过 程 ， 也 可 以 使 用 存 
储 设备 所 提供 的 监测 工具 来 查看 ， 一 直到 10 流出 后 端 适配器 最 终 靶 向 
目标 磁盘 之 前 的 IO 行为 都 可 以 被 监测 到 。 最 后 ， 通 过 分 析 这 整 条 路 径 
中 所 有 层次 上 的 IO 监测 数据 ， 融 可 以 得 出 大 致 的 症状 。 


提示 : 不 到 万 不 得 已 ， 最 好 别 使 用 工具 来 直接 检测 应 用 程序 
发 起 的 IO ， 因 为 这 些 IO 监 测 工具 一 般 是 第 三 方 开发 并 且 都 是 
插入 驱动 链 中 来 作用 的 ， 弄 不 好 会 对 程序 产生 影响 ， 更 甚至 
可 能 引起 系统 骨 溃 。 所 以 ， 高 层 的 监测 工具 是 最 后 的 救命 稻 
早 。 


19.3.3 ”7s 剂 良药 治愈 IO 性 能 低下 


由 于 本 章 前 面 的 部 分 已 经 对 IO 路 径 有 了 详细 的 分 析 ， 相 信 大 家 在 
阅读 了 之 后 都 会 对 如 何 优化 IO 性 能 有 了 自己 的 宏图 ， 所 以 本 节 就 不 下 


详细 介绍 ， 只 做 一 下 大 方面 的 总 结 ， 总 结 出 六 剂 治 就 IO 性 能 低下 的 恨 
约 。 面 对 大 多 数 莫名 其 妙 的 性 能 低下 间 题 ， 只 要 对 症 下 药 ， 那 么 十 之 
八 九 都 会 药 到 病 除 。 


症状 1: 存储 系统 每 秒 接收 到 的 IO 数 远 未 达到 系统 标 称 值 ， 链 路 
带宽 也 远 未 达到 ， 前 端 接口 的 Queue Length 远 小 于 Queue Dep 由 ， 并 
没有 严重 积压 现象 ， 存 储 系统 后 端 磁盘 繁忙 度 很 低 。 主 机 端 程序 的 IO 
延迟 很 低 ， 但 是 吞吐 量 以 及 IOPS 并 未 满足 要 求 。 


可 能 病因 : 阳 火 不 旺 ， 不 能 自 举 。 调 用 方式 欠 火候 。 


病因 判断 : IO 源头 的 并 发 度 不 够 ， 程 序 使 用 了 单线 程 同 步 10。 在 
这 种 情况 下 ， 程 序 无 法 利用 全 部 的 存储 系统 性 能 ， 虽 然 每 个 IO 的 延迟 
很 低 ， 同 步调 用 的 程序 也 会 获得 一 定 的 性 能 ， 但 是 毕竟 没有 异步 调用 
或 者 多 线程 同步 调用 时 所 显现 的 性 能 。 


药方 : 生发 阳 气 。 修 改 程序 使 用 异步 1O 调 用 或 者 多 线程 设计 。 


症状 2: 存储 系统 每 秒 接收 到 的 IO 数 远 未 达到 系统 标 称 值 ， 链 路 
带宽 也 远 未 达到 ， 前 端 接口 的 Queue Length 值 接近 Queue Depth 值 ， 
显示 有 积压 的 IO ， 存 储 系 统 后 端 磁盘 繁忙 度 很 低 。 主 机 端 程序 的 IO 延 
迟 很 低 ， 但 是 吞吐 量 以 及 IOPS 并 未 满足 要 求 。 


可 能 病因 : 经 络 不 通 ， 和 气 清 凑 阻 。Queue Depth 过 低 。 


病因 判断 : 可 以 判断 此 时 程序 发 起 IO 的 并 发 度 依然 不 够 ， 因 为 程 
序 的 IO 延迟 很 低 ， 如 果 是 并 发 的 IO 造成 底部 积压 ， 那 么 对 于 程序 来 讲 
其 IO 的 响应 时 间 会 很 高 而 不 是 低 。 正 因为 程序 发 起 的 IO 是 一 个 接 一 个 
的 ， 所 以 每 个 IO 的 响应 时 间 才 会 保持 较 低 的 值 ， 但 是 底部 的 Queue 依 


然 造成 了 积压 ， 由 于 存储 系统 标 称 值 远 未 达到 ， 后 端 也 不 繁忙 ， 所 以 
这 种 积压 一 定 不 是 由 于 存储 系统 后 端 磁盘 资源 或 者 计算 资源 耗 尽 导致 
的 。 所 以 问题 就 在 于 Queue Depth 不 够 。Queue Depth 有 两 处 可 调节 ， 
一 是 主机 端 存 储 控制 器 驱动 程序 处 ， 二 是 存储 系统 前 端 接口 适配器 驱 
动 处 。 


药方 : 跻 通 经 络 ， 通 则 不 痛 。 调 节 以 上 两 处 Queue Depth， 使 其 增 

到 一 个 合适 的 值 ， 根 据 本 章 前 文 所 述 的 Queue Depth 的 一 些 规则 来 确 

定 。 另 外 ， 本 病例 中 如 果 主 机 端 程序 的 IO 延迟 很 高 ， 其 他 症状 不 变 ， 

那么 就 表明 程序 可 能 在 使 用 异步 IO 或 者 多 线程 并 发 同步 IJ0 ， 治 疗 方法 
相同 。 


症状 3: 存储 系统 检测 到 Cache Hit 率 极 低 ， 磁 盘 几 乎 百 分 百 繁 
忙 ， 而 前 端 1OPS 和 带宽 很 低 ， 业 务 所 要 求 的 响应 时 间 无 法 满足 。 


可 能 病因 : 急 火 攻心 ， 阴 虚火 旺 。IO 随 机 读 过 大 。 


病因 判断 : IO 的 随机 度 过 大 ， 严 重 增加 了 存储 系统 磁盘 寻 道 时 
间 ， 性 能 跟 不 上 。 


药方 : 降 火 凉 心 ， 滋 阴 养 阴 。 向 RAID 组 内 加 入 更 多 磁盘 ， 或 者 更 
换 高 转速 高 规格 的 磁盘 ， 或 者 使 用 缓存 LUN 等 类 似 技术 ， 或 者 直接 将 
对 应 磁盘 更 换 为 SSD 等 存储 介质 ， 滋 阴 养 阴 ， 此 为 治标 。 改 善 程序 的 
IO 设计 或 者 降低 业务 的 复杂 度 ， 也 就 降低 了 IO 的 随机 度 ， 降 火 凉 心 ， 
此 为 治本 。 


症状 4: 从 主机 端 或 者 存储 系统 端 监测 到 的 主机 内 核发 出 的 IO 从 
数量 和 容量 上 都 表现 为 较 高 的 值 ， 通 过 计算 理论 上 可 以 满足 程序 的 需 
求 ， 但 是 程序 层 却 表 现 得 很 迟缓 ，IO 延 迟 、IOPS、 带 宽 等 皆 达 不 到 从 


存储 端 监测 到 的 数据 所 体现 的 指标 ， 那 么 此 时 可 以 判断 在 主机 内 核 中 
产生 了 惩罚 。 


可 能 病因 : 心神 不 宁 ， 心 烦 意 乱 。 主 机 端 发 生 惩罚 现象 。 


病因 判断 : 此 症 为 心病 ， 判 断 起 来 非常 难 ， 因 为 不 管 是 从 主机 端 
内 核 底 部 还 是 从 存储 端 表 现 出 来 的 IO 行为 是 无 法 判断 是 否 在 主机 内 核 
处 产生 了 惩罚 的 。 唯 一 判断 方法 是 在 用 户 程序 下 方 使 用 IO 跟踪 工具 来 
监测 本 层 的 IO ， 然 后 与 内 核 层 发 出 的 IO 做 对 比 ， 如 果 发 现 不 匹配 ， 比 
如 底层 的 IO 在 数量 和 容量 上 为 程序 发 起 IO 的 数 倍 ， 则 可 能 引发 了 惩 
罚 。 但 是 对 于 多 程序 并 发 访问 外 部 存储 的 情况 下 ， 很 难 判断 是 哪个 程 
序 引 发 的 惩罚 ， 此 时 可 以 使 用 差 量 法 判断 : 在 一 个 IO 流 恒 定 的 时 间 范 
围 内 ， 让 程序 提升 一 定 倍数 的 IO 并 发 度 或 者 IO 发 送 速率 ， 同 时 监测 底 
层 发 出 的 IO 情况 ， 不 引发 惩罚 的 程序 对 底层 的 IO 浮动 影响 绝对 值 较 
小 ， 这 个 浮动 值 基本 等 于 程序 层 的 浮动 值 ， 而 引发 惩罚 的 程序 会 引起 
底层 IO 浮动 上 升 一 个 较 大 的 值 。 利 用 这 一 点 可 以 初步 判断 到 底 是 哪个 
程序 引发 了 惩罚 ， 之 后 ， 可 以 单独 部 署 这 个 程序 进一步 调查 其 IO 惩罚 
情况 ， 从 而 做 出 改正 措施 。 


药方 : 静心 安神 。 对 于 主机 端 内 部 产生 惩罚 ， 导 致 的 原因 有 两 
种 。 


第 1 种 是 因为 程序 发 起 的 IO Size 不 等 于 Page Size 的 整数 倍 或 者 IO 
Size 平 均值 远 小 于 Page Size。 第 1 种 情况 可 以 通过 更 改 Page 大 小 来 解 
决 ， 不 过 修改 Page 大 小 一 定 要 经 过 深思 熟 虑 。 因 为 OS 内 的 Page 是 全 局 
的 ， 如 果 只 是 某 个 程序 的 IO Size 过 小 ， 则 不 能 因 嘻 废 食 而 影响 了 其 他 
程序 。 如 果 程 序 的 IO Size 虽 不 为 Page 整 数 倍 但 是 规则 ， 比 如 512B、 
1KB 等 ， 则 尽量 使 用 DIO 模 式 来 越过 Page Cache。 但 是 一 定 要 注意 DIO 


的 对 象 ， 如 果 是 文件 或 者 块 设备 ， 那 么 在 某 些 OS 之 下 (比如 AIX) ， 
这 些 目标 对 象 依 然 需 要 使 用 Page Cache， 而 只 是 越过 了 文件 系统 Page 
Cache， 并 未 越过 块 设备 的 Page Cache。 所 以 在 这 类 系统 下 ， 使 用 DIO 
的 时 候 最 好 是 针对 字符 设备 ， 也 就 是 RAW 设备 。 此 外 ， 也 并 不 一 定 非 
要 使 用 DIO 或 者 RAW， 如 果 程 序 偏 要 使 用 内 核 缓存 来 10 文 件 或 者 块 设 
备 ， 那 么 务必 在 调用 时 不 要 使 用 Write Through 参 数 ， 因 为 这 样 会 加 重 
惩罚 力度 。 如 果 程 序 发 起 的 IO Size 并 不 是 512B 对 齐 的 ， 而 又 因为 惩罚 
而 产生 了 性 能 问题 ， 那 么 此 时 解决 办 法 也 是 尽量 不 要 使 用 Write 
Through 模 式 来 进行 IO 调用 。 


第 2 种 是 因为 程序 发 起 的 IO 的 起 始 地 址 并 没有 落 在 Page 的 边界 ， 导 
臻 额外 的 读 入 或 者 写 出 1 个 或 者 多 个 Page。 对 于 第 2 种 情况 ， 应 当 尽 量 
去 修改 应 用 程序 ， 别 无 他 法 。 总 之 ， 修 改 应 用 程序 让 其 发 出 的 IO Size 
即 为 Page 的 倍数 ， 起 始 地 址 又 落 在 Page 边 界 ， 这 是 最 理想 的 状况 ， 此 
为 治本 。 


症状 5: 主机 端 并 未 发 出 大 量 的 IO 请 求 ， 但 是 存储 系统 却 忙 得 不 
可 开交 ， 同 时 存储 系统 上 并 没有 诸如 Deduplication 等 Data Cooker 的 后 
台 操 作 ， 主 机 端 IO 延迟 偏 高 。 


可 能 病因 : 心神 不 宁 ， 心 烦 意 乱 。 存 储 端 发 生 惩罚 现象 。 


病因 判断 : 这 种 症状 属于 更 加 隐秘 的 心病 ， 是 最 难 判断 的 一 种 。 
这 种 症状 只 是 一 个 极端 的 状况 ， 实 际 中 很 少 会 有 惩罚 严重 到 通过 监测 
数据 就 可 以 观察 到 的 地 步 ， 加 之 多 主机 共同 访问 存储 系统 造成 的 混合 
因素 ， 更 加 难以 判断 。 但 是 一 些 存 储 系统 会 对 这 种 内 部 惩罚 加 以 监控 
和 输出 ， 用 户 只 需要 根据 输出 值 来 判断 惩罚 的 力度 即 可 。 造 成 存储 系 
统 内 部 发 生 惩罚 的 原因 除了 主机 端的 两 种 原因 之 外 ， 还 有 第 3 种 ， 即 


LUN 起 始 地 址 的 不 对 齐 ( 见 本 章 前 文 ) 。 一 旦 发 生 这 种 情况 ， 纵 使 主 
机 端的 IO 再 规则 和 对 齐 ， 那 么 存储 端 也 会 出 现 惩罚 现象 。 


药方 : 静心 安神 。 对 于 LUN 不 对 齐 引发 的 惩罚 ， 多 半 是 因为 在 创 
建 LUN 的 时 候选 择 了 不 匹配 的 操作 系统 类 型 ， 此 时 则 需要 做 LUN 迁 移 
动作 ， 或 者 删 掉 重 建 。 对 于 主机 端 IO Size 不 能 被 Page 整 除 的 情况 ， 可 
以 说 这 种 情况 对 于 程序 发 起 的 IO 是 比较 常见 的 ， 但 是 对 于 主机 内 核发 
起 的 IO， 一 般 很 少见 。 程 序 发 起 的 不 规则 IO 经 过 主机 内 核 之 后 一 般 都 
会 经 过 Page Cache， 所 以 会 被 映射 为 规则 的 Page 对 齐 的 IO 之 后 被 发 向 
存储 系统 处 理 。 但 是 不 排除 一 些 特殊 情况 ， 比 如 程序 使 用 了 DIO， 或 
者 直接 操作 RAW 设备 ， 同 时 又 没有 让 IO Size 为 存储 端 Page 的 整数 倍 ， 
这 就 比较 常见 了 。 对 于 这 种 情况 的 解决 办 法 ， 需 要 综合 考虑 。 存 储 端 
的 Page Size 一 般 是 可 以 调节 的 ， 如 果 存 储 端 的 Page Size 与 主机 端的 平 
均 IO Size 相 差 太 大 的 话 ， 那 么 需要 考虑 将 存储 端 Page Size 设 置 为 所 有 
主机 问 IO Size 的 平均 值 。 对 于 主机 端 发 送 的 IO 起 始 地 址 与 存储 端 Page 
边界 不 重合 的 情况 ， 也 是 很 少见 的 ， 如 果 排 除了 LUN 不 对 齐 导致 的 因 
素 ， 问 题 依 然 存 在 ， 那 么 只 能 说 明 主 机 端 不 按 常理 出 牌 ， 这 种 情况 必 
须要 修改 应 用 程序 的 IO 设计 。 


症状 6: 存储 系统 单个 RAID 组 中 硬盘 很 多 ， 转 速 也 很 快 ， 存 储 系 
统 控制 器 处 理 能 力也 强大 ， 这 个 RAID 组 中 有 多 个 LUN 分 配给 了 多 个 
主机 使 用 。 就 是 不 知道 为 什么 ， 当 一 台 主 机 访问 其 上 的 LUN 时 ， 性 能 
很 好 ， 但 是 一 旦 有 另 一 台 主 机 同时 访问 这 个 LUN ， 或 者 访问 这 个 
RAID 组 上 其 他 LUN 的 时 候 ， 性 能 又 降 ， 两 台 主 机 获得 的 性 能 之 和 还 
不 如 之 前 单 台 主 机 所 获得 的 性 能 。 


可 能 病因 : 筋骨 劳损 ， 不 堪 重 负 。 多 LUN 共 享 同一 RAID 组 IO 冲 


病因 判断 : 磁盘 最 怕 什 么 呢 ? 寻 道 。 一 个 RAID 组 中 的 磁盘 数量 是 
一 定 的 ， 这 也 就 注定 了 它 能 够 提供 的 性 能 是 个 定量 ， 如 果 将 多 个 LUN 
放 在 同一 个 RAID 组 之 上 ， 那 么 这 多 个 LUN 就 要 来 内 分 整个 RAID 组 的 
性 能 ， 分 配 的 方法 是 有 讲究 的 。 正 如 本 章 前 文 所 述 ，LUN 在 RAID 组 内 
的 分 布 有 多 种 方式 ， 可 以 按照 纵向 顺序 的 分 布 ， 也 可 以 按照 横向 横 跨 
所 有 磁盘 分 布 ， 可 以 混合 型 分 布 ， 甚 至 可 以 完全 随机 分 布 。 


简单 纵向 顺序 分 布 的 LUN， 由 于 每 个 LUN 只 占用 1 块 或 者 几 块 硬 
盘 (根据 LUN 大 小 和 磁盘 大 小 而 定 ) ， 所 以 每 个 LUN 的 性 能 都 是 固定 
的 ， 不 同 的 LUN 之 间 不 会 相互 影响 ， 除 非 它们 占用 的 磁盘 有 相交 。 但 
是 这 样 的 分 布 方式 也 注定 了 每 个 LUN 的 性 能 有 限 ， 如 果 使 用 146GB 硬 
盘 ， 而 LUN 的 大 小 小 于 146GB， 那 么 这 个 LUN 所 拥有 的 性 能 容量 只 等 
于 单 块 磁盘 的 性 能 。 


简单 横向 顺序 分 布 的 LUN， 由 于 每 个 LUN 都 横 跨 了 所 有 硬盘 ， 所 
以 每 个 LUN 都 能 享受 到 整个 RAID 组 的 性 能 容量 ， 但 前 提 是 一 段 时 间 内 
只 有 针对 其 中 1 个 LUN 的 IO 被 处 理 。 如 果 一 旦 其 上 的 多 个 LUN 都 在 接 
受 IO， 那 么 由 于 每 个 LUN 是 横向 排 布 在 所 有 硬盘 上 的 ， 同 时 读 写 为 不 
同 的 LUN 中 的 数据 ， 就 要 求 磁盘 不 断 地 寻 道 ， 磁 头 臂 时 而 摆动 到 
LUN1 的 区 域 ， 时 而 摆动 到 LUN2 的 区 域 。 这 就 好 比 一 个 十 字 路 口 ， 任 
意 时 刻 只 能 有 一 条 路 的 车 辆 处 于 行进 状态 ， 另 一 条 路 车 辆 必须 等 待 ， 
一 个 绿灯 周期 结束 的 时 候 ， 另 一 条 路 的 车 辆 开始 发 动 ， 发 动 过 程 是 很 
慢 的 ， 就 类 似 磁盘 寻 道 过 程 。 如 果 遇 到 特殊 堵车 情况 ， 可 能 一 个 绿灯 
周期 只 能 过 1 辆 车 。 所 以 ， 由 于 十 字 路 口 的 存在 ， 造 成 了 两 条 路 的 车 辆 
都 无 法 维持 高 速 行 进 ， 单 位 时 间 内 两 条 路 的 行进 里 程 之 和 远 小 于 没有 
红绿灯 时 的 正常 行进 里 程 。 


所 以 说 ， 被 寻 道 打 断 的 滋味 是 极其 难受 的 ， 存 储 系统 内 部 在 面 对 
这 种 情况 的 时 候 ， 或 许 会 做 一 些 特殊 的 考虑 。 比 如 类 似 Linux 下 的 IO 
Scheduler 中 的 CFQ 的 思想 ， 将 所 有 LUN 平 等 地 对 待 ， 并 且 做 一 个 比较 
合理 的 周期 ， 如 内 核 可 以 依次 从 每 个 LUN 的 Queue 中 取出 一 定量 的 IO 
充 入 后 端 适配器 驱动 的 Queue 中 ， 每 次 充 入 的 IO 数 就 决定 了 每 个 LUN 
得 到 服务 的 周期 。 这 个 周期 是 有 考究 的 ， 就 像 红绿灯 一 样 ， 如 果 你 设 
定 红绿灯 周期 为 10s， 那 可 能 有 些 车 还 没 启动 利索 呢 ， 红 灯 已 经 到 了 。 
相应 地 ， 如 果 内 核 依 次 轮流 地 从 每 个 LUN 的 Queue 中 只 拿 出 1 个 IO 充 入 
到 底层 Queue 中 ， 那 么 底层 磁盘 所 做 的 动作 就 是 每 执行 一 个 IO ， 就 寻 
道 一 次 将 磁头 定位 到 很 远 处 的 下 一 个 LUN 的 区 域 ， 执 行 完 后 再 寻 道 ， 
每 个 IO 都 需要 寻 道 ， 一 段 时 间 内 ， 大 跨度 寻 道 所 耗费 的 时 隐 比 例 远 远 
大 于 传输 ， 那 其 效率 可 想 而 知 。 所 以 这 个 周期 需要 根据 实测 结果 和 理 
论 推导 一 同 确定 。 同 一 个 RAID 组 内 越 多 的 LUN 同 时 接受 IO ， 那 么 整 
体 性 能 就 越 差 ， 磁 盘 寻 道 造成 的 浪费 比例 也 就 越 大 ， 整 体 性 能 差 到 无 
可 救 药 。 


注意 : 以 上 所 描述 的 性 能 损失 只 针对 连续 地 址 IO ， 因 为 连续 
IO 之 所 以 本 应 该 性 能 良好 是 因为 寻 道 开销 很 小 ， 而 多 LUN 横 
向 分 布 导致 了 针对 每 个 LUN 的 连续 IO 整体 表现 为 了 随机 IO， 
所 以 性 能 会 大 打折 扣 (也 就 是 前 文 所 述 的 “将 原本 有 的 东西 弄 
丢 ”) 。 而 原本 针对 每 个 LUN 的 随机 IO 却 并 不 会 打折 ， 因 为 
随机 IO 本 来 就 需要 频繁 寻 道 ， 所 以 多 LUN 并 发 的 随机 IO， 和 
单个 LUN 的 随机 IO 相 比 ， 在 磁盘 数量 相等 的 时 候 ， 并 不 会 损 
失 这 一 组 磁盘 所 提供 的 整体 性 能 ， 每 个 LUN 获 得 的 性 能 之 和 
接近 于 RAID 组 整体 性 能 。 但 是 多 LUN 相 对 于 单 LUN 来 讲 ， 
每 个 LUN 所 获得 的 性 能 是 下 降 了 ， 但 是 整体 来 讲 却 没有 滔 
费 。 


对 于 分 布 式 RAID 模 式 的 LUN 排 列 以 及 类 文件 系统 模式 的 LUN 排 
列 方式 ， 其 本 质 与 上 面 所 述 的 两 种 方式 类 似 ， 只 不 过 是 上 述 两 种 方式 
的 一 种 结合 后 的 产物 。 所 以 这 里 就 不 再 过 多 分 析 这 两 种 模式 对 性 能 的 
影响 了 。 


另外 ， 不 管 何 种 方式 分 布 的 LUN， 如 果 同 一 个 主机 上 有 多 个 程序 
同时 访问 这 个 LUN， 并 且 如 果 每 个 程序 各 自 访问 LUN 的 不 同 区 域 ， 那 
么 这 些 程序 就 会 瓜分 这 个 LUN 所 拥有 的 性 能 容量 。 比 如 ， 有 两 个 程 
序 ， 一 个 在 对 某 个 LUN 做 连续 IO ， 而 另外 一 个 则 对 同一 个 LUN 做 随机 
IO， 那 么 连续 IO 所 获得 的 性 能 将 会 被 严重 拉 低 。 只 要 引入 了 磁盘 寻 道 
的 任何 操作 都 会 将 连续 IO 性 能 严重 拉 低 ， 甚 至 拉 低 到 与 随机 IO 一 个 等 
级 上 。 


症状 样 例 : 某 视频 监控 系统 ， 用 户 200 路 摄像 头 数 据 同时 以 1Mby/s 
的 速度 通过 千 兆 网 写 入 视频 主机 ， 主 机 和 存储 设备 通过 IP-SAN ( 干 
兆 ， 连 接 ， 存 储 的 卷 是 3 个 14 块 1TB 的 SATA 盘 组 成 的 RAID 5 组 ， 共 42 
块 盘 ，3 个 RAID 5 组 ， 然 后 3 组 卷 直 接 组 合成 一 个 大 磁盘 再 分 配给 主 
机 。 这 时 候 直接 在 主机 上 打开 视频 文件 的 速度 很 慢 ， 慢 的 时 候 需 要 10 
多 秒 甚 至 无 法 响应 。 


症状 分 析 : 把 所 有 盘 组 成 一 个 大 盘 ， 所 有 文件 都 分 布 在 所 有 磁盘 
上 ， 那 么 小 范围 顺序 IO 就 会 变 为 整体 性 随机 IO， 性 能 显然 是 无 法 保证 
的 。200 路 至 少 对 应 200 个 文件 ， 同 时 对 200 个 文件 进行 IO ， 整 体 来 讲 
就 是 一 种 随机 IO ， 本 身 速度 就 是 很 慢 的 。 再 加 上 随后 的 读 入 文件 进行 
播放 的 操作 ， 读 十 写 十 随机 ， 这 就 更 加 重 了 磁盘 的 负担 。 解 决 办 法 是 
将 文件 分 开 存 放 ， 最 好 是 每 个 文件 只 占用 一 个 物理 盘 ， 然 而 这 样 做 需 
要 修改 应 用 程序 ， 临 时 的 做 法 只 能 是 增加 存储 端的 条 带 深度 ， 增 加 到 
最 大 ， 即 便 这 样 做 也 不 能 从 根本 上 解决 问题 。 


药方 : 放松 筋骨 ， 按 需 平衡 负载 。 根 据 具体 需求 ， 确 定 使 用 何 种 
LUN 分 布 方式 。 比 如 ， 如 果 不 计 成 本 ， 则 完全 可 以 为 每 个 LUN 单 独创 
妹 一 个 有 足够 性 能 容量 的 RAID 组 ， 并 且 主 机 端 程序 所 操作 的 文件 也 尽 
量 放 到 不 同 的 LUN 中 ， 做 到 从 上 到 下 都 是 独 享 一 组 底层 磁盘 的 性 能 容 
量 ， 这 样 做 是 最 好 不 过 的 ， 也 是 最 完美 的 。 但 是 实际 中 不 可 能 不 考虑 
成 本 ， 所 以 每 个 RAID 组 上 一 般 都 会 有 多 个 LUN 存 在 ， 那 么 此 时 就 需要 
进一步 规划 : 是 采用 纵向 分 布 ， 还 是 横向 分 布 ， 或 者 还 是 自 定义 比例 
的 纵横 结合 的 分 布 。 可 惜 的 是 ， 正 如 本 章 前 文 所 述 ， 目 前 市 场 上 的 产 
品 能 否 做 到 让 用 户 来 选择 如 何 分 布 LUN 的 产品 几乎 没有 ， 大 多 数 产品 
都 使 用 横向 LUN 分 布 方式 ， 所 以 用 户 只 能 在 这 种 分 布 方式 上 来 做 文章 
下 


而 如 上 文 所 述 ， 横 向 分 布 的 LUN 在 面 对 多 LUN 并 发 的 连续 IO 方面 
可 谓 是 出 尽 洋 相 ， 性 能 差 得 一 塌 糊 涂 。 但 是 总 归还 是 有 一 些 死 马 当 做 
活 马 医 的 缓解 的 办 法 。 解 决 的 办 法 : 将 RAID 组 的 Stripe Depth， 也 就 是 
Segment， 调 整 到 所 允许 的 最 大 值 。 这 样 做 就 会 加 大 每 个 Segment 所 包 
含 的 连续 地 址 范围 ， 使 得 单 块 磁盘 包含 更 长 的 连续 地 址 段 ， 所 以 ， 每 
个 IO 所 占用 的 磁盘 数量 也 将 会 随 之 减少 。 


不 过 通常 情况 下 ， 由 于 大 多 数 产品 可 供 配置 的 最 大 Stripe 有 限 ， 假 
设 为 256KB， 如 图 19-97 所 示 。 如 果 是 8 块 数据 盘 ， 那 么 Stripe Depth 就 
相应 为 32KB， 如 果 每 个 IO 平均 为 32KB 大 小 ， 那 么 这 个 IO 就 只 占用 这 
块 磁盘 。 但 是 如 果 主 机 端 使 用 异步 并 发 IO 调用 方式 ， 那 么 单位 时 间 会 
有 多 个 IO 同时 被 这 组 磁盘 执行 。 假 如 8 个 32KB 的 连续 地 址 IO 同时 执 
行 ， 那 么 正好 就 占用 了 8 块 磁盘 ， 另 一 个 LUN 在 这 个 过 程 中 只 能 等 待 
接 下 来 的 磁盘 寻 道 至 自己 的 区 域 从 而 为 自己 执行 IO 操作 。 


如 果 将 Stripe Depth 进 一 步 加 大 ， 比 如 256KB， 也 就 是 说 Stripe 宽 度 
为 2048KB， 如 图 19-98 所 示 。 如 果 此 时 IO 还 是 并 发 8 个 32KB ， 那 么 这 8 
个 IO 其 实 都 落 入 同一 个 Segment， 只 需要 底层 针对 对 应 的 物理 磁盘 的 
一 次 IO 即 可 读 出 或 者 写 入 这 8x32KB 的 数据 ， 而 其 他 7 块 磁盘 都 是 空闲 
的 。 如 果 还 有 额外 7 个 LUN， 那 么 如 果 碰 巧 的话 ， 每 个 LUN 均 可 以 同 
时 被 执行 8 个 32KB 的 IO， 每 个 LUN 都 会 得 到 不 错 的 性 能 。 如 果 将 Stripe 
Depth 继 续 增 大 ， 那 么 到 了 最 后 其 实 就 相当 于 纵向 分 布 的 LUN 了 ， 整 个 
LUN 都 分 布 在 一 块 硬盘 上 (硬盘 足够 大 ) ， 到 了 这 时 候 ， 每 个 LUN 之 
间 就 是 真 的 井 水 不 犯 河 水 了 ， 但 同时 每 个 LUN 的 性 能 容量 最 大 值 也 就 
等 于 单 块 磁盘 的 性 能 容量 了 了。 其实， 增加 Stripe Depth 的 做 法 正 是 从 
RAID 3 一 RAID 4~RAID 5 的 进化 路 线 中 关键 的 一 步 ，Stripe Depth 越 
大 ， 并 发 几率 也 就 越 高 ， 对 于 LUN 分 布 来 讲 ， 也 一 样 是 这 个 思想 。 


19-97 Stripe Depth= Segment=32KB 19-98 Stripe Depth= Segment=256KB 


当然 了 ， 以 上 的 解决 方法 只 能 是 乱 放 枪 磁 运气 ， 要 从 根本 解决 ， 
还 需要 目前 的 存储 产品 设计 上 更 加 入 性 化 ， 提 供 更 多 可 设置 的 LUN 分 
布 方式 了 。 当 然 ， 最 终 的 治本 的 方法 ， 还 是 要 淘汰 机 械 硬盘 ， 使 用 无 
机 械 寻 道 的 存储 介质 。 

到 此 ，6 个 典型 症状 已 经 介绍 完毕 了 。 实 际 中 所 遇 到 的 情况 很 有 可 
能 是 以 上 几 个 症状 并 存 ， 或 者 由 一 个 症状 引发 了 另 一 种 症状 的 连锁 反 
应 ， 使 得 问题 的 解决 更 加 复杂 化 ， 但 是 只 要 掌握 了 每 种 症状 的 治疗 方 
法 ， 再 加 上 仔细 的 判断 和 分 析 ， 相 信和 总 会 药 到 病 除 。 


19.3.4 面向 SSD 的 IO 处 理 过 程 优化 


SSD 使 用 的 NAND Flash 是 个 特殊 的 介质 ， 本 书 前 面 章节 也 充分 描 
述 过 。SSD 所 表现 出 来 的 性 能 确实 强劲 ， 那 么 当 SSD 被 用 在 外 置 磁盘 
阵列 中 ， 与 机 械 硬 盘 混用 时 ， 而 且 多 块 SSD 再 次 被 组 成 RAID 组 时 ， 这 
样 性 能 又 会 得 到 加 成 。 有 没有 一 些 针对 SSD 的 优化 措施 呢 ? 有 不 少 ， 
有 些 了 恐怕 我 们 之 前 压根 没 想 到 过 有 什么 相关 性 的 东西 ， 可 能 都 与 SSD 
有 关 。 


元 数据 结构 优化 : 由 于 无 须 考虑 IO 的 重 排 等 动作 ， 针 对 SSD 
RAID 组 的 内 存 中 元 数据 结构 可 以 大 大 简化 ， 提 高 执行 效率 。 
WB 可 以 改 WT 了 : 由 于 SSD 响 应 时 间 很 快 ， 所 以 没有 必要 先 缓 
存在 珍贵 的 RAM 中 ， 然 后 再 刷 盘 了 ， 直 接 透 写 到 SSD 中 即 可 ， 
让 更 多 的 RAM 空 间 用 于 缓存 机 械 硬盘 的 脏 数 据 。SSD 盘 片 自身 
有 大 容量 的 RAM 用 来 缓存 脏 数 据 ， 自 身 可 以 对 数据 进行 合并 操 
作 ， 并 且 使 用 超级 电容 来 防止 掉 电 ， 所 以 可 以 放心 的 WT 到 
SSD。SSD 对 进入 的 写 IO 属 于 WB 模式 ， 因 此 先 WB 到 阵列 全 局 
RAM 还 是 直接 WB 到 SSD 中 的 RAM， 效 果 相 差 不 大 ， 所 以 直接 
WB (对 于 阵列 控制 器 来 讲 是 WT 到 SSD) 到 SSD 中 即 可 。 

不 用 双 控 镜像 了 : 由 于 针对 SSD RAID 组 对 于 阵列 来 讲 是 WT 操 
作 ， 所 以 阵列 的 双 控 制 器 之 间 不 需要 对 WT 的 数据 进行 缓存 镜 
像 操 作 ， 节 约 了 镜像 通道 带宽 ， 更 重要 的 是 降低 了 写 IO 延 迟 。 
Queue 可 以 加 大 了 : 见 上 文 。 

阵列 控制 器 需要 支持 Trim 了: 由 于 SSD 机 制 决 定 ， 最 好 能 对 
SSD 做 Trim 操 作 以 提高 性 能 。 但 是 SSD 插 到 阵列 中 之 后 ， 不 直 
接 面 对 主 机 操作 系统 了 ， 它 们 之 间 相 隔 了 一 层 阵 列 控制 器 ， 所 
以 此 时 如 果 依 然 要 支持 Trim， 那 么 就 需要 直接 面向 主机 操作 系 
统 的 阵列 控制 器 支持 Trim ， 阵 列 控制 器 将 Trim 指 令 再 次 根据 
SSD RAID 组 的 地 址 映射 信息 转换 为 针对 每 个 SSD 的 翻译 映射 之 


后 的 Trim 指 令 然后 下 发 到 每 个 SSD 中 ， 一 个 主机 Trim 指 令 会 被 
转换 为 多 个 Trim 指 令 。 


19.4 小结 : 再 论 机 器 世界 与 人 类 世界 


各 位 ， 请 醒 来 ， 我 们 现在 又 回 到 人 类 世界 了 。 我 们 所 看 到 的 这 些 
机 器 ， 只 不 过 就 是 一 台 台 黑 潍 妆 的 落 在 那儿 ， 不 会 动 不 会 说 话 。 但 是 
刚才 的 那 场 机 器 世界 的 游历 ， 我 们 发 现 机 器 世界 是 如 此 美妙 ， 每 一 步 
都 精确 无 比 ， 每 一 步 都 井井有条 ， 和 鬼斧神工 般 地 运行 着 。 


再 来 看 看 人 类 世界 ， 一 个 生物 ， 其 内 在 的 一 切 生理 过 程 ， 与 机 器 
的 处 理 过 程 是 极其 相似 的 ， 每 一 步 都 精确 无 比 ， 每 一 步 都 巧夺天工 。 
而 完成 这 些 生 理 过 程 所 依附 的 物质 ， 包 括 蛋 白质 分 子 、DNA 等 ， 也 是 
非常 精妙 的 分 子 机 器 ， 分 子 由 原子 组 成 ， 原 子 由 更 小 的 粒子 组 成 ， 那 
么 物质 世界 的 基石 是 什么 呢 ? 可 能 到 头 来 所 发 现 的 “基石 ?根本 就 不 是 
实 实在 在 的 东西 ， 而 可 能 就 是 一 种 正 反 逻辑 ， 即 “有 ”和 “无 "”， 就 好 像 
计算 机 世界 的 基石 是 0 和 1。 而 由 这 些 基 石 所 组 成 的 高 层 逻 辑 ， 其 实 也 
不 是 物质 ， 而 是 一 种 刺激 ， 所 以 人 才 会 感知 到 这 些 “ 物 质 ” 的 存在 。 也 
就 是 说 所 谓 原 子 和 分 子 等 并 不 是 一 种 实 实 在 在 的 “物质 *， 而 只 是 一 种 
由 底层 基本 逻辑 经 过 排列 积累 而 组 成 的 高 层 逻 辑 的 刺激 罢了 ， 触 摸 、 
听觉 、 感 观 其 实 都 是 一 种 刺激 ， 包 括 机 械 疲 本 身 。 计 算 机 业 同 样 依托 0 
和 1 不 断 地 产生 高 层 逻 辑 ， 一 层 层 轮 加 直到 最 后 复杂 的 程序 。 是 谁 创 造 
的 这 些 造化 呢 ? 


第 20 章 ” 腾 云 驾 雾 一 大 话 云 存储 
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ERP、ITIL、Could， 这 是 21 世 纪 伊 始 从 西方 发 达 国 家 兴起 的 次 时 
代 IT 新 概念 。 如 今 ，ERP 并 未 获得 广泛 的 推广 和 应 用 ，ITL 仍 是 空 
楼 阁 ，Cloud 又 出 来 了 。 实 话 实说 ， 没 有 经 济 腾 飞 催生 大 批 信息 化 发 展 
到 一 定 程度 的 企业 ， 没 有 迫切 的 需求 ， 没 有 达到 一 定 的 积累 和 高 度 ， 
这 些 特 别 高 层 的 IT 管理 运营 方法 论 是 很 难 获 得 推行 的 。 


而 Cloud 这 两 年 刚刚 兴起 并 又 从 国外 炒 到 了 国内 ， 弄 的 是 马 烟 冶 
气 ， 众 说 纷 经 ， 你 说 你 的 ， 我 说 我 的 ， 各 地 争 相 搞 云 。 搞 起 来 之 后 却 
好 像 鲜 有 人 买账 。 搞 云 是 要 来 满足 用 户 需 求 的 ， 而 不 是 为 了 搞 而 去 
搞 ， 后 者 背后 有 一 定 的 不 良 因 素 推动 。 


然而 ，Cloud 与 ERP 和 ITIL 还 是 有 一 些 区 别 的 。 云 是 直接 为 僵 利 而 
催生 的 ， 相 对 于 前 两 者 来 讲 还 是 显得 比较 实在 。 前 两 者 属于 一 种 管理 
者 角色 ， 务 虚 ; 而 云 属于 一 种 执行 者 角色 ， 务 实 。 虚 的 东西 落地 非常 
难 ， 而 实 的 东西 很 容易 落地 ， 这 也 是 云 为 何 快速 兴起 的 原因 。 有 人 头 


疼 了 ， 说 我 怎么 每 次 听 到 人 讲 云 ， 就 发 现 很 虚幻 呢 ? 那 是 因为 给 你 讲 
云 的 那 人 自己 也 虚 ， 是 带 有 一 定 目的 来 忽 您 的 ， 而 不 是 来 给 你 传道 授 
业 的 。 本 章 ， 笔 者 将 会 站 在 中 立 角 度 为 大 家 通俗 演绎 到 底 云 是 什么 。 


20.1 太 始 之 初 一 “ 云 ” 的 由 来 


目前 ， 云 计算 、 云 存储 、 云 备份 等 云 技术 可 谓 是 铺天盖地 地 袭 
来 。 这 其 中 不 乏 有 一 些 浑 水 摸 鱼 者 ， 其 本 身 并 不 具备 多 少 云 性 质 ， 却 
也 在 打 着 云 的 旗号 想 在 市 场 炒 作 中 分 一 杯 北 。 目 前 市 场 对 一 款 产 品 是 
否 为 云 产 品 并 没有 一 个 明显 的 界定 ， 因 为 云 这 个 东西 本 身 的 定义 就 没 
有 一 个 标准 ， 各 种 机 构 纷 经 其 说 ， 莫 衷 一 是 。 好 在 SNIA (存储 网 络 工 
业 协 会 ) 在 不 久 前 发 布 了 CDMI (Cloud Data Management Interface， 云 
数据 管理 接口 ) 标准 用 来 规范 在 云 系统 中 实现 数据 传输 、 存 储 和 管理 
的 一 系列 规范 ， 这 个 标准 只 是 针对 一 个 云 系 统 中 的 数据 存储 和 管理 部 
分 而 制定 的 接口 标准 。 对 于 云 系 统 中 的 其 他 部 分 ， 比 如 用 户 接 口 、 硬 
件 管理 接口 等 ， 目 前 并 没有 一 个 标准 来 遵循 。 


正 因 如 此 ， 判 断 一 个 产品 是 否 为 云 产 品 ， 也 没有 什么 标准 可 循 。 


说 道 “ 云 "这 个 词 ， 其 由 来 显得 有 些 不 可 思议 。 我 们 都 知道 微软 
Office 软 件 中 的 PowerPoint， 其 中 有 一 个 图 形 ， 如 图 20-1 所 示 。 我 们 在 
制作 PPT 的 时 候 ， 经 常会 用 到 这 个 云 状 的 图 形 来 指 代 一 堆 网 络 设备 、 
存储 设备 或 者 服务 器 设备 。 


图 20-1 云 一 词 的 由 来 


然而 ， 在 国内 好 像 人 们 都 习惯 把 这 一 堆 设 备 称 之 为 “网 络 设备 
群 “服务 器 群 "， 也 就 是 用 “ 群 "这 个 字 ， 起 因 是 因为 国外 在 指 代 这 堆 


设备 的 时 候 ， 一 般 都 是 用 “Cluster ”这 个 词 。 而 Cluster 中 文 一 般 被 翻译 
为 “ 簇 * 或 者 “集群 ”*”， 所 以 “ 群 * 就 这 么 出 现 了 。 某 一 天 ， 也 是 国外 某 人 
在 讲授 某 PPT 的 时 候 ， 顺 口 说 了 一 句 比 如 “The servers in the cloud”， 
“Cloud” 一 词 就 这 样 诞生 了 。 至 于 到 底 是 谁 第 一 次 说 出 这 个 概念 的 ， 之 
后 通过 什么 途径 流行 开 的 ， 又 是 谁 率先 用 云 来 指 代 大 规模 IT 基础 架构 
的 ， 尚 无 从 考证 。 


云 诞生 并 且 被 公之于众 之 后 ， 人 们 对 云 基 本 上 产生 了 4 种 理解 : 云 
即 设备 、 云 即 集群 、 云 即 IT 系统 、 云 即 服务 。 


20.1.1 观点 1: 云 即 设备 


这 种 观点 也 是 最 原始 的 观点 ， 它 仅仅 指 代 某 一 堆 设备 ， 也 就 是 
PPT 中 的 云 状 图 形 所 圳 括 的 那些 设备 。 此 时 ， 云 不 具有 任何 意义 ， 仅 
仅 是 一 个 指 代词 ， 为 了 表达 方便 而 已 。 这 种 对 云 的 认 知 目前 依然 存 
在 ， 一些 对 云 不 太 了 解 的 人 ， 往 往 一 开始 都 是 这 样 认为 云 的 。 然 而 ， 
你 不 能 就 说 这 种 认 知 是 错误 的 。 这 个 认 知 只 是 云 发 展 的 一 个 阶段 ， 也 
确实 是 云 的 组 成 部 分 ， 因 为 没有 设备 支撑 ， 哪 来 的 云 呢 ? 任何 概念 都 
要 有 实 实在 在 的 支撑 。 


20.1.2 ”观点 2: 云 即 集群 


在 第 一 个 观点 ， 也 就 是 “ 云 即 设备 ”的 基础 上 ， 人 们 的 认 知 开始 逐 
渐 发 展 ， 如 果 云 仅仅 是 一 堆 设 备 的 话 ， 那 么 这 堆 设 备 也 只 是 一 堆 设备 
而 已 ， 那 么 云 这 个 概念 也 就 就 此 罢了 了 ， 没 有 什么 发 展 了 。 然 而 事物 
总 是 要 不 断 向 前 发 展 ， 给 自己 开拓 新 道路 。 一 堆 设 备 肯定 不 是 这 个 事 
物 发 展 的 尽头 ， 如 果 再 向 前 进一步 会 变 为 什么 呢 ? 


当然 是 集群 了 ， 这 就 像 多 个 人 组 成 社会 一 样 ， 一 堆 人 放 在 一 起 便 
会 目 行 发 展 成 宪 会， 一 扒 设 备 放 在 一 起 ， 其 高 级 形态 就 是 一 个 集群 。 
设备 之 间 是 有 机 联系 起 来 的 ， 共 同 协作 的 。 那 么 云 在 这 个 认 知 和 发 展 
阶段 ， 就 表现 为 一 个 集群 ， 不 管 是 计算 集群 还 是 存储 集群 。 


20.1.3 ”观点 3; 云 即 IT 系统 


然而 ， 一 个 集群 能 做 什么 呢 ? 集群 只 是 一 个 有 机 结合 可 以 写作 的 
设备 集合 ， 那 么 如 果 云 只 表示 到 这 一 层 的 话 ， 显 然 也 是 没有 任何 生命 
力 的 。 云 要 发 展 ， 就 必须 再 往 上 走 。 集 群 之 上 是 什么 呢 ? 赋予 一 堆 硬 
件 灵魂 的 ， 是 软件 。 软 件 和 硬件 组 合 起 来 才 是 一 个 完整 的 有 机 系统 ， 
也 就 是 云 即 开 系统 ， 比 如 某 企 业 的 开 系 统 ， 就 是 一 灯 云 ， 某 运营 商 的 
IT 系 统 ， 也 是 一 灯 云 。 对 云 的 认 知 发 展 到 这 一 层 ， 就 快要 露出 本 来 面 
目 了 。 


20.1.4 ”观点 4: 云 即 服务 


那么 ， 云 即 IT 系统 这 个 观点 还 能 继续 再 发 展 么 ”还 可 以 的 。 问 一 
问 ，IT 系 统 是 用 来 做 什么 的 呢 ? 


答 1: “运行 程序 用 的 。” 
答 2:“ 支 撑 和 服务 于 企业 生产 的 。” 
答 3:“ 用 来 便利 的 。” 


这 三 种 答案 ， 一 个 比 一 个 高 级 。 第 一 个 答案 显然 太 过 技术 化 ， 没 
有 实际 直接 意义 ， 第 二 个 则 很 靠 谱 ， 企 业 运 营 过 程 中 需要 借助 TT 系统 


来 做 支 择 和 服务 ; 第 三 个 则 更 加 激进 了 ， 有 直接 使 用 IT 系统 来 便利 ， 暗 
指 这 家 企业 靠 的 就 是 出 售 或 者 出 租 其 IT 系统 。 


我 们 着 重 来 看 第 三 个 回答 。 如 果 想 直接 拿 某 个 IT 系统 来 便利 ， 换 
了 你 ， 你 会 怎么 来 僵 利 ， 采 取 什 么 样 的 僵 利 模式 呢 ? 


答 1: “直接 卖 掉 ， 拿 钱 ， 多 省 事 ! ” 
答 2: “我 搞 出 租 ， 把 整个 系统 租 给 别人 用 ， 我 收 租 ! ， 


答 3: “我 开发 个 网 络 游戏 ， 然 后 用 这 个 IT 系统 来 运营 这 个 游戏 ， 
谁 想 玩 的 就 交 钱 ! ” 


咱们 来 分 析 一 下 这 三 种 盈利 方式 ， 第 一 种 最 直截了当 ， 人 盈利 最 
快 ， 直 接 卖 掉 数 钱 去 了 ， 但 是 他 再 也 无 法 用 这 个 IT 系统 赚钱 了 ; 第 二 
种 则 稍微 聪明 点 ， 虽 然 盈 利 慢 ， 但 是 资源 还 是 掌握 在 他 手 里 ; 第 三 种 
则 非常 精明 ， 但 是 需要 前 期 很 大 的 投入 来 开发 游戏 ， 然 而 一 旦 成 功 运 
营 ， 所 获得 的 收益 将 是 巨大 的 。 


比较 一 下 这 三 种 方式 ， 第 一 种 受众 面 将 会 很 小 ， 因 为 需要 购买 一 
整个 IT 系统 的 人 几乎 很 少 有 ; 第 二 种 受众 面 稍 大 一 些 ， 因 为 需要 租用 
服务 器 租用 存储 空间 的 人 还 是 比较 多 的 ， 但 是 也 非常 有 限 ， 第 三 种 
呢 ， 受 众 面 则 非常 之 大 ， 几 乎 所 有 人 都 是 次 在 的 受众 ， 因 为 所 有 人 都 
会 对 游戏 娱乐 有 基本 需求 。 受 众 面 直 接 影响 到 利润 。 


题 外 话 : 笔者 个 人 极度 讨 大 网游， 尤其 是 最 近 充 斥 互 联网 的 
黄色 网 游 ， 属 于 一 种 精神 毒品 ， 本 人 坚决 抵制 网 游 。 有 空 学 
学 谷歌 地 球 、 百 度 地 图 ， 搞 点 真正 能 产生 社会 价值 的 业务 ， 


而 不 要 像 国内 某 运 营 商 一 样 搞 些 虚 拟 垃圾 来 俘虏 一 大 批 人 ， 
浪费 电 ， 浪 费 劳动 力 ， 全 民 玩 虚拟 网 游 ， 这 样 下 去 很 危险 。 


话说 回来 ， 这 第 三 种 盈利 方式 ， 就 属于 一 种 用 服务 来 赚钱 的 模 
式 ， 提 供 游戏 服务 。 还 有 众多 服务 表现 形式 ， 比 如 邮箱 、 网 页 、 博 
客 、 音 乐 、 影 视 等 。 这 些 都 是 大 众 最 基本 的 需求 ， 所 以 鳃 利 面 很 大 。 
在 一 套 IT 系统 之 上 可 以 同时 提供 多 种 服务 ， 那 么 可 以 最 终 认 为 ， 能 够 
提供 某 种 形式 IT 服务 的 一 整套 IT 系统 ， 这 就 是 云 。 


从 这 个 角度 上 来 讲 ， 所 有 的 互联 网 运营 商 ， 比 如 各 大 网 站 ， 全 部 
都 是 云 运营 商 ， 它 们 后 人 台 的 开 系 统 从 建立 之 初 就 已 经 有 了 云 化 的 性 质 
了 ， 但 是 离 真正 的 云 还 稍 有 差别 。 


20.1.5” 云 目前 最 主流 的 定义 


可 以 从 上 文中 体会 到 ， 设 备 组 成 集群 ， 集 群 组 成 IT 系统 ，IT 系 统 
用 来 服务 。 这 一 串 的 理解 恰恰 就 是 对 IT 系统 运营 的 理解 。 那 么 是 否 
以 将 这 四 个 理解 组 合 起 来 ， 形 成 一 个 最 终 的 观点 ? 云 是 一 个 可 运营 的 
IT 系统 。 但 是 ， 这 个 定义 少 了 某 些 关 键 的 东西 ， 就 是 资源 迅速 灵活 地 
部 署 和 回收 。 也 就 是 说 ， 云 当前 的 主流 定义 是 : 一 个 可 运 莒 的、 迅速 
灵活 部 署 和 回收 资源 的 智能 IT 系统 。 云 为 何 会 有 这 个 关键 点 ?下 一 节 


中 会 给 出 答案 。 


笔者 对 目前 业界 普遍 被 承认 的 云 性 质 做 了 总 结 。 云 应 当 具 有 如 下 
性 质 : 云 必须 体现 为 一 种 服务 交易 而 不 是 实物 交易 ; 云 提供 商 拥有 一 
定 规模 的 硬件 基础 (比如 足够 的 网 络 以 及 服务 器 和 存储 设备 ) ; 云 提 
供 商 对 客户 提供 一 种 资源 的 租用 服务 而 不 是 资源 本 身 的 易 主 买卖 。 


凡是 具备 以 上 三 个 特性 的 系统 ， 都 可 以 称 其 为 云 系统 ， 或 者 云 服 
务 。 比 如 一 些 域名 公司 出 租 的 网 页 空间 ， 其 包含 了 如 下 服务 : 服务 器 
硬盘 上 的 空间 租用 、Web 服 务 程序 运行 资源 租用 、 网 络 带 宽 流 量 租 
用 、 域 名 维护 服务 。 这 些 服务 到 期 将 自动 回收 ， 比 如 网 页 空间 到 期 不 
续费 ， 那 么 服务 器 有 权 将 其 网 站 内 容 删除 ， 所 以 这 不 是 一 个 易 主 买 
卖 ， 所 有 的 资源 都 归 供 应 商 所 有 ， 你 得 到 的 只 是 服务 而 已 。 


对 于 “域名 供应 商 也 是 云 提供 商 ” 这 个 说 法 ， 可 能 有 些 人 并 不 同 
意 ， 因 为 他 们 认为 只 有 一 些 高 端的 、 让 人 望尘莫及 的 大 型 的 运营 两 ， 
比如 Amazon、Google 等 所 提供 的 服务 才 是 云 服务 。 他 们 还 认为 只 有 底 
层 使 用 了 硬件 集群 和 虚拟 化 技术 的 系统 ， 才 具备 最 基本 的 云 资格 ， 这 
些 观 点 都 是 比较 狭隘 的 。 


20.2 ” 混 症 初 开 一 一 是 谁 催生 了 云 
20.2.1 “一切 此 以 需求 为 导向 


任何 事物 的 出 现 、 发 展 状态 、 豪 落 ， 都 有 其 底层 因素 。 云 这 个 词 
从 PPT 中 被 衍生 出 来 ， 如 果 没 有 肥沃 的 土壤 ， 那 么 它 充 其 量 也 只 能 乖 
乖 地 被 用 来 指 代 “一 堆 设备 "了 ， 或 评 根 本 不 会 为 人 所 知 。 这 些 肥沃 的 
土壤 ， 就 是 日 益 壮 大 的 用 户 需 求 。 “互联 网 时 代 的 用 户 需 求 "， 如 果 把 
这 个 当做 一 个 课题 来 讲 的 话 ， 那 真 的 是 永远 也 讲 不 完 ， 太 多 了 ! 互联 
网 以 及 接 入 终端 (PC、 手 机 等 ) 的 广泛 普及 ， 使 得 大 众 的 交流 渠道 产 
生 质 的 改变 ， 以 前 通过 书信 或 者 电话 才能 传达 的 信息 ， 现 在 可 以 通过 
互联 网 用 各 种 形式 来 实现 了 ， 比 如 传统 的 语音 、 图 像 视频 、 论 坛 、E- 
mail、 博 客 等 ， 之 前 大 众 之 间 的 大 量 交 流 需 求 被 一 下 子 爆发 了 出 来 。 


这 种 需求 的 爆发 ， 其 直接 效应 就 是 信息 爆炸 ，IT 系 统 的 底层 支撑 
设施 快速 被 饱和 。 就 像 一 个 被 大 量 人 口 所 充斥 的 城市 一 样 ， 其 交通 系 
统 (网 络 ) 、 教 育 医疗 等 公共 服务 机 构 (各 种 应 用 服务 器 ) 、 基 本 的 
饮食 供应 (电力 供应 以 及 住房 (存储 系统 ) 等 就 会 被 大 量 饱 和 ， 导 
致 拥堵 不 堪 ， 效 率 低下 。 


面 对 互 联网 时 代 的 需求 爆炸 ， 传 统 的 IT 系统 已 经 显得 无 法 满足 
了 。 为 何 呢 ? 看 看 传统 IT 系统 是 怎么 运作 的 。 比 如 ， 某 运营 商 市 场 部 
门 分 析出 未 来 一 年 内 网 页 游戏 业务 将 会 有 20% 的 增长 ， 而 目前 支撑 网 
页 游戏 的 IT 子 系统 的 利用 率 已 经 接近 100% ， 需 要 对 现 有 的 系统 进行 扩 
容 ， 包 括 增 加 Web Server 节 点 的 数量 、 增 加 数据 库 服务 器 节点 的 数量 
以 及 扩大 存储 系统 的 容量 。 系 统 扩容 就 需要 采购 新 设备 ， 需 要 遵循 一 
系列 流程 ， 耗 费 的 周期 很 长 ， 甚 至 已 经 可 能 慢 于 业务 的 变化 周期 。 也 
就 是 说 可 能 一 个 业务 当 你 忙活 着 部 署 的 这 段 周 期 内 ， 市 场 需求 可 能 慢 
慢 消 失 了 ， 部 署 业 务 的 速度 慢 于 市 场 需求 变化 的 速度 。 此 外 ， 技 术 层 
面 还 存在 停机 的 风险 。 


而 这 个 运营 商 的 另外 一 项 业务 一 一 在 线 视 频 聊 天 室 ， 由 于 经 营 惨 
淡 ， 支 撑 这 项 业务 的 IT 子 系统 利用 率 不 足 60% ， 有 40% 的 余 量 没 有 被 
充分 利用 。 如 果 能 够 将 这 40% 的 余 量 用 于 支撑 网 页 游戏 业务 的 扩充 需 
求 ， 那 么 就 是 最 好 不 过 的 了 。 但 是 这 样 做 在 技术 层面 风险 很 大 ， 如 果 
将 两 套 业 务 系统 部 署 在 同一 个 操作 系统 中 ， 会 大 大 增加 两 种 业务 的 粘 
合 度 ， 不 利于 后 期 的 运 维 管理 另外， 将 同一 个 业务 分 布 在 两 个 资源 
孤岛 上 ， 更 加 不 利于 维护 。 最 后 ， 由 于 整个 数据 中 心 的 服务 器 与 存储 
设备 繁多 ， 各 种 协议 、 各 种 不 同 厂商 的 设备 混 存 ， 架 构 复杂 ， 这 种 情 
况 下 ， 单 靠 手动 来 部 署 、 管 理 和 回收 各 种 资源 已 经 变 得 非常 有 挑战 性 
了 ， 一 是 效率 低 还 容易 出 错 ， 二 是 速度 慢 到 可 能 影响 业务 上 线 ， 尤 其 


是 在 一 个 承载 多 项 业务 的 数据 中 心中 ， 各 种 业务 对 底层 的 要 求 都 不 
同 。 


以 上 这 个 场景 可 以 总 结 为 以 下 3 个 问题 : 


。 业务 部 署 周期 太 长 ，; 
= 资产 不 能 充分 回收 利用 ， 资 产 孤 岛 林立 ; 
" 手动 部 署 已 经 无 法 满足 要 求 。 


这 3 个 问题 已 经 成 为 所 有 互联 网 运营 商 的 痛 点 。 如 何 解决 ”请 继续 
阅读 下 面 的 章节 。 


20.2.2 ” 云 对 外 表现 为 一 种 商业 模式 


笔者 恰恰 不 这 么 认为 ， 或 者 说 ， 上 面 这 些 观点 只 属于 狭义 范围 内 
的 对 云 的 定义 。 而 广义 范围 内 的 云 ， 其 实 并 不 局 限于 硬件 或 者 软件 的 
技术 或 者 架构 ， 最 初 的 、 广 义 上 的 云 ， 其 实 是 一 种 商业 模式 ， 而 当 商 
业 模 式 与 具体 的 计算 机 技术 相 结 合 之 后 ， 便 产生 了 云 这 个 代名词 。 所 
以 说 ， 云 既是 一 种 商业 模式 的 指 代 ， 又 是 一 种 计算 机 技术 的 大 集合 。 


正 因 为 云 本 质 上 起 产 于 一 种 商业 模式 而 不 是 技术 模式 ， 那 么 云 当 
然 也 就 没有 一 个 外 在 的 像 技 术 一 样 严格 的 标准 了 。 为 何 这 么 说 呢 ? 举 
个 例子 ， 有 10 个 人 ， 每 人 都 想 开 一 家 和 餐馆， 那么 其 结果 一 定 是 这 10 个 
人 开 的 和 餐馆， 每 个 都 是 不 同 的 。 首 先 就 是 店面 布局 不 同 ， 其 次 是 价格 
不 同 ， 再 次 是 管理 方式 和 管理 所 用 的 工具 不 同 ， 最 后 就 是 菜 看 种 类 和 
口味 也 不 同 。 那 么 我 们 回 到 计算 机 领域 ， 比 如 还 是 这 10 个 人 ， 每 人 都 
有 10 台 服务 器 ， 现 在 想 让 这 10 个 人 用 这 10 台 服务 器 来 获取 最 高 的 利 
润 ， 其 结果 肯定 也 是 不 同 的 。 比 如 有 人 选择 直接 卖 掉 它 们 ， 易 主 交 
易 ; 有 人 则 想到 了 另外 的 方法 ， 比 如 有 人 做 起 了 网 站 空间 出 租 业务 ， 


还 附带 一 系列 的 诸如 域名 、 网 盘 等 其 他 业务 ， 也 有 人 在 其 上 开发 了 一 
个 软件 平台 ， 做 起 了 文档 阅读 服务 ， 还 有 人 则 利用 这 些 服务 器 开办 了 
计算 业务 。 选 择 出 租 空 间 的 ， 就 可 以 叫 它 云 存储 ;而 选择 出 租 计算 资 
源 的 ， 就 可 以 叫 它 云 计算 了 。 


云 昌 然 没有 一 个 外 在 标准 ， 但 是 基于 同一 种 商业 模式 所 诞生 的 不 
同 产品 ， 它 们 显然 是 有 共性 的 ， 比 如 都 拥有 自己 的 硬件 基础 架构 ， 包 
括 网 络 、 服 务 器 、 存 储 设备 和 软件 平台 ; 都 提供 特定 的 用 户 接口 ， 比 
如 通过 网 页 方式 来 享受 服务 ， 或 者 通过 客户 端 程序 连接 到 云 供应 商 处 
来 获取 资源 等 。 


这 种 共性 不 代表 标准 ， 也 无 法 被 标准 化 。 自 古 到 今 从 来 没有 人 或 
者 机 构 对 其 他 人 的 商业 模式 来 制定 标准 ， 就 像 并 没有 人 规定 ， 所 有 的 
餐饮 必须 是 两 层 楼 ， 必 须 以 某 某 规格 来 半 修 一 样 。 对 于 妆 修 简陋 的 餐 
馆 ， 它 依然 还 是 一 家 餐馆， 你 不 能 因为 它 简 陋 就 认为 它 不 是 餐馆 了 。 
正如 有 些 域名 商 只 用 一 台 服 务 器 就 承载 了 多 个 网 站 一 样 ， 虽 然 只 有 一 
台 服 务 器 ， 但 是 它 的 商业 模式 已 经 是 云 模式 了 。 


云 商 业 模式 中 又 可 以 细 分 为 多 种 具体 的 商业 模式 ， 比 如 IAAS、 
PAAS 或 SAAS 等 。 这 就 好 比 有 些 餐 馆 只 卖 炒 菜 ， 而 有 些 只 卖 面 条 一 
样 。 关 于 这 三 个 服务 模式 ， 下 文 会 有 介绍 。 


人 落地 生根 一 一 以 需求 为 导向 的 系统 架构 变 


20.3.1 云 对 内 表现 为 一 种 技术 架构 


正如 20.2.1 节 中 的 那个 场景 ， 传 统 IT 系统 的 技术 架构 已 经 对 商业 需 
求 产生 了 制约 效应 。 而 解决 那 两 个 痛 点 的 技术 手段 ， 自 然而 然 的 非 虚 
拟 化 莫 属 。 服 务 器 虚拟 化 ， 即 虚拟 机 系统 ， 充 分 地 利用 了 资源 ， 辅 以 
诸如 VMware 虚 拟 机 系统 中 的 VMotion、DRS (Distributed Resource 
Scheduler) 等 技术 ， 极 大 地 增加 了 部 署 灵 活性 和 资源 均衡 性 。 如 果 那 
个 运营 商 已 经 部 署 了 虚拟 机 系统 ， 那 么 之 前 那个 痛 点 就 自然 解决 了 ， 
旧业 务 的 余 量 将 会 被 自动 回收 (对 物理 服务 器 的 资源 消耗 降低 ) ， 新 
业务 所 需 的 应 用 主机 可 以 直接 以 虚拟 机 的 方式 被 部 署 在 物理 机 上 ， 可 
以 与 日 业务 使 用 同一 台 物 理 机 ， 但 是 操作 系统 却 是 各 用 各 的 ， 避 免 了 
粘 合影 响 。 另 外 ， 部 署 虚 拟 机 比 部 署 物 理 机 所 耗费 的 时 间 大 大 减少 ， 
极 大 地 提升 了 针对 新 业务 的 响应 速度 。 最 后 ， 使 用 一 种 资源 自动 化 分 
配 与 回收 平台 来 解决 自动 化 部 署 的 问题 。 这 样 ， 那 3 个 痛 点 就 这 样 被 轻 
松 地 解决 了 。 


传统 的 数据 中 心 “ 太 硬 ”"， 需 要 在 其 上 增加 一 个 弹性 层 ， 让 其 “ 变 
软 ”， 成 为 软 数据 中 心 或 者 称 其 弹性 数据 中 心 。 而 实现 弹性 软化 的 一 个 
方法 就 是 使 用 虚拟 化 技术 ， 包 括 计算 资源 和 存储 资源 的 虚拟 化 。 


大 家 知道 ， 古 代 的 马车 ， 近 代 的 汽车 ， 都 是 使 用 实心 轮子 ， 这 样 
是 无 法 跑 快 和 跑 稳 的 。 后 来 人 们 发 明了 充气 轮胎 ， 最 终 使 得 现代 的 汽 
车 可 以 高 速 行驶， 并 且 保 证 平稳 。 对 于 一 个 数据 中 心 也 是 一 样 的 ， 早 
期 ， 没 有 任何 虚拟 化 措施 ， 买 了 多 少 台 服务 器 ， 就 是 多 少 台 ， 不 能 变 
多 也 不 能 变 少 ， 当 然 ， 除 非 你 关 掉 几 台 ; 同样 ， 你 买 了 多 少 存 储 就 有 
了 多 少 空间 ， 这 些 空间 不 会 变 多 也 不 会 变 少 。 那 时 候 ， 人 们 根本 想象 
不 到 ， 如 今 可 以 利用 虚拟 机 技术 将 一 台 服 务 器 虚拟 化 为 几 十 人 台 虚 拟 
机 ， 也 不 会 想到 Thin Provision 以 及 Deduplication 技 术 可 以 让 存储 空间 
像 变 魔术 一 样 从 小 变 大 或 者 从 大 变 小 ， 正 如 古代 人 的 飞天 梦想 如 今 早 


已 实现 一 样 。 如 果 说 硬 数 据 中 心 是 早期 的 实心 轮胎 的 话 ， 那 么 软 数据 
中 心 就 是 充气 轮胎 了 。 如 图 20-2 所 示 ， 在 传统 的 数据 中 心 硬 核心 之 
外 ， 被 包 庄 了 一 层 软 外 壳 层 ， 增 加 了 弹性 ， 这 层 软 外 壳 可 看 作 是 虚拟 
机 管理 系统 、 分 布 式 文件 系统 、 集 群 /Scale-Out 染 构 的 NAS/SAN， 以 
及 Thin、Dedup 等 将 硬 计算 与 存储 资源 进行 虚拟 化 和 灵活 化 处 理 的 层 
次 ， 这 一 层 形成 之 后 ， 整 个 数据 中 心 就 变 为 了 软 数 据 中 心 了 。 再 向 上 
走 一 步 ， 如 果 还 能 做 到 部 署 回收 自动 化 、 可 度量 化 、 服 务 化 、 可 运营 
的 数据 中 心 ， 那 么 这 也 就 是 个 云 数 据 中 心 了 。 


图 20-2 ”给 数据 中 心 增加 弹性 


再 比如 之 前 用 服务 器 办 计算 业务 的 那个 例子 ， 他 只 有 10 台 服务 
器 ， 如 果 来 找 他 买 计 算 服务 的 人 越 来 越 多 ， 已 经 超过 10 个 客户 了 ， 那 
么 第 11 个 客户 就 只 能 等 待 么 ? 不 能 等 ， 否 则 他 会 找 其 他 供应 两 的 。 那 
怎么 办 ?他 自然 而 然 地 想到 了 虚拟 化 技术 。 他 在 这 10 台 服务 器 上 部 署 
了 虚拟 机 平台 ， 每 台 物 理 机 器 可 以 虚拟 出 多 台 虚 拟 机 器 ， 这 样 他 就 可 
以 接 更 多 的 订单 了 。 再 之 后 ， 他 发 现 每 次 客户 都 是 通过 FTP 方 式 来 上 
传 需要 计算 的 数据 ， 而 每 次 他 收 到 之 后 都 要 手动 转换 格式 然后 载 入 计 
算 ， 为 了 解决 这 个 问题 ， 他 开发 了 一 种 自动 转换 格式 的 程序 ， 而 且 还 
做 了 一 个 网 页 接口 ， 客 户 每 次 只 要 通过 网 页 方式 上 传 ， 并 选择 对 应 的 
参数 ， 那 么 服务 器 会 自动 把 这 些 数据 转换 成 对 应 的 格式 ， 自 动 计算 ， 
并 且 最 后 将 计算 的 结果 自动 通知 客户 ， 大 大 节省 了 人 力 成 本 ， 人 所 要 
做 的 工作 只 是 管理 和 收费 即 可 。 再 后 来 ， 连 收费 系统 都 变 成 了 自动 
的 ， 利 用 网 络 支付 平台 实现 了 自动 支付 ， 其 服务 器 的 规模 也 日 益 增 
大 ， 最 后 发 展 成 为 一 个 底层 为 大 规模 集群 的 、 中 层 通 过 虚拟 化 技术 抽 
象 虚 拟 化 的 、 表 层 全 自动 业务 处 理 的 大 型 云 计算 系统 。 


对 于 云 存储 ， 也 是 一 样 的 道理 。 从 最 简单 的 存储 空间 租用 ， 到 最 
后 变 成 底层 大 容量 的 存储 设备 集群 、 中 层 加 入 存储 虚拟 化 层 以 及 各 种 
数据 管理 功能 层 (Thin、 分 级 、 快 照 、 容 灾 等 ) 、 表 层 实 现 全 自动 业 
务 处 理 的 云 系统 。 


综 上 所 述 ， 虚 拟 化 和 集群 化 是 云 系 统 中 两 个 重要 的 角色 。 另 外 ， 
云 系统 中 还 需要 另外 一 个 重要 的 角色 ， 也 就 是 一 个 负责 资源 自动 部 
署 、 调 度 、 分 配 和 回收 的 管理 者 角色 ， 它 表现 为 一 套 软 件 模 块 ， 这 个 
模块 对 内 与 整个 云 中 的 各 个 资源 部 分 通信 以 达到 对 资源 的 管理 ， 对 外 
则 负责 响应 业务 部 署 的 需求 ， 将 这 些 需 求 转 化 为 对 内 的 资源 调度 分 配 
和 管理 。 这 个 模块 综合 来 讲 ， 就 是 “ 目 动 化 ”。 


用 合适 的 技术 架构 来 承载 互联 网 时 代 的 商业 需求 ， 云 对 内 表现 为 
一 种 技术 架构 。 集 群 化 、 虚 拟 化 、 上 自动 化 是 作为 一 个 云 来 讲 所 必需 的 
特性 ， 然 而 ， 有 了 这 些 还 不 够 。 一 个 云 想 要 达到 可 运营 的 状态 ， 还 必 
须 做 到 可 度量 化 ， 任 何 用 户 使 用 了 何 种 资源 ， 为 期 多 长 时 间 ， 耗 费 多 
少 成 本 ， 毛 利率 几何 ， 报 价 几何 ， 这 些 都 要 经 过 精确 的 度量 、 定 价 过 


程 。 
20.3.2” 云 到 底 是 模式 还 是 技术 


云 到 底 表示 一 种 商业 模式 ， 还 是 表示 为 一 种 技术 架构 呢 ? 可 以 说 
这 是 个 鸡 生 蛋 和 和 蛋 生 鸡 的 问题 。 前 者 是 先 有 了 云 的 思想 ， 然 后 才 在 对 
应 的 技术 架构 上 来 实现 了 这 种 思想 ;而 后 者 则 是 先 有 了 大 量 的 物质 基 
础 ， 有 了 对 应 的 技术 架构 ， 比 如 虚拟 化 和 集群 架构 ， 然 后 自然 想到 了 
如 何 利用 这 些 物质 基础 来 获取 最 大 利润 ， 于 是 便 催生 了 云 这 种 商业 模 
式 。 我 们 已 经 很 难 追溯 云 的 发 展 史 了 ， 所 以 到 底 是 谁 催 生 了 谁 ， 可 能 


永远 也 说 不 清 ， 道 不 明了 。 但 是 有 一 点 是 肯定 的 ， 两 者 结合 之 后 ， 一 
定 是 相互 催生 ， 相 辅 相 成 ， 一 直到 今天 被 炒 的 如 此 火热 的 程度 。 


图 20-3 ”数据 的 存储 、 管 理 与 运营 


大 家 看 一 下 图 20-3。 最 早期 的 时 候 ， 存 储 系统 只 注重 数据 存储 ， 
只 给 你 提供 一 块 空间 ， 数 据 怎 么 管 ， 怎 么 用 ， 底 层 存 储 不 关心。 后 来 
随 着 人 们 需求 的 增长 ， 这 种 心态 已 经 完全 落伍 了 。 存 储 系统 开始 注重 
数据 管理 ， 针 对 各 种 需求 开发 了 各 种 数据 管理 功能 ， 比 如 数据 保险 ， 
也 就 是 快照 或 者 CDP， 重 删 以 及 Thin， 数 据 容 灾 、 克 隆 、 迁 移 等 。 再 
后 来 ， 存 储 系统 除了 关心 怎么 存 、 怎 么 管 ， 还 开始 关心 怎么 用 的 问题 
了 ， 也 就 率 扯 到 数据 运营 了 。 存 储 系统 管 得 越 来 越 多 ， 越 来 越 上 层 
了 ， 越 往 上 走 ， 就 已 经 不 是 存储 系统 这 个 子 系统 所 能 掌控 的 了 ， 此 时 
需要 贴近 用 户 的 应 用 ， 会 注重 业务 展现 ， 针 对 传统 存储 厂商 来 讲 是 个 
很 大 的 挑战 。 由 于 互联 网 日 蔓 鞍 所 友 展 ， 越 来 越 多 拥有 IT 资源 的 机 构 
都 想 通 过 互联 网 来 进行 运营 ， 包 括 ISV、NSP、 传 统 电 信和 运营 商 ， 这 就 
注定 了 云 的 发 展 。 


有 人 认为 云 的 本 质 是 虚拟 化 技术 或 者 集群 技术 ， 这 一 点 也 比较 偏 
颇 。 应 当 说 云 的 本 质 是 一 种 由 虚拟 化 和 集群 技术 支撑 的 以 服务 为 模式 
的 可 运营 的 厅 系 统 ， 也 就 是 商业 模式 与 技术 架构 共同 组 成 了 云 系统 。 
云 只 是 利用 了 很 多 技术 来 实现 商业 模式 和 目的 而 已 。 云 包含 的 技术 不 
仅仅 是 虚拟 化 和 集群 技术 ， 还 有 其 他 各 种 技术 ， 比 如 并 行 计 算 技 术 
等 。 可 以 说 只 要 存在 的 技术 ， 都 可 以 融入 到 云 中 ， 但 是 虚拟 化 和 集群 
技术 是 大 规模 云 所 必需 的 。 


云 就 是 一 个 可 以 提供 某 种 模式 服务 的 、 可 以 根据 业务 迅速 响应 并 
且 自 动 地 、 迅 速 而 灵活 地 部 署 和 回收 资源 的 智能 IT 系统 。 至 于 到 底 要 


多 么 智能 才 算 是 云 ， 没 有 一 个 固定 标准 。 可 以 这 么 说 ， 传 统 的 数据 中 
心 如 果 叫 它 云 1.0。 那 么 目前 兴建 的 这 些 融 入 了 新 技术 的 可 灵活 部 署 的 
数据 中 心 可 以 叫做 云 2.0。 


如 图 20-4 所 示 为 从 用 户 需 求 到 最 终 业 务 展现 的 流程 示意 图 。 这 张 
图 概括 了 之 前 章节 所 表达 的 所 有 观点 。 


图 20-4 ”基于 需求 的 云 进程 
20.3.3 ”公有 云 和 私有 云 


此 时 我 们 已 经 有 了 一 个 云 数据 中 心 了 ， 那 么 这 个 数据 中 心 是 打算 
只 对 企业 内 部 开放 服务 ， 还 是 对 互联 网 之 外 的 任何 人 开放 服务 呢 ? 有 
时 候 某 个 企业 的 私有 数据 中 心 想 转变 为 云 模式 ， 只 对 企业 内 部 提供 云 
服务 ， 比 如 存储 空间 申请 、 桌 面 备份 和 恢复 ， 以 及 企业 内 部 应 用 系统 
的 快速 部 署 等 ， 那 么 这 个 云 就 属于 私有 云 的 范畴 。 而 如 果 某 个 数据 中 
心 如果 想 要 对 外 营业 ， 通 过 互联 网 提供 各 种 云 服 务 ， 那 么 这 个 云 就 属 
于 公有 云 的 沁 畴 了 。 其 实 叫 做 公用 云 和 私 用 云 更 准确 ， 用 户 并 非 拥 有 
这 个 云 而 只 是 在 使 用 这 个 云 。 公 有 云 数据 中 心 一 般 都 属于 运营 商 ， 运 
营 商 更 懂得 运营 之 道 。 


1. 私有 云 让 企业 IT 部 门 的 角色 彻底 转变 


对 于 一 个 企业 来 讲 ， 其 IT 部 门 的 角色 往往 是 比较 槛 熔 的 ， 甚 至 对 
于 一 个 搞 IT 的 公司 也 是 这 样 。 企 业 的 IT 部 门 在 传统 观念 下 被 定义 为 一 
个 底层 支撑 部 门 ， 但 却 基本 上 没有 自己 的 话语 权 ， 话 语 权 被 掌握 在 业 
务 部 门 手 中 。 比 如 某 制 造 企业 需要 上 一 个 新 产品 生产 线 ， 这 个 项 目 对 
IT 部 门 的 要 求 则 是 提供 足够 性 能 的 服务 器 、 存 储 等 以 用 来 承载 新 业务 


系统 。IT 部 门 在 接 到 这 个 任务 之 后 ， 就 必须 进行 调研 之 后 发 起 招标 采 
购 等 流程 。 我 们 看 看 这 个 过 程 中 存在 的 一 些 特 征 和 问题 。 


首先 ，IT 部 门 在 整个 过 程 中 始终 处 于 业务 部 门 的 率 引 之 下 ,， 一切 
围绕 业务 需求 来 开展 ， 所 有 的 采购 、 经 费 申 请 等 必须 以 业务 需求 为 前 
提 ， 业 务 没有 需求 就 基本 上 申请 不 到 大 批 经 费 和 资源 。 


其 次 ， 传 统 的 开架 构 中 ， 不 同 的 业务 一 般 不 会 运行 在 同一 台 物 理 
服务 器 中 ， 这 就 导致 每 上 一 个 业务 ， 基 本 上 就 要 采购 一 批 新 设备 。 而 
如 果 之 前 某 个 业务 下 线 了 ， 或 者 企业 根据 市 场 状况 决定 将 某 业务 缩 量 
生产 候 旗 息 鼓 ， 那 么 此 时 IT 系统 中 用 来 支撑 这 些 业 务 的 设备 负载 就 会 
随 之 降低 ， 释 放 了 资源 ， 但 是 这 些 被 释放 的 资源 却 得 不 到 利用 。 


基于 上 面 两 个 因素 ，IT 部 门 有 潜在 的 意愿 来 将 自己 的 角色 进行 彻 
底 转 变 ， 之 前 被 业务 部 门 牵 着 走 ， 现 在 它 想 提高 自己 的 地 位 ， 不 说 跑 
到 业务 前 面 去 ， 也 要 与 业务 部 门 处 于 平等 地 位 。 怎 么 实现 这 种 角色 转 


变 呢 ? 


“服务 ”这 两 个 字 恰 好 满足 了 这 种 转变 的 需求 。 比 如 ，IT 部 门 采 取 
了 一 系列 措施 将 自己 彻底 打造 为 一 个 以 服务 为 导向 的 部 门 ， 这 些 措施 
包括 : 建立 规范 的 资源 申请 流程 ， 不 管 是 从 日 单 桌面 维护 还 是 新 业务 
上 绪 方 面 ， 建 立 电子 工 单 审批 系统 ， 任 何人 想 要 获得 任何 IT 服务 都 必 
须 填写 工 单 ， 审 批 之 后 IT 部 门 输出 对 应 的 服务 ;另外 还 建立 了 一 套 可 
度量 的 资源 使 用 记录 统计 系统 ， 比 如 可 以 统计 某 其 他 部 门 在 某 段 时 间 
内 使 用 了 多 少 IT 资 源 ， 这 些 资 源 等 价 于 多 少 成 本 。 


这 套 东 西 被 推行 之 后 ，IT 部 门 这 个 独立 服务 角色 就 定型 了 。 有 既然 
是 服务 ， 那 么 其 就 有 了 一 定 的 话语 权 ， 并 不 是 “用 户 ” (企业 其 他 业务 


部 门 ) 说 什么 IT 部 门 就 要 干什么 的 。 这 样 也 就 在 向 企业 申请 各 种 资源 
方面 有 了 更 大 的 弹性 和 主动 权 。 这 样 ， 业 务 部 门 在 向 IT 部 门 申请 IT 资 
源 的 时 候 就 是 以 一 种 协商 态度 而 不 是 强势 的 牵制 态度 了 。 另 外 ， 由 于 
资源 的 使 用 变 得 可 度量 ，IT 部 门 就 会 随时 掌握 整个 企业 对 IT 部 门 资源 
的 使 用 程度 ， 并 做 出 合理 的 预测 ， 在 申请 后 续 经 费 等 资源 时 变 得 更 有 
说 服 性 。 


好 ， 既 然 IT 部 门 已 经 成 为 一 个 独立 的 可 服务 型 的 部 门 了 ， 那 么 下 
一 步 就 势必 要 考虑 到 它 自身 运营 的 成 本 问题 。 最 大 的 成 本 来 自 于 哪里 
呢 ? 


当然 是 设备 购置 成 本 。 上 文中 所 述 的 那个 资源 得 不 到 充分 利用 的 
场景 ， 已 经 成 为 最 令 IT 部 门 头 疼 的 问题 ， 人 迫切 需要 技术 手段 来 解决 ， 
而 解决 这 个 问题 的 最 佳 技术 就 是 虚拟 机 技术 ， 这 也 是 为 何 目前 越 来 越 
多 的 企业 打算 部 署 虚 拟 化 IT 环境 与 虚拟 桌面 环境 的 原因 之 一 。 另 外 ， 
IT 数据 中 心 还 有 更 多 一 系列 的 其 他 问题 ， 比 如 扩容 费用 高 昂 、 扩 容 维 
护 停 机 、 迁 移 困 难 等 ， 而 这 些 都 有 对 应 的 技术 手段 解决 ， 比 如 使 用 
Scale-Out 集 群 与 虚拟 化 技术 等 。 总 之 ， 集 群 和 虚拟 化 (包括 虚拟 存储 
与 虚拟 计算 ) 这 两 大 技术 手段 可 以 为 数据 中 心 解决 很 多 来 手 的 问题 。 
引入 虚拟 化 与 集群 之 后 ，IT 数 据 中 心 将 变 得 更 加 有 弹性 ， 比 如 原本 规 
划 的 时 候 ， 考 虑 一 台 物 理 设备 可 以 承载 100 台 虚拟 机 ， 那 么 承载 105 人 台 
是 否 可 以 ? 某 些 场景 下 可 能 也 没有 问题 。 这 样 ，IT 部 门 在 申请 建设 资 
金 时 也 就 更 加 有 弹性 了 。 


是 什么 可 以 让 IT 部 门 地 位 提升 ? 它 想 提升 就 提升 了 么 ? 没有 这 样 
的 事情 。 本 质 是 因为 现代 企业 越 来 越 依靠 1T， 任 何事 情 都 离 不 开 IT 部 
门 ， 所 以 它 的 地 位 自然 就 会 升 高 ， 到 了 一 定 的 程度 ， 加 上 一 些 促 发 因 


素 比 如 虚拟 化 、 集 群 拷 术 的 支撑 ， 那 么 IT 部 门 角色 转型 也 就 顺理成章 
了 。 


2. 共有 云 受 制 于 互联 网 网 络 带宽 发 展 受 限 


想 让 某 个 云 数 据 中 心 提 供 服 务 ， 就 要 满足 一 个 基本 条 件 ， 即 网 络 
带宽 要 够 。 网 络 带宽 直接 限制 了 一 个 数据 中 心 能 够 提供 的 服务 的 种 类 
和 级 别 。 如 果 一 个 云 数 据 中 心 是 面向 企业 内 部 提供 服务 的 ， 即 私有 
云 ， 那 么 就 不 必 担 忱 网 络 带宽 的 问题 ， 因 为 企业 内 部 的 网 络 带宽 是 非 
党 充足 的 ， 其 可 以 支撑 任何 种 类 和 层面 〈IaaSs、PaaS、SaaS) 的 服 
务 ， 比 如 Iaas ， 比 如 用 户 可 以 直接 申请 一 块 存储 空间 而 使 用 对 应 的 协 
议 〈 比 如 iSCSI、NFS、CIFS 等 ) 进行 挂 载 使 用 ， 速 度 也 不 慢 ; 再 比如 
用 户 可 以 申请 一 台 虚 拟 机 ， 通 过 远程 桌面 来 登录 使 用 ， 可 以 上 传 各 种 
应 用 程序 并 安装 运行 。 


而 对 于 共有 云 ， 问 题 就 来 了 。 如 今 互 联网 接 入 带宽 偏 低 ， 除 了 像 
日 韩 等 国之 外 ， 其 他 国家 宽带 接 入 速率 远 未 达到 可 以 承载 IJaaS 服 务 的 
可 容忍 程度 。 大 量 的 用 户 还 是 通过 1Mb/s 或 者 2Mb/s 的 宽带 来 接 入 。 这 
种 只 有 100KB/s 或 者 200KB/s 吞 吐 量 的 接 入 速度 ， 你 让 用 户 购 买 什么 服 
务 呢 ? 给 他 个 iSCSI 协议 访问 的 存储 空间 是 不 现实 的 。 充 其 量 提 供 一 些 
诸如 网 盘 之 类 的 上 传 下 载 服务 ， 网 页 服务 就 不 用 说 了 ，1Mb/s 基 本 上 
已 经 够 用 。 视 频 服 务 呢 ? 标清 码 率 的 视频 2Mb/s 速 率 勉 强 可 以 承载 。 
总 之 ， 常 用 的 SaaS 服 务 (网 页 、 聊 和 天、 视频、 网 盘 、 在 线 游 戏 、 基 于 
Web 的 信息 管理 系统 等 ) 基本 上 可 以 承载 于 低速 网 络 上 。 大 部 分 PaaS 
服务 也 可 以 通过 互联 网 来 提供 ， 比 如 微软 的 Azure 等 。 而 IaaS 就 有 些 困 
难 了 ， 比 如 你 购买 了 一 台 虚 拟 机 的 使 用 权 ， 运 营 商 给 了 你 一 个 虚拟 昌 
面 连接 地 址 ， 此 时 1Mb/s 速 率 基 本 上 很 勉强 ， 如 果 你 要 想 在 其 上 安装 


一 些 应 用 程序 的 话 ， 那 基本 上 很 慢 ， 因 为 你 得 先 把 安装 包 上 传 上 去 。 
所 以 有 些 IaaS 提 供 丙 一 般 都 会 预先 著 好 必要 的 软件 比如 数据 库 、 中 间 
件 等 ， 打 包 在 虚拟 机 磁盘 映像 中 ， 根 据 用 户 的 选择 将 对 应 的 映像 制作 
成 虚拟 机 。 另 外 ，SaaS 有 着 更 广泛 的 用 户 基 群 和 更 长 的 历史 ， 而 PaaS 
与 laaS 是 伴随 着 云 的 兴起 而 逐渐 被 引出 的 概念 ，SaaS 会 借助 云 的 兴起 
而 获得 持续 发 展 ，PaaS 和 IaaS 则 会 随 着 云 而 加 速 发 展 。 


综 上 所 述 ， 云 目前 最 能 够 被 广泛 推进 的 地 方 就 是 新 建 的 数据 中 
心 ， 几 乎 所 有 新 建 的 数据 中 心 都 会 被 向 云 方面 引导 和 建设 ， 不 管 是 企 
业 数 据 中 心 还 是 运营 丙 数 据 中心 。 企 业 兴建 私有 云 数据 中 心 ， 而 运营 
商 则 兴建 混合 云 数 据 中 心 ， 也 就 是 同时 对 内 和 对 外 服务 的 云 数据 中 


心 o 


20.4” 拨 云 见 日 一 一 云 系统 架构 及 其 组 成 部 分 


如 图 20-5 所 示 为 一 个 云 数 据 中 心 系统 中 的 关键 层次 。 经 过 前 文 的 
描述 ， 大 家 此 时 应 该 对 云 的 由 来 、 发 展 和 表现 形式 ， 云 能 干什么 ， 有 
什么 特点 ， 由 什么 技术 堆 赤 而 成 等 方面 有 了 一 个 框架 式 的 了 解 了 。 这 
一 节 融 领 大 家 再 深入 一 层 ， 从 概念 深 挖 到 具体 的 架构 层 。 


图 20-5 云 基 础 架构 层次 
20.4.1 ”物理 支撑 层 


云 是 一 种 方法 ， 但 是 它 也 必须 承载 于 物质 之 上 。 对 于 一 个 云 数据 
中 心 来 讲 ， 供 电 、 散 热 、 安 防 和 维护 等 都 是 必 不 可 少 的 ， 这 些 元 素 构 
成 了 云 的 最 底层 ， 也 就 是 物理 支撑 层 。 


20.4.2 ”基础 IT 架构 层 


数据 中 心 一 定 要 有 支撑 其 运营 的 I 系统 设备 ， 包 括 基本 的 网 络 、 
服务 器 和 存储 系统 ， 还 需要 一 个 网 络 / 设 备 管理 系统 。 然 而 ， 这 些 服务 
器 与 存储 设备 并 不 是 一 个 个 的 孤岛 。 上 文中 说 过 ， 集 群 、 虚 拟 化 、 目 
动 化 ， 是 一 个 大 规模 的 纯正 的 云 所 应 当 具 有 的 技术 特征 。 


云 底 层 的 集群 架构 可 以 有 两 种 实现 方式 ， 第 一 种 途径 是 利用 现 有 
的 网 格 ， 网 格 技术 是 把 现 有 的 、 零 散 的 、 非 专用 的 所 有 资产 整合 起 
来 ， 在 其 上 加 入 虚拟 化 层 ， 形 成 一 个 计算 和 存储 的 分 布 式 集群 ， 在 这 
个 集群 之 上 再 来 实现 云 服 务 层 ， 第 二 种 途径 是 专门 的 集中 式 并 行 集群 
数据 中 心 ， 加 上 虚拟 层 ， 然 后 再 加 上 云 服务 层 。 但 是 一 般 新 兴建 的 数 
据 中 心 都 是 采用 后 者 ， 也 就 是 直接 使 用 专用 的 集群 系统 来 充当 基础 IT 
染 构 层 。 


说 明 : 利用 大 规模 网 格 来 实现 云 计算 的 例子 也 是 有 的 ， 最 为 
成 功 的 一 个 莫 过 于 SETI@Home 寻 找 外 星人 项 目 ， 利 用 
Internet 上 的 计算 机 为 其 计算 。 这 个 程序 作为 一 个 屏幕 保护 程 
序 存在 ， 每 当 屏保 激活 时 ， 程 序 便 连接 服务 器 端 来 获取 一 段 
需要 计算 的 数据 ， 然 后 开始 计算 ， 并 且 将 结果 存储 在 本 地 。 
每 次 屏保 被 激活 ， 程 序 便 开 始 计算 ， 直 到 算出 结果 为 止 ， 将 
结果 传输 到 服务 器 端 然后 再 次 下 载 需 要 计算 的 数据 来 计算 。 
这 样 ， 整 个 互联 网 中 的 电脑 就 组 成 了 一 个 超大 规模 的 网 格 集 
群 。 而 这 个 场景 确实 非常 真实 和 准确 地 反映 了 “ 云 计 算 ” 这 三 
个 字 。 

这 似乎 又 矛盾 起 来 了 ， 网 格 计算 是 一 种 分 布 式 计 算 ， 而 云 又 
应 当 是 一 个 集中 式 计 算 提 供 者 ， 仔 细 想 来 其 实 不 矛盾 ， 这 就 
是 一 种 虚拟 化 的 表现 ， 即 先 用 网 格 计算 整合 所 有 计算 资产 ， 
然后 再 用 虚拟 化 的 方式 将 这 些 资 源 出 售 或 者 出 租 。 


20.4.3 ”基础 架构 /集群 管理 层 


有 了 集群 还 不 够 ， 还 必须 在 这 个 集群 之 上 覆盖 一 层 或 者 几 层 虚拟 
化 层 来 增加 整个 系统 的 弹性 ， 将 所 有 资源 虚拟 化 为 资源 闻 。 对 于 计算 
资源 ， 也 就 是 集群 中 的 服务 器 节点 ， 通 过 使 用 VMware、Citrix 等 虚拟 
机 平台 可 以 完成 这 个 工作 。 而 对 于 存储 节点 呢 ? 也 需要 有 这 么 一 种 虚 
拟 化 平台 ， 而 目前 来 看 ， 能 够 满足 这 种 需求 的 存储 空间 虚拟 化 平台 ， 
只 有 分 布 式 文件 系统 或 者 分 布 式 郑 管理 系统 才能 满足 。 


另外 ， 网 络 、 服 务 器 以 及 存储 集群 基础 架构 需要 一 个 管理 模块 ， 
负责 整个 集群 的 监控 、 硬 件 资产 管理 、 硬 件 故 障 更 换 管理 等 。 


20.4.4 ”资源 部 署 层 


有 了 基本 的 网 络 、 服 务 器 和 存储 集群 ， 还 是 远 远 不 够 的 ， 需 要 一 
个 用 来 管理 和 驱动 这 个 集群 的 角色 。 上 文中 说 过 ， 集 群 硬件 之 上 是 虚 
拟 化 的 弹性 包 应 层 ， 比 如 VMware 的 Vsphere4 (计算 资源 包 于 ) 以 及 分 
布 式 /集群 文件 系统 或 者 分 布 式 / 集 群 卷 管理 系统 (存储 资源 包 应 ) 。 
利用 Vsphere 所 提供 的 VMotion 与 DRS ( Distributed Resource 
Scheduler) ， 可 以 将 虚拟 机 在 集群 节点 中 灵活 移动 ， 而 且 可 以 做 到 资 
源 动 态 分 配 与 回收 。 然 而 ， 一 个 云 数据 中 心中 并 不 一 定 只 有 一 种 虚拟 
层 ， 可 以 有 多 种 不 同 种 类 的 虚拟 层 ， 这 样 ， 就 需要 一 个 独立 的 虚拟 机 
与 虚拟 存储 资源 调度 分 配 软 件 模 块 ， 它 通过 调用 这 些 虚 拟 化 模块 所 提 
供 的 接口 来 完成 整体 的 资源 调度 与 分 配 回收 。 


20.4.5 ”中 间 件 层 


当 有 了 物理 环境 、IT 基 础 架构 、 基 础 架构 监控 管理 、 资 源 分 配 部 
署 回收 层 之 后 ， 一 个 充实 的 基 座 就 有 了 。 人 在 这 个 基 座 之 上 ， 就 可 以 完 
成 各 种 业务 的 部 署 了 。 应 用 层 与 资源 层 之 间 可 能 需要 一 个 中 间 层 来 适 
配 。 这 个 层次 不 仅 位 于 应 用 引擎 和 资源 部 署 引 擎 之 间 ， 云 架构 中 所 有 
层次 之 间 可 能 都 需要 各 种 适 配 。 


20.4.6 ”应 用 引擎 层 


应 用 引擎 层 则 是 产生 各 种 业务 应 用 的 温床 了 ， 这 一 层 提供 一 
用 的 业务 开发 平台 ， 或 者 将 其 他 平台 所 开发 的 应 用 适 配 进 来 ， 然 后 统 
一 发 布 。 


20.4.7 ”业务 展现 与 运营 层 


现在 万 事 俱 备 ， 只 欠 东 风 了 。 数 据 中 心 的 硬件 、 软 件 、 架 构 都 已 
经 被 打造 为 集群 化 、 虚 拟 化 和 自动 化 的 形态 ， 各 种 业务 也 可 以 随时 部 
署 和 撤销 ， 底 层 资 源 得 到 最 大 化 的 利用 ， 降 本 增 效 。 那 么 还 欠缺 什么 
呢 ? 刚才 所 列 出 的 这 些 ， 都 只 是 对 你 自己 有 意义 的 事情 ， 是 为 了 让 你 
自己 更 好 地 去 适应 这 个 市 场 ， 适 应 不 断 膨胀 的 用 户 需求 。 那 么 这 些 东 
西 对 用 户 来 讲 ， 没 有 任何 意义 。 用 户 不 关心 底层 用 不 用 集群 或 者 虚拟 
化 ， 更 不 关心 底层 是 人 工 部 署 还 是 自动 部 署 和 管理 。 用 户 只 关心 他 能 
得 到 最 快 的 服务 与 响应 ， 更 关心 提供 服务 的 方式 、 界 面 、 操 作 便 捷 
性 、 展 现 的 如 何 、 收 费 是 否 合理 等 。 对 于 一 个 云 来 讲 ， 业 务 展现 于 运 
营 层 是 最 终 关 系 到 这 个 云 僵 利 模式 及 利润 的 关键 。 


云 服务 是 让 数据 中 心 实现 僵 利 的 另外 一 种 商业 模式 ， 说 日 了 ， 束 
是 卖 数据 中 心 ， 把 数据 中 心 的 所 有 资源 整合 起 来 ， 虚 拟 化 ， 然 后 再 分 
配 ， 再 以 租用 和 服务 的 方式 出 租 。 大 规模 的 云 之 内 必须 要 有 虚拟 化 


层 ， 2 原 ， 二 是 用 来 整合 成 大 的 资产 地 ， 如 
果 没 有 虚拟 化 ， 则 将 无 法 管理 一 个 个 的 孤岛 ， 资 产 分 配 的 灵活 性 达 不 
到 要 求 。 


我 们 可 以 把 云 分 为 云 存 储 、 云 主机 、 云 计算 这 三 大 块 服务 。IaaSs 
属于 云 存 储 或 者 云 主 机 范畴 ，PaaS 和 SaaSs 则 属于 云 计算 范畴 。 


笔者 总 结 了 一 个 云 服 务 架 构 简 图 ， 如 图 20-6 所 示 。 


图 20-6 IaaS、PaaS 和 SaaS 
出 租 数 据 中 心 可 以 在 下 面 的 几 个 层次 上 进行 。 
1. 基础 设施 即 服务 〈IaaS) 


卖 存 储 空间 ， 卖 虚拟 机 ， 卖 计算 服务 。 所 谓 Infrastructure As A 
Service， 或 称 硬 件 即 服务 (Hardware as a Service，HAAS) ， 其 中 的 I 
就 代表 了 云 系统 中 的 硬件 设施 ， 诸 如 服务 器 、 网 络 、 存 储 系统 等 。 如 
上 图 所 示 ， 云 提供 商 的 存储 集群 和 计算 集群 ， 缘 可 以 出 租 。 可 以 只 卖 
存储 ， 也 可 以 只 卖 计 算 ， 或 者 买 计算 的 赠 一 定 容量 的 存储 空间 ， 当 然 

笔者 在 此 只 是 开放 地 设想 而 已 。IaaS 并 不 算是 云 计算 的 一 种 ， 因 为 
IaaS 并 不 直接 负责 用 户 的 计算 ， 而 只 是 提供 硬件 平台 ， 有 具体 计算 的 细 
节 由 用 户 自行 部 署 。 


1) 如 何 卖 存储 空间 


可 以 有 多 种 方式 ， 如 卖 裸 空间 、 卖 文件 存储 空间 等 。 宰 空间 就 是 
说 最 终 用 户 的 操作 系统 看 到 的 是 一 块 硬盘 ， 所 用 到 的 协议 当然 首选 
iSCSI 方式 ， 以 便于 跨越 了 网 络 ， 即 用 户 终 庙 通过 iSCSI Initiator 连 接 云 


提供 商 处 的 iSCSI Target 从 而 获得 一 个 或 者 几 个 LUN。 文 件 存储 空间 方 
式 又 包含 两 种 方式 : 一 个 是 基于 传统 NAS 协 议 的 访问 方式 ， 另 一 种 是 
基于 HTTP 协 议 或 者 服务 商 专用 的 其 他 协议 访问 方式 。 基 于 NAS 协 议 的 
存储 空间 需要 使 用 NFS 或 者 CIFS 协 议 来 挂 载 服务 商 处 的 Volume， 基 于 
HTTP 方 式 访问 则 是 更 高 一 层 的 实现 方式 ， 比 如 网 络 硬盘 等 大 部 分 都 是 
用 HTTP 方 式 。 基 于 裸 磁盘 和 NAS 协 议 的 Volume 来 存储 数据 ， 在 操作 
系统 层面 具有 一 定 的 通用 性 ， 可 以 实现 各 种 应 用 程序 透明 访问 分 配给 
它 的 空间 。 而 基于 HTTP 协 议 的 访问 方式 ， 不 具 通用 性 ， 只 在 定制 的 情 
况 下 才 使 用 。 


对 于 云 中 的 存储 系统 ， 诸 如 Thin Provision、 Deduplication 、 
Dynamic Tiering 等 特性 应 该 说 是 必须 的 。 云 的 一 个 作用 就 是 高 效 和 成 
本 降低 ，Thin 与 Dedup 这 两 种 数据 缩减 技术 可 以 降低 不 必要 的 存储 空 
间 占 用 ; 而 动态 分 级 则 可 以 进一步 节省 存储 成 本 。 


2) 如 何 卖 服务 器 /虚拟 机 


这 里 说 到 的 依然 是 Iaas ， 即 卖 的 是 基础 设施 而 不 是 更 高 层级 别 的 
服务 。 服 务 器 资源 该 如 何 出 租 呢 ?总 不 可 能 卖 给 用 户 一 整 台 物理 服务 
器 吧 ， 那 样 就 没有 任何 意义 了 ， 用 户 很 大 可 能 根本 用 不 到 这 台 物 理 服 
务 器 所 能 提供 的 最 大 资源 。 


然而 ， 更 不 可 能 把 一 台 服 务 器 分 割 成 几 半 来 出 租 ， 除 非 有 一 种 虚 
拟 化 的 方式 ， 将 物理 服务 器 虚拟 成 多 台 虚 拟 服务 器 。 的 确 是 这 样 的 ， 
这 正 是 云 服 务 中 的 服务 器 资源 的 虚拟 和 出 租 方式 。 提 供 商 通过 某 种 虚 
拟 化 解决 方案 比如 Vmware、 Citrix Xen 等 。 比 如 用 户 需要 1 台 运 行 
Linux 系 统 的 DB2 数 据 库 服务 器 ，1 台 运行 Windows 2003 系 统 的 
Exchange 服 务 器 ，2 台 运行 Windows 2003 系 统 的 Web 服 务 器 ， 每 台 服 务 


器 需要 3 个 网 络 接口 ， 则 提供 商 通 过 某 种 图 形 界面 生成 这 个 配置 ， 然 后 
发 庆 到 云 服务 管理 端 ， 云 目 动 在 现 有 的 虚拟 机 平台 上 按照 配置 要 求 创 
建 好 对 应 的 4 台 虚 拟 机 。 至 于 这 些 虚拟 机 最 后 是 不 是 落 在 同一 台 物 理 机 
器 上 ， 需 要 根据 更 多 的 因素 来 决定 了 ， 况 且 虚 拟 机 可 以 动态 地 在 物理 
机 器 之 间 迁 移 ， 资 源 也 可 以 按 需 分 配 ， 这 些 在 技术 上 都 可 以 实现 。 生 
成 的 虚拟 机 ， 可 以 给 用 户 提供 一 种 方式 ， 比 如 Telnet、SSH 或 者 远程 桌 
面 等 管理 方式 像 在 本 地 管理 一 样 来 管理 用 户 从 云 提 供 商 处 购 得 的 虚拟 
机 ， 在 其 上 安装 用 户 自己 需要 的 操作 系统 和 软件 等 。 而 服务 器 的 硬件 
维护 、 供 电 、 网 络 等 则 可 以 全 部 交 由 云 提 供 商 解决 。 


虚拟 机 平台 需要 考虑 的 几 个 功能 ， 一 是 动态 迁移 ， 即 虚拟 机 可 以 
影响 应 用 系统 而 在 物理 机 器 之 间 迁 移 ， 二 是 强劲 的 资源 动态 分 配 调 
度 ， 三 是 管理 方便 。 


Amazon 在 IaaS 方 面 提供 了 两 个 产品 : 弹性 计算 云 《Elastic 
Compute Cloud ，EC2) 和 简单 存储 服务 (Simple Storage Service ， 
S3) ， 分 别 对 应 了 主机 计算 集群 和 存储 集群 。 除 了 Amazon ， 提 供 
IAAS 服 务 的 还 有 3tera、GoGrid、Rackspace Mosso 和 Joyent 等 。 


2. 平台 即 服务 (PaaSs) 


卖 中 间 件 服务 ， 卖 软件 平台 服务 ， 卖 开发 定制 服务 。 相 对 于 
IaaS，PaaS 则 屏 米 掉 而 且 不 出 租 Infrastructure， 转 而 出 租 更 高 一 层 的 软 
件 平台 ， 在 这 个 平台 上 ， 用 户 可 以 制作 并 测试 符合 自己 要 求 的 网 络 应 
用 程序 。 在 对 应 厂商 提供 的 PaaS 平 台 上 开发 的 应 用 程序 一 般 只 能 在 这 
个 厂商 的 云 基 础 架构 中 运行 ， 也 就 是 说 ，PaaS 是 一 个 孕育 各 种 应 用 程 
序 的 平台 ， 但 是 这 些 应 用 程序 又 只 能 在 当初 孕育 它 的 平台 上 运行 。 
PaaS 属 于 一 种 云 计算 服务 ， 因 为 这 个 平台 是 一 种 运行 于 硬件 集群 上 的 


软件 ， 用 户 租用 了 这 个 平台 其 实 就 等 于 租用 了 计算 业务 。 目 前 几 个 比 
较 知 名 的 PaaS 平 台 有 Windows Azure、Force.com、Google AppEngine、 
Zoho 和 Facebook 等 。 


3. 软件 即 服务 (SaaS) 


卖 内 容 ， 卖 结果 。SaaS 是 云 服 务 中 的 最 外 层 业 务 。 云 提供 商 直 接 
向 用 户 出 售 业务 级 别 的 内 容 ， 而 与 业务 相关 的 数据 计算 ， 都 在 云 内 部 
完成 。SaaS 是 目前 互联 网 上 非常 普遍 的 一 种 服务 ， 比 如 我 们 最 常用 的 
Web 网 页 服务 、QQ 等 及 时 聊天 服务 ， 都 属于 SaaS 的 范畴 。 目 前 比较 知 
名 的 大 型 的 企业 级 SaaS 提 供 商 有 Epicor、 NetSuITe、 Salesforce.com 和 
Zoho 的 客户 关系 管理 (CRM) ，SAP Business ByDesign 和 Workday 的 
ERP 套 件 等 。 


至 此 ， 我 们 就 清晰 地 看 到 了 一 个 数据 中 心 是 如 何 被 分 层 出 租 的 。 
值得 说 明 的 是 ，PaaS 提 供 丙 可 以 租用 IaaS， 而 SaaS 提 供 商 也 可 以 租用 
IaaS 和 PaaS， 从 而 实现 不 同 层次 的 逻辑 分 割 和 耦合 。 


20.5 “真相 大 日 一 一 实例 说 云 


在 我 们 冲 出 这 团 云 之 前 ， 笔 者 想 用 两 个 具体 的 实例 来 向 大 家 展示 
一 个 具体 的 IaaS 提 供 商 到 底 是 如 何 向 用 户 提 供 IaaS 服 务 的。 读者 在 看 
完 下 面 的 一 些 具 体 细节 之 后 ， 会 彻底 理解 云 服 务 的 本 质 。 


20.5.1 3Tera Applogic 


3tera 公 司 通过 两 种 方式 来 提供 云 服务 : 一 是 直接 提供 公共 云 TaaS 
服务 ， 第 二 种 是 将 云 平台 软件 授权 给 第 三 方 ， 第 三 方 在 自己 的 


Infrastructure 上 部 署 云 服 务 平台 。 日 本 老牌 的 电信 运营 商 KDDI， 就 将 
其 部 分 业务 迁移 到 了 3Tera 的 Applogic 云 中 运行 。KDDI 并 非 租 用 3Tera 
的 公共 云 ， 而 是 直接 购买 了 3Tera 提 供 的 Applogic 云 虚拟 化 层 ， 将 其 音 
署 在 自己 的 硬件 mfrastructure 上 ， 形 成 了 目 己 的 云 系统 对 内 或 者 对 外 提 
供 IaaS 服 务 ， 同时， 在 IaaS 之 上 再 使 用 自己 的 PaaS 和 SaaS 平 台 层 为 其 
用 户 提 供 PaaS 和 SaaS 云 服务 。 


3Tera 的 IaaSs 平 台 名 为 *Applogic”。Applogic 是 一 个 可 以 实现 IaaS 功 
能 的 软件 虚拟 化 平台 ， 或 者 按照 官方 的 说 法 ， 是 一 个 网 格 操作 系统 。 
咱们 拒绝 一 上 来 就 忽悠 一 些 摸 不 着 边 的 东西 (往往 就 是 因为 这 样 才 让 
人 墅 的 ) ， 还 是 先 来 看 一 下 它 的 底层 架构 ， 然 后 再 说 明 这 种 架构 可 以 
带 来 什么 样 的 变革 。 先 来 看 一 张 图 ， 如 图 20-7 所 示 。 这 张 图 就 是 整个 
Applogic 系 统 的 总 体 架构 图 ， 共 分 4 个 大 层次 。 


图 20-7 ”Applogic 架 构 简 图 
1. 第 一 层 : 硬件 层 


本 层 包 括 主机 服务 器 、 存 储 系统 (SAN 和 DAS 均 可 ) 、 网 络 设 
施 。 值 得 一 提 的 是 ，Applogic 并 不 要 求 底层 存储 系统 必须 是 基于 SAN 
架构 ， 其 可 以 用 本 地 IDE 或 者 SATA 硬 盘 来 作为 存储 空间 。 若 干 主机 上 服 
务 器 通过 干 兆 以 太 网 连接 起 来 ， 形 成 一 个 集群 ， 或 者 叫 它 网 格 也 可 
以 。 我 们 就 是 要 在 这 些 有 限 并 且 分 配 很 不 灵活 的 资源 闻 之 上 ， 实 现 一 
种 管理 方便 、 使 用 方便 、 资 源 分 配 灵活 的 虚拟 化 层 。 


2. 第 二 层 : 分 布 式 核 心虚 拟 化 层 (Applogic OS) 


本 层 由 3 个 子 层 组 成 ， 分 别 是 DYM、GVS 和 LCM 层 。 


=。 对 计算 资源 的 虚拟 : Distributed Virtual Machine Manager 
(DVM) 子 层 


本 层 的 核心 是 虚拟 机 技术 ， 即 在 物理 主机 上 通过 Hypervisor 引 | 擎 来 
虚拟 化 成 多 个 虚拟 的 主机 。 大 家 都 知道 Vmware 的 ESX server 就 是 这 些 
技术 。 只 不 过 Applogic 使 用 的 是 Xen 的 虚拟 机 平台 。 


sa。 对 于 存储 资源 的 虚拟 : Global Volume Store (GVS) 子 层 


Applogic 使 用 的 是 自 研 的 分 布 式 文 件 系统 ， 在 这 个 文件 系统 之 上 
虚拟 出 volume ，Volume 可 以 是 Mirror、 Clone、 Snapshot 等 。 每 个 
volume 都 在 多 个 物理 主机 上 有 镜像 以 解决 HA 问题 ， 并 可 以 提升 读 性 
能 。 这 些 Volume 对 于 最 终 的 虚拟 机 来 说 就 是 裸 磁盘 。 在 这 个 虚拟 层 之 
上 ， 每 个 节点 将 自己 的 本 地 存储 空间 贡献 出 来 ， 所 有 节点 的 存储 空间 
被 整合 起 来 并 虚拟 化 ， 再 分 配 。 


" 对 网 络 资源 的 虚拟 : Logical Connection Manager (LCM) 子 层 


对 此 没什么 可 多 说 的 ， 就 是 将 物理 网 络 搞 成 虚拟 网 络 ， 虚 拟 机 都 
有 的 技术 。 


GVS、DVM 和 LCM 这 三 个 子 层 共 同 组 成 了 整个 系统 的 第 二 层 ， 即 
Distributed Kernel]。 


3. 第 三 层 : 一 次 性 基础 设施 虚拟 层 


这 一 层 可 能 表述 和 理解 起 来 有 些 困 难 。 何 谓 一 次 性 基础 设施 ? 难 
道 基础 设施 用 完了 就 丢弃 ? 这 沁 不 是 浪费 么 ? 是 的 ， 就 是 因为 所 有 资 
源 都 是 虚拟 的 ， 所 以 才 可 以 浪费 。Applogic 的 所 谓 一 次 性 基础 设施 ， 


其 实 是 说 虚拟 机 资源 和 网 络 资源 可 以 按 需 求 创建 ， 每 个 应 用 程序 都 可 
以 为 其 分 配 一 个 独立 的 基础 设施 平台 ， 包 括 Firewall/Gateway (基于 
Iptable) 、 负 载 均 衡器 、Web 服 务 器 、 应 用 服务 器 、 数 据 库 服务 器 、 
日 志 收 集 服 务 器 、NAS 存 储 器 等 ， 而 每 个 角色 都 是 一 个 虚拟 机 。 


这 些 虚拟 的 基础 设施 组 合 起 来 成 为 某 个 应 用 程序 的 容器 ， 当 彻底 
删除 一 个 应 用 程序 的 时 候 ， 容 器 也 随 之 被 删除 ， 这 就 是 所 谓 “ 一 次 性 基 
础 设施 ”的 意义 所 在 。 这 些 角 色 被 这 一 层 虚 拟 成 一 个 个 的 对 象 ， 在 图 形 
界面 中 使 用 鼠标 拖 蝶 就 可 以 创建 ， 同 时 用 户 还 可 以 指定 这 人 台 虚 拟 机 的 
In 和 Out 网 络 接口 和 个 数 ， 比 如 ， 一 台 负 载 均衡 器 ， 就 需要 至 少 一 个 m 
接口 和 若干 个 Out 接口 。 同 时 还 需要 指定 Volume 的 容量 和 数量 ， 以 及 
CPU、 内 存 等 资源 的 上 下 限 。 被 装配 好 的 基础 设施 可 以 被 复制 、 粘 
贴 、 导 出 和 导入 等 。 


如 图 20-8 所 示 ， 用 户 创建 了 一 台 Web 服 务 器 、 一 台 MySQL 服 务 器 
和 两 台 NAS 存 储 器 。Web 服 务 器 的 前 端 in 接 口 提 供用 户 访问 ， 后 端的 
db 接口 用 来 连接 数据 库 服务 器 ，fs 接 口 通过 NFS 协 议 访 问 一 台 名 为 
content 的 NAS 存 储 器 ，log 接 口 使 用 CIFS 协 议 访问 一 台 NAS 存 储 器 用 来 
存 取 日 志 。 用 户 将 会 在 这 个 硬件 平台 上 运行 某 种 应 用 程序 。 


图 20-8 ”创建 Web、NAS 和 DB 服务 器 


图 20-9 所 示 则 是 一 个 入 方向 的 Gateway， 一 台 负 载 均衡 器 后 挂 4 台 
Web 服 务 器 ， 最 后 共享 一 台数 据 库 服务 器 的 基础 设施 架构 。 


图 20-9 Gateway 创 建 


4. 第 四 层 : 网 格 控制 层 和 应 用 程序 管理 层 


这 是 整个 Applogic 体 系 的 最 后 一 层 ， 也 是 最 后 的 展示 层 ， 所 有 的 
底层 逻辑 无 非 都 是 为 了 实现 这 最 终 的 展示 层 ， 也 是 Applogic 应 用 程序 
运行 平台 交付 方式 的 最 终 体现 。 


Applogic 以 Application 为 单位 向 用 户 交 付 ， 在 一 个 网 格 (也 可 以 说 
是 集群 ， 包 括 主 机 和 存储 以 及 网 络 ) 上 运行 多 个 用 户 的 多 个 应 用 程 
序 ， 比 如 ，Exchange、CRM 等 ， 每 个 应 用 程序 会 被 分 配 一 个 一 次 性 基 
础 设施 ， 每 个 一 次 性 基础 设施 又 包括 了 多 个 角色 ， 比 如 
Gateway/Firewall、 负 载 均衡 器 、Web 和 数据 库 服务 器 、NAS 存 储 器 
等 ， 每 个 角色 就 是 一 个 虚拟 机 。 每 个 Application 创 建 好 之 后 ， 就 是 一 
个 Package， 可 以 独立 操作 ， 与 底层 硬件 无 关 ， 用 户 可 以 将 它 带 走 ， 在 
另外 一 个 Applogic 网 格 内 导入 ， 便 立即 可 用 。 


5. 配置 实例 


图 20-10 所 示 为 整个 网 格 系统 的 Dashboard 监 控 界 面 。 
图 20-10 ”Dashboard 控 制 台 
图 20-11 所 示 为 网 格 中 所 有 已 创建 的 Application 的 列表 。 
图 20-11 已 经 创建 的 Application 列 表 


下 面 我 们 通过 创建 一 个 带 有 Gateway 防 火 墙 、 一 个 负载 均衡 器 、 
两 人 台 Web 服 务 器 、 一 台数 据 库 服务 器 的 简单 的 Infrastructure 来 体验 一 下 
Applogic 最 终 交 付 给 用 户 的 接口 。 


(1) 先 从 左边 的 Gateway 类 别 中 拖 暇 一 个 简单 的 入 方向 的 
Gateway/Firewall 。 然 后 在 其 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 


Property Value 命令 ， 如 图 20-12 所 示 。 在 出 现 的 窗口 中 可 以 定义 这 侣 
Gateway 的 一 些 属 性 ? 如 图 20-13 所 示 。 


图 20-12 ”创建 Gateway 图 20-13 ”设置 这 人 台 Gateway 的 属性 


(2) 加 入 一 个 8 Out 口 的 负载 均衡 器 。 然 后 右 击 并 选择 Resources 
命令 来 配置 这 台 均 衡器 所 使 用 的 资源 ， 如 图 20-14 所 示 。 可 以 配置 
CPU、 内 存 、 网 络 带宽 这 三 种 资源 ， 其 接口 是 由 Ctrix Xen 提 供 的 ， 这 
个 界面 只 是 调用 这 些 接口 来 控制 Citrix 部 署 虚 拟 机 ， 如 图 20-15 所 示 。 


图 20-14 ”添加 负载 均衡 设备 图 20-15” 设 定 虚 拟 机 参数 


(3) 拖 入 两 台 Web 服 务 器 ， 并 在 这 个 Application 的 主 界面 中 单 击 
Manage Volume 命 令 来 创建 这 个 Application 所 需要 的 存储 空间 。 此 时 界 
会 调用 底层 的 集群 卷 管理 层 来 执行 部 署 任务 ， 如 图 20-16 所 示 。 


图 20-16” 设 定 存 储 空间 


如 图 20-17 所 示 ， 这 个 列表 列 出 了 分 配给 当前 Application 的 所 有 
Volume， 整 个 网 格 中 的 Volume 都 是 按照 Application 相 互 隔 离 的 ， 不 同 
的 Application 只 能 看 到 目 己 的 Volumeo 


图 20-17 ”当前 的 所 有 可 用 Volume 


单 击 Add 按 钮 添加 一 块 存储 空间 。 名 称 、 大 小 、 文 件 系统 格式 ， 
如 图 20-18 所 示 。 


图 20-18 ”添加 新 存储 空间 


(4) 将 Volume 分 配给 需要 使 用 存储 空间 的 服务 器 ， 比 如 Web 服 务 
器 ， 在 web 服务 器 图 标 上 右 击 并 选择 User volume 命令 ， 如 图 20-19 所 
示 。 


图 20-19 ”分 配 这 个 新 空间 


里 面 默认 有 一 项 content 卷 ， 我 们 将 上 文 定义 好 的 code 卷 映射 给 这 
台 Web 服 务 器 的 content 卷 ， 如 图 20-20 所 示 。 


图 20-20 分配 新 空间 (1) 


(5) 拖 入 一 个 数据 库 服务 器 ， 将 上 文 定义 的 data 卷 映射 给 它 的 
data 卷 ， 如 图 20-21 所 示 。 


图 20-21 分 配 新 空间 (2) 
建 好 之 后 的 最 终 拓扑 如 图 20-22 所 示 。 
图 20-22 ”创建 和 部 署 好 之 后 的 拓扑 示意 图 


防火 墙 、 负 载 均衡 器 和 Web Server 以 及 数据 库 服 务 器 之 间 互 连 时 
使 用 的 他 是 用 户 不 用 关心 的 ， 系 统 会 自动 分 配 ， 一 切 力 求 简化 、 快 
捷 。 唯 一 需要 配置 的 是 整体 Application 的 IP 地 址 等 信息 。 


可 以 针对 每 台 服 务 器 进行 各 种 属性 的 配置 ， 如 图 20-23 玉 图 20-25 
所 示 。 


图 20-23 ”配置 虚拟 机 上 业务 层 的 各 种 属性 图 20-24 配置 虚拟 机 上 业务 层 的 各 种 属性 
(1) (2) 


图 20-25 ”配置 虚拟 机 上 业务 层 的 各 种 属性 (3) 
我 们 还 可 以 登录 到 这 人 台 服 务 器 上 ， 如 图 20-26 一 图 20-28 所 示 。 
图 20-26 ”登录 到 对 应 的 虚拟 机 上 执行 任务 (1) 
图 20-27 ”登录 到 对 应 的 虚拟 机 上 执行 任务 (2) 
图 20-28 ”登录 到 对 应 的 虚拟 机 上 执行 任务 (3) 
此 外 ， 还 可 以 监控 服务 器 的 各 种 状态 信息 ， 如 图 20-29 所 示 。 
图 20-29 对 整个 系统 进行 性 能 监控 


(6) 最 后 一 步 就 是 登录 到 相应 的 服务 器 ， 安 装 相应 的 软件 ， 启 动 
应 用 软件 。 


Applogic 带 来 的 革命 在 于 它 把 复杂 的 底层 硬件 变 得 非常 简单 ， 通 
过 拖 蝶 对 象 的 方式 来 装配 自己 的 Infrastructure， 并 最 终 以 一 个 适合 于 某 
种 Application 运 行 的 整体 服务 器 十 存储 十 网 络 环境 来 交付 给 用 户 ， 佐 
以 底层 丰富 的 附加 功能 比如 Snapshot、Migrate 等 ， 为 用 户 提 供 了 一 个 
专业 而 且 方 便 的 程序 运行 硬件 平台 ， 让 用 户 彻底 脱离 了 苦海 。 


20.5.2 IBM Blue Could 


IBM 的 Blue Cloud， 是 IBM 推 出 的 云 解决 方案 。 其 基本 上 是 由 一 堆 
软 硬 件 有 机 堆 芭 起 来 的 。 硬 件 当 然 包括 IBM 自 己 的 X 系 列 PC 服 务 器 ， 
以 及 刀片 服务 器 ， 更 少不了 P 系 列 小 型 机 ， 大 型 机 就 算 了 吧 ， 已 经 是 
被 时 代 所 淘汰 的 东西 了 。 软 件 则 必然 包括 VMware Vsphere 以 及 Citrix 
Xen 虚 拟 机 平台 了 。 有 了 这 两 个 还 不 行 ， 必 须 还 有 一 套用 于 资源 自动 


调度 分 配 管 理 监控 的 平台 ， 这 就 是 IBM RDP (Request Driven 
Provisioning) 、IBM TPM (Tivoli Provisioning Manager) 、IBM TM 

(Tivoli Monitor) 。 有 了 这 些 还 不 行 ， 还 需要 对 应 的 中 间 件 平台 ， 比 
如 Websphere， 还 要 有 开发 部 署 平台 比如 Rational， 再 加 上 其 他 一 些 上 
层 的 软件 套件 比如 Lotus、Information Manager 等 。 总 之 IBN 借 助 这 个 
篮 云 ， 大 大 地 整合 了 它 所 有 的 软 硬 件 产品 ， 促 进 了 所 有 这 些 产品 的 销 
佳 


所 0 


IBM 宣 称 蓝 云 可 以 在 5 分 钟 内 部 署 一 台 x86 平 台 的 虚拟 机 ，P 系 列 小 \ 
机 的 部 署 则 需要 30 分 钟 左 右 。x86 当 然 是 靠 YMware 以 及 Citrix Xen 作 为 
平台 ; 而 P 系 列 上 自身 就 提供 了 硬件 级 别 的 虚拟 分 区 功能 ， 而 且 也 支持 
分 区 迁移 等 高 级 功能 ， 其 灵活 程度 毕竟 不 如 x86 开 放 平 台 ， 所 以 部 署 所 
需 的 时 间 也 要 远 远 长 于 前 者 。 


我 们 还 是 来 看 一 下 这 个 蓝 云 是 怎么 对 外 呈现 的 吧 。 首 先 见 图 20- 
30， 为 用 户 登 录 到 云 服 务 申请 界面 时 的 入 口 。 用 户 使 用 自己 的 账户 和 
密码 登录 监 云 资源 申请 界面 。 登 录 成 功 之 后 ， 便 会 出 现 如 图 20-31 所 示 
的 窗口 ， 其 中 会 显示 出 这 个 用 户 之 前 曾经 申请 过 的 所 有 资源 以 及 对 应 
的 简要 情况 。 


图 20-30 ”登录 到 云 服务 申请 界面 


图 20-31 此 用 户 所 申请 的 所 有 资源 列表 


在 图 20-32 所 示 的 窗口 中 单 击 右 下 角 的 Request New Project 按 钮 来 
申请 新 的 资源 ， 出 现 如 图 20-32 所 示 的 窗口 。 其 中 可 以 选择 用 户 要 使 用 
对 应 资源 的 期 限 ， 比 如 本 例 中 选择 了 听 SEP， 也 就 是 9 月 份 的 10/11/12 
这 三 天 ， 也 就 是 要 用 三 天 的 时 间 。 


图 20-32 ”指定 使 用 期 限 


单 击 next 按 钮 ， 出 现 如 图 20-33 所 示 的 窗口 ， 这 里 可 以 给 本 次 所 申 
请 的 资源 起 一 个 名 字 以 用 来 区 分 ， 并 且 可 以 添加 描述 。 另 外 ， 窗 口上 
方 可 以 看 到 目前 云 中 现存 可 供 使 用 的 所 有 资源 (当然 ， 可 能 系统 并 没 
有 列 出 所 有 资源 ， 可 能 会 根据 目前 账户 的 级 别 来 只 列 出 其 可 享受 的 等 
级 的 资源 ) 。 用 户 可 以 选择 对 应 的 资源 ， 比 如 X 系 列 PC 服 务 器 ， 或 者 
刀片 服务 器 ， 或 者 P 小 机 服务 器 ， 劳 边 还 列 出 了 可 用 的 内 存 与 CPU 频率 
资源 ， 以 及 对 应 的 存储 资源 。 选 择 对 应 的 资源 然后 单 击 Add 按 钮 ， 出 
现 如 图 20-34 所 示 的 窗口 。 


图 20-33 ”命名 和 描述 所 申请 的 资源 


图 20-34 ”添加 资源 


本 例 中 选择 了 使 用 刀片 服务 器 资源 。 在 这 个 窗口 中 可 以 指定 使 用 
刀片 的 数量 ，AvailableResources 显 示 2， 这 并 不 一 定 就 代表 此 时 系统 中 
只 剩 下 两 片 刀片 了 。 前 文 说 过 云 中 可 能 都 是 一 些 虚 拟 的 资源 ， 这 里 的 2 
可 能 就 代表 此 时 系统 只 能 再 为 你 创建 两 台 虚 拟 机 了 ， 因 为 你 的 账户 是 
铜牌 账户 。 可 能 对 于 白金 账户 的 话 ， 这 个 数字 会 更 高 。 这 里 选择 了 1， 
下 面 还 可 以 选择 在 这 台 虚 拟 机 上 你 想 让 它 安装 部 署 什么 操作 系统 ， 这 
里 选择 了 Linux。 是 否 需 要 部 署 中 间 件 ? 如 果 勾 选 的话 ， 那 么 系统 会 
动 将 WebSphere 中 间 件 部 署 到 虚拟 机 中 。 这 些 定制 化 的 选项 ， 其 后 端 
必定 对 应 这 样 一 种 情况 ， 比 如 系统 预先 将 各 种 可 组 合 的 情况 独立 生成 
一 份 虚拟 磁盘 镜像 文件 ， 比 如 装 好 WebSphere 的 Linux 系 统 ， 或 者 一 份 
裸 Linux 系 统 ， 或 者 部 署 了 WebSphere 的 AIX 系 统 镜像 。 当 用 户 选 择 了 
对 应 的 组 合 之 后 ， 系 统 后 台 就 将 这 些 文件 复制 一 份 或 者 直接 做 一 个 快 
照 来 供 对 应 的 虚拟 机 运行 ， 如 图 20-35 所 示 。 


图 20-35 ”已 经 创建 好 的 资源 


如 图 20-36 所 示 ， 参 数 已 经 选择 完毕 的 资源 会 被 列 在 下 方 的 窗口 
中 。 此 时 可 以 继续 添加 资源 ， 如 果 添 加 完毕 ， 则 单 击 右 下 角 的 next 按 
钮 ， 出 现 如 图 20-36 所 示 的 窗口 。 


图 20-36 ”系统 后 台 开 始 部 署 对 应 的 资源 


此 时 系统 后 台 就 开始 根据 用 户 指 定 的 参数 来 部 署 对 应 的 资源 了 。 
比如 在 Creating Project 过 程 中 ， 系 统 后 台 可 能 会 在 云 管理 平台 中 创建 对 
应 的 条 目 和 记录 等 ， 这 一 步 是 比较 快 的 ;Reserving Infrastructure 过 程 
中 ， 系 统 后 人 台 会 调用 对 应 的 虚拟 化 管理 平台 比如 Citrix Xen 来 部 署 对 应 
的 虚拟 机 ， 比 如 将 预先 定制 好 的 虚拟 磁盘 镜像 文件 复制 一 份 到 对 应 的 
存储 空间 ， 然 后 创建 新 虚拟 机 ， 然 后 挂 起 磁盘 ， 启 动 。 整 个 过 程 完毕 
之 后 ， 单 击 OK 按 钮 结束 整个 过 程 ， 出 现 如 图 20-37 所 示 的 窗口 。 


图 20-37 ”刚才 创建 的 新 资源 已 经 列 出 


单 击 这 个 新 创建 的 资源 进入 资源 详细 信息 页 面 ， 如 图 20-38 所 示 。 
可 以 看 到 系统 已 经 自动 部 署 了 对 应 的 操作 系统 、 中 间 件 ， 以 及 配置 了 
IP 地 址 。 


图 20-38 ”资源 详细 信息 页 面 


用 户 此 时 就 可 以 使 用 Telnet、SSH 或 者 远程 桌面 等 来 连接 这 人 台 服 务 
器 从 而 执行 后 续 的 定制 化 部 署 了 ， 比 如 安装 其 他 软件 等 。 此 时 这 人 台 虚 
拟 机 就 完全 是 你 的 了 ， 愿 意 怎 么 搞 就 怎么 搞 ， 搞 月 并 了 也 没 问 题 ， 只 
需要 让 运营 商 给 你 回 滚 一 下 就 可 以 了 ， 用 什么 回 滚 呢 ?” 当然 是 快照 技 
术 了 ， 或 者 在 虚拟 机 层 实现 ， 或 者 直接 在 底层 存储 中 实现 。 当 然 ， 快 


照 能 回 滚 到 最 近 的 时 间 点 粒度 ， 也 是 一 种 服务 级 别 。 比 如 你 购买 了 高 
粒度 的 快照 ， 那 么 你 或 许 就 可 以 回 滚 到 5 分 钟 之 前 的 状态 ; 而 你 如 果 只 
购买 了 低级 别 的 快照 粒度 ， 那 么 你 可 能 就 只 能 回 滚 到 一 天 前 的 状态 
了 。 还 有 各 种 各 样 其 他 类 型 的 服务 级 别 ， 这 些 都 需要 用 户 在 购买 云 服 
务 的 时 候 与 运营 商 签订 SLA (Service Level Agreement) ，SLA 中 会 规 
定 所 有 详细 的 服务 条 款 。 


其 他 运营 商 的 方案 与 3teraApplogic 以 及 IBM Blue Cloud 如 出 一 输 ， 
不 管 是 laaS、PaaS 或 者 是 SaaS， 其 不 同 的 只 是 交付 方式 的 区 别 。 读 者 
可 以 从 本 案例 中 帘 见 一 斑 。 


20.6 ”乘风破浪 一 一 困难 还 是 非常 多 的 


云 这 个 东西 并 非 都 是 优点 。 作 为 一 个 刚刚 兴起 来 的 概念 ， 其 机 遇 
与 挑战 并 存 。 


20.6.1 云 的 优点 


1. 为 企业 解除 了 投资 浪费 的 后 顾 之 忧 


买 了 服务 器 买 存储 ， 买 了 存储 买 交换 机 ， 买 完了 硬件 买 网 管 软 
件 、 买 运行 维护 服务 ， 磨 合 期 结束 时 ， 发 现 需要 扩容 需要 购买 新 的 硬 
件 ， 耗 费 大 量 的 电能 却 不 是 每 时 每 刻 都 在 计算 、 都 在 存储 。 这 种 问题 
在 迁移 到 云 之 后 将 会 不 复 存在 ， 整 体 资 源 极 大 地 得 到 市 约 。 


2. 绿色 节能 ， 社 会 成 本 降低 


随 着 云 服务 的 发 展 ， 网 民 只 需 一 条 高 带宽 的 网 络 连 接 和 一 人 台 处 理 
能 力 很 弱 但 是 耗 电 很 低 的 瘦 终 端 机 和 显示 器 即 可 享受 各 种 信息 服务 ， 
包括 3D 泻 染 服 务 ， 甚 至 高 性 能 显卡 也 无 须 再 购买 。 节 能 不 但 只 针对 于 
使 用 云 服务 的 用 户 ， 运 营 商 自身 通过 使 用 虚拟 化 整合 的 弹性 数据 中 
心 ， 也 可 以 实现 节能 增 效 。 


3. 廉价 


随 着 网 络 带宽 逐步 增加 和 云 的 发 展 ， 云 服务 将 会 变 得 越 来 越 廉价 
从 而 走 入 千家 万 户 。 届 时 人 们 会 发 现 与 其 购买 一 台 高 性 能 PC 主机 和 大 
容量 存储 硬盘 、 高 性 能 显卡 ， 倒 不 如 购买 同样 感 观 的 云 服务 来 得 方便 
和 便宜 。 云 服务 时 代 ， 一 切 你 本 地 所 能 享受 到 的 IT 服务 ， 都 可 以 在 网 
线 那 头 得 到 满足 。 


4. 角色 转变 


云 服 务 将 企业 内 部 的 IT 基础 架构 从 围绕 应 用 系统 开展 的 模式 全 面 
转向 以 服务 为 宗旨 开展 的 模式 。 没 有 云 之 前 ， 企 业 的 IT 基础 架构 一 切 
工作 都 要 围绕 应 用 系统 来 开展 ， 基 础 架构 的 配置 水 平 严格 由 应 用 系统 
决定 ， 应 用 系统 以 及 使 用 应 用 系统 的 部 门 成 为 资源 的 掌控 者 ; 而 私有 
云 形成 之 后 ，IT 基 础 染 构 部 门 变 为 资源 的 掌管 者 ， 其 他 部 门 都 变 为 消 
费 者 ， 向 云 来 要 服务 。 这 种 政治 角色 的 转变 ， 是 比较 微妙 的 。 


20.6.2” 云 目前 存在 的 问题 


1. 稳定 性 和 安全 性 的 问题 


换个 角度 ， 在 运 维 方 面 ， 你 觉得 谁 更 专业 ? 你 还 是 云 ? 如 果 你 觉 
得 你 更 专业 ， 那 是 另外 一 回 事 ; 如 果 你 觉得 云 更 专业 ， 你 认为 将 同样 
故障 率 的 Infrastructure 放 到 你 这 和 放 到 云 里 哪个 更 保险 ? 数据 都 是 你 
的 ， 只 不 过 换个 人 保管 ， 既 然 你 认为 云 更 专业 ， 那 就 应 该 相信 云 。 


这 和 银行 是 一 样 的 道理 ， 你 总 是 认为 银行 有 更 保险 的 措施 来 保障 
你 的 金钱 ， 唯 一 区 别 是 钱 都 是 一 样 的 ， 而 数据 具有 唯一 性 ， 所 能 做 的 
就 是 多 几 份 元 余 。 说 到 数据 所 有 权 的 问题 ， 比 较 有 意思 的 是 ， 
Facebook 前 段 时 间 修 改 了 其 服务 声明 ， 宣 称 它 拥有 数据 的 永久 的 所 有 
权 ， 并 且 有 权力 使 用 保存 或 者 发 表 在 该 网 站 上 的 任何 内 容 。 笔 者 想 这 
只 是 特例 ， 一 切 都 是 可 以 谈 的 。 个 人 认为 云 系统 中 基础 设施 和 数据 本 
身 的 安全 性 问题 大 可 不 必 担 心 。 


另外 ， 共 有 云 所 面临 的 一 个 最 大 问题 就 是 如 何 彻底 隔绝 两 个 用 户 
的 存储 资源 ， 用 户 总 是 有 这 种 担心 ， 比 如 互 为 竞争 对 手 的 A 与 B 公 司 共 
同 选择 了 云 运营 商 C 的 服务 ，A 与 B 各 自 的 数据 如 何 才能 够 确保 底层 被 
完全 隅 离 ， 因 为 用 户 往往 认为 只 有 这 样 才能 够 真正 做 到 自己 的 数据 不 
被 对 手 通过 某 些 后 门 黑客 手段 所 窃取 。 


2. 涉 密 问题 

另外 一 个 担心 就 是 将 数据 存储 在 不 信任 的 地 方 ， 如 何 解 决 涉 密 问 
题 。 这 确实 是 一 个 原则 问题 。 这 方面 依然 是 可 以 通过 技术 层面 解决 
的 ， 比 如 将 数据 源 放 到 本 地 并 在 服务 器 端 采 用 加 密 方式 ， 用 户 控 制 密 
钥 等 。 


3. 平台 迁移 问题 


怎样 在 不 影响 已 经 运行 的 业务 的 前 提 下 将 其 迁移 到 云 平 台 ， 这 也 
是 一 个 比较 头疼 的 问题 ， 需 要 提供 商 给 出 最 佳 的 解决 方案 。 


4. 骑 虎 难 下 的 问题 


一 旦 用 户 选 择 了 某 家 云 服务 提供 两 ， 如 果 之 后 想 更 换 提 供 商 ， 则 
几乎 是 一 件 无 法 找到 好 办 法 的 事情 ， 因 为 你 的 业务 、 数 据 都 已 经 部 署 
在 这 家 云 提 供 商 处 了 。 更 换 提 供 商 就 意味 着 将 数据 业务 进行 迁移 ， 并 
且 伴随 着 业务 停机 。 想 要 做 到 停机 时 间 最 短 的 迁移 ， 就 需要 两 个 运营 
商 之 间 形 成 合作 关系 ， 这 不 是 一 件 容 易 的 事情 。 


5. 不 兼容 问题 


不 同 云 服务 丙 的 架构 不 同 ， 所 提供 的 访问 接口 也 不 同 ， 随 着 云 的 
发 展 ， 势 必 有 云 之 间 通 信 的 要 求 ， 就 像 多 个 网 络 之 间 互 联 形 成 Internet 
一 样 ， 云 也 一 样 ， 这 方面 需要 一 个 像 耻 地 址 和 TCP 一 样 的 标准 出 现 。 
目前 Amazon 的 AWS (Amazon Web Service) 系列 接口 已 经 逐渐 在 成 为 
标准 ， 这 些 标准 包括 : SimpleDB: simple DB 接口 (与 Hadoop 中 的 
bigtable，hypertable 之 类 比较 像 ) ; RDS: 亚马逊 的 Relational Database 
Service 接 口 ; SQS， 即 Simple Queue Service 服 务 (类 似 message queue 
这 种 服务 ) ; CloudWatch， 监 控 整 个 云 ; EBS， 即 Elastic Block Stor 接 
口 ， 用 来 控制 块 数据 访问 ; IAM， 即 Identity and Access Management 接 
口 ， 用 来 控制 和 认证 用 户 行为 等 。 


6. 带宽 问题 


网 络 带 宽 始 终 是 Web 2.0 和 云 时 代 的 首要 瓶颈 ， 网 络 带宽 不 飞跃 ， 
服务 也 不 能 飞跃 。 


云 要 想 僵 利 ， 重 点 是 运营 方式 。 用 什么 样 的 方式 来 获得 用 户 的 关 
注 ， 是 需要 不 断 努 力 做 的 一 件 事情 。 


总 之 ， 适 用 于 企业 级 业务 的 云 ， 目 前 还 尚未 得 到 普及 ， 随 着 技术 
和 时 代 的 发 展 ， 企 业 级 云 服务 最 终 将 会 在 市 场 上 占有 一 席 之 地 。 


20.7 千年 之 梦 一 一 云 今后 的 发 展 
20.7.1 云 本 质 思考 


存储 资源 十 计算 资源 十 软件 资源 ， 最 后 虚拟 为 IT 服 务 资产， 也 就 
是 最 终 形态 的 Software as a Service (SAAS) 。 抽 象 来 看 ， 这 不 就 是 一 
台 虚 拟 计 算 机 么 ? 硬盘 十 服务 器 十 操作 系统 和 应 用 软件 十 显示 器 。 其 
实 目前 的 IT 技术 都 没 逃 出 这 个 模型 ， 都 是 这 个 模型 的 各 种 变形 体 。 


说 明 : 比如 Bowser 一 Webserver 一 Application Server 一 DB 
Server， 就 相当 于 显示 器 一 显示 卡 一 主机 一 硬盘 。 再 抽象 一 
下 ， 就 是 显示 器 一 硬盘 ， 人 们 最 终 需 要 的 是 结果 并 将 其 显示 
出 来 看 到 眼 里 听 到 定 打 里 ， 看 完了 还 得 存 起 来 或 者 从 硬盘 上 
取出 来 。 人 们 需要 的 就 是 显示 器 和 存储 设备 ， 中 间 的 任何 过 
程 ， 从 最 终 用 户 的 角度 来 说 ， 是 根本 不 去 关心 的 。 而 云 服 务 
的 出 现 ， 恰 恰 就 是 这 种 思想 的 一 个 呈现 和 回归 。 


既然 用 户 最 终 需要 的 不 是 服务 器 也 不 是 一 堆 一 堆 的 硬盘 也 不 是 机 
房 也 不 是 整 天 吹 冷风 的 空调 ， 他 们 只 不 过 想 要 目 己 的 数据 被 展现 出 
来 ， 看 到 生产 的 结果 并 且 储 存 起 来 备用 ， 就 这 样 嘛 。 好 吧 ， 你 不 喜欢 
机 房 ， 也 不 喜欢 看 到 一 堆 一 堆 的 机 柜 ， 你 不 愿意 看 到 你 花 很 多 钱 购买 


的 服务 器 ， 在 系统 不 繁忙 的 时 候 ，CPU 利 用 率 几 乎 等 于 0， 磁 盘 IO 利 用 
率 几 乎 等 于 0。 即 便 这 样 ， 你 惕 是 无 奈 地 乖乖 的 让 这 些 家 伙 持 续 耗 费 着 
电 ， 磨 损 ， 磁 盘 依 然 高 速 旋转 着 就 为 了 时 不 时 地 接受 那 无 关 痛 痒 的 几 
次 IO 操作 ; 系统 管理 员 在 巡 检 完 后 ， 无 所 事 事 地 聊天 玩 游戏 而 你 却 得 
按 月 支付 工资 ， 你 同样 也 不 愿意 再 为 了 这 些 你 认为 已 经 让 你 觉得 滔 费 
很 大 的 投资 而 再 次 投资 购买 什么 网 管 软件 或 者 监控 软件 之 类 的 东西 ， 
同样 你 更 不 愿意 看 到 花 钱 购买 的 硬件 在 几 年 后 被 完全 淘汰 并 且 不 被 三 
家 支持 了 ; 你 也 不 愿意 每 月 缴纳 那 高 昂 的 电费 和 雇佣 系统 管理 员 的 开 
销 。 你 每 天 望 洋 兴叹 ， 昨 天 服务 器 Down 机 了 ， 生 产 停顿 30 分 钟 ， 损 失 
10000 元 ， 今 天 硬盘 损坏 ， 换 了 一 块 硬盘 花 了 2500 元 ， 谁 知道 明天 又 会 
有 什么 麻烦 事 呢 ? 


你 好 ， 我 们 这 里 有 机 房 有 机 器 有 存储 有 了 网络 ， 有 非常 专业 的 操作 
人 员 和 维护 人 员 ， 我 们 帮 你 运行 应 用 程序 ， 我 们 帮 你 存储 ， 你 不 用 担 
心 硬件 淘 关 的 问题 ， 淘 交 了 算 我 们 的 。 我 们 给 你 一 个 耳 地址 ， 你 用 浏 
览 器 登录 这 个 地 址 打开 网 页 就 能 发 送 指令 并 且 看 到 你 的 结果 了 ， 而 且 
还 能 看 到 你 的 结果 被 妥善 保存 了 ， 这 样 你 满意 否 ?” 满 意 的 话 ， 咱 们 谈 
一 谈 你 需要 付 多 少 钱 来 购买 我 们 这 种 服务 吧 。 你 很 痛快 地 付 了 款 ， 我 
们 很 痛快 地 将 你 眼前 的 乱 摊 子 转移 到 了 我 们 这 里 ， 你 花 了 钱 ， 我 们 给 
你 收拾 了 乱 摊 子 。 从 此 你 可 以 解脱 了 ， 你 可 以 专心 去 做 更 重要 的 事情 
了 ! 


这 就 是 云 的 本 质 的 一 种 ， 云 其 实 就 是 一 种 服务 ， 云 本 身 不 是 一 个 
物质 ， 它 不 是 你 能 摸 到 看 到 的 ， 但 是 它 要 基于 物质 才能 显现 它 的 功 
效 ， 你 可 以 把 它 看 作 某 种 能 量 的 体现 ， 即 存在 于 物质 之 上 的 东西 ， 正 
因为 这 样 ， 才 让 人 量 ， 不 细 细 体会 是 看 不 清 这 层 形 而 上 的 东西 的 。 
《 易 经 》 有 云 :“ 形 而 上 者 谓 之 道 ， 形 而 下 者 谓 之 器 。” 所 以 ， 下 器 


者 ， 谓 之 服务 器 十 存储 十 部 署 管理 软件 ; 上 道 者 ， 谓 之 “ 云 "。 所 以 ， 
云 是 一 种 道 ， 是 一 种 方式 和 方法 ， 而 并 不 是 某 个 设备 ， 某 个 软件 ， 当 
然 云 这 种 道 要 用 软件 来 实现 ， 而 且 是 模块 众多 的 一 套 复 杂 软 件 ， 同 时 
要 用 硬件 来 承载 。 


所 以 ， 云 与 速度 和 性 能 没有 直接 关系 。 就 像 前 几 年 IPv6 刚 被 炒作 
的 时 候 ， 铺 天 盖 地 的 媒体 乱 鼓吹 说 IPv6 时 代 下 载 一 部 高 清晰 电影 只 需 
要 几 分 钟 ， 笔 者 当时 听 了 就 一 头 雾 水 ，IPv6 协 议 上 再 优化 ， 也 不 可 能 
超越 其 底层 所 承载 的 物质 的 极限 ， 即 互联 网 络 的 硬件 基础 ， 链 路 不 提 
速 ， 何 来 上 层 的 提速 ? 云 也 是 一 样 ， 云 本 身 并 不 一 定 就 是 一 个 高 速 高 
隐 余 性 的 东西 ， 而 是 说 其 底层 的 硬件 一 般 使 用 并 行 计 算 集群 和 存储 集 
群 ， 在 这 个 基础 上 云 方 能 表现 出 更 大 的 效能 ， 况 且 云 也 不 是 为 了 提速 
而 生 的 。 云 的 最 重要 的 作用 其 实 是 廉价 高 效 地 利用 资源 并 且 将 硬件 拥 
有 成 本 和 管理 成 本 降低 为 几乎 等 于 0， 成 本 模式 全 部 转 为 服务 费 。 当 
然 ， 性 能 也 是 云 的 一 个 重要 考虑 。 


其 实 云 早 就 存在 了 ， 在 互联 网 诞生 的 那 一 天 ， 云 就 一 直 存 在 ， 慢 
慢 发 展 直到 近 两 年 才 被 炒作 起 来 。 云 其 实 早已 落地 生根 ， 只 不 过 现在 
才 钻 地 面 并 且 惹 人 关注 了 。 可 以 这 么 说 ， 互 联网 服务 就 是 云 服 务 〈 注 
意 ， 不 代表 云 服务 就 一 定 是 互联 网 服务 ) ， 所 以 有 人 提出 了 EAAS， 
Everything as a Service。 IT 服务 即 云 ， 即 云 服 务 。 


目前 存在 一 个 误区 ， 认 为 云 必须 是 集群 ， 必 须 是 让 你 不 知道 数据 
在 哪里 ,或 者 数据 必须 在 所 谓 “ 很 远 的 地 方 ” 却 让 你 感觉 到 其 实 很 近 ， 
才 算 云 。 其 实 这 只 是 云 发 展 过 程 中 的 其 中 一 个 形态 而 已 。 一 台 Web 服 
务 器 在 互联 网 上 提供 服务 ， 你 所 知道 的 只 是 它 的 域名 和 IP 地 址 ， 你 同 
样 也 不 知道 它 是 一 台 单 一 域名 和 IP 的 单 主机 ， 还 是 用 一 个 人 P 对 应 多 个 
域名 的 虚拟 主机 ， 你 更 不 知道 网 页 数据 存放 在 哪里 ， 它 可 以 存放 在 本 


地 硬盘 ，SAN 存 储 设备 ， 或 者 是 通过 长 距离 网 络 从 一 个 “很 远 的 地 方 ” 
取 回 数据 而 发 送 给 你 ， 难 道 这 不 是 云 么 ”同样 是 云 。 这 恰好 就 回归 了 
云 的 本 质 ， 即 用 户 根 本 不 用 关心 服务 方 采用 什么 方式 ， 哪 怕 它 就 是 一 
台 简 单 的 服务 器 。 


而 且 上 文中 也 论述 过 ， 云 是 “上 道 者 "”， 而 集群 是 “下 器 者 ”， 下 器 
者 是 在 不 断 上 升 和 发 展 的 ， 而 上 道 者 则 是 轮回 往复 的 。 但 是 绝 不 能 说 
云 与 底层 硬件 架构 无 关 ， 硬 件 架构 越 庞 大 性 能 越 强 ， 则 云层 也 要 跟着 
适应 其 发 展 ， 会 产生 更 多 的 具体 细节 功能 。 云 系统 硬件 正在 向 超大 规 
模 集群 、 高 可 靠 性 可 用 性 、 高 动态 扩展 性 方面 发 展 ， 云 系统 的 软件 即 
硬件 之 上 的 云层 ， 正 在 同 功 能 多 样 化 、 管 理 简 便 化 、 按 需 分 配 资 源 、 
廉价 方面 发 展 。 


在 Web 1.0 时 代 ， 网 络 尚未 广泛 普及 ， 带 宽 极 低 ，56K Modem 上 网 
时 代 ， 使 得 服务 者 和 浏览 者 双方 都 受到 限制 ， 使 用 者 不 可 能 通过 这 么 
低 的 带宽 来 观看 在 线 视 频 或 者 在 线 音 乐 ， 更 不 可 能 下 载 或 者 上 传 一 些 
容量 很 大 的 资源 。 这 直接 制约 了 服务 方 的 发 展 ， 造 成 互联 网 服务 形式 
过 于 单一 ， 大 多 是 缺少 互动 的 简单 媒体 形式 比如 简单 的 网 页 、 静 态 的 
新 闻 之 类 。 


而 随 着 网 络 硬 件 技术 和 软件 技术 的 发 展 久 人 民生 活水 平 的 提高 ， 
在 几 年 的 时 间 内 ，1Mb 甚 至 更 高 带宽 的 网 络 终端 走 入 了 干 家 万 户 ， 直 
接 冲破 了 底层 限制 ， 而 且 计 费 方式 从 按时 间 收 费 转 为 包月 包 年 。 这 和 直 
接 使 得 互联 网 成 为 一 个 随时 可 访问 的 、 永 远 在 线 的 永久 媒介 。 网 民 们 
纷纷 从 传统 媒体 转 到 互联 网 ， 而 这 又 直接 催生 了 各 种 互联 网 服务 ， 比 
如 音 视频 、 聊 天 、 博 客 、 网 络 硬盘 、P2P、 高 清 电影 等 。 融 宽 的 增加 
和 不 限时 在 线 ， 让 网 民 们 富 无 顾忌 地 上 传 视 频 、 音 频 等 ， 恨 不 得 塞 满 
服务 器 ， 一 时 间 使 得 数据 暴 增 ， 互 联网 一 下 子 步 入 了 Web 2.0 时 代 。 


Web 2.0 时 代 融 是 一 个 网 民 互 动 、 数 据 暴 增 、 服 务 多 样 的 互联 网 时 代 ， 
互联 网 的 作用 真正 的 得 以 体现 。 


在 这 个 时 代 ， 越 来 越 多 的 人 选择 将 自己 的 数据 存放 在 服务 方 而 不 
是 自己 的 本 地 硬盘 ， 因 为 自己 的 硬盘 永远 不 够 用 ， 而 且 也 懒 于 备份 。 
人 们 通过 网 络 硬盘 、 邮 箱 、 公 共 FTP、 网 盘 等 方式 将 自己 的 数据 上 传 
并 且 得 到 永久 保存 ， 更 重要 的 是 ， 在 哪里 都 可 以 访问 到 目 己 的 效 据 ， 
只 要 有 了 网络。 服务 提供 者 可 以 在 此 基础 上 实现 分 级 的 服务 ， 比 如 免费 
服务 和 VIP 服务 等 多 样 化 的 服务 方式 。 这 便 是 云 的 方式 ， 云 的 思想 。 
可 以 说 Web 2.0 时 代 将 是 云 服 务 的 但 床 。 最 近 又 有 人 在 炒作 Web 3.0 的 
概念 ， 加 入 物 联网 元 素来 翻 炒 ， 这 里 就 不 奖 述 了 。 


20.7.2 ”身边 的 各 种 云 服 务 


网 站 、QQ、MSN、ICQ、Camfrog、 网 络 硬盘 、 网 络 音 视频 、 网 
络 账本 、 网 络 日 记 、 在 线 文档 阅读 、 在 线 游戏 等 ， 仔 细 想 来 ， 这 些 就 
在 我 们 身边 的 东西 ， 都 是 云 服务 。 我 们 通过 浏览 器 来 接收 Web 网 页 和 
通过 Web 网 页 提交 自己 的 请 求 却 不 关心 服务 方 的 具体 架构 ; 我 们 通过 
聊天 工具 和 其 他 人 就 像 在 同一 房间 内 一 样 通过 文字 语音 视频 聊天 而 并 
不 知道 自己 和 其 他 人 是 否 连 接 了 同一 台 物 理 服务 器 ， 我 们 上 传 自己 的 
资料 到 网 络 硬盘 却 不 关心 服务 方 有 没有 及 时 备份 或 者 我 的 数据 是 不 是 
被 服务 方 擅自 迁移 到 了 慢 速 的 SATA 硬 盘存 放 ; 我 们 在 网 页 上 阅读 各 式 
各 样 的 文档 却 根本 不 用 安装 对 应 的 文档 浏览 工具 。 


还 有 ， 中 文 输入 法 的 单 新 ， 输 入 法 已 经 是 与 时 俱 进 ， 充 分 利用 互 
联网 的 便捷 。 比 如 某 拼音 输入 法 ， 可 以 随时 更 新 专项 词 库 ， 各 行 各 业 
的 不 断 出 现 的 新 名 词 统 一 由 服务 器 收集 并 且 提 供 下 发 更 新 ， 你 再 也 不 
用 一 个 字 一 个 字 地 询 ， 而 且 其 同样 步 入 了 云 服务 时 代 ， 每 个 用 户 可 以 


将 自己 的 词 库 信息 上 传 到 服务 器 ， 这 样 ， 不 管 你 在 哪 台电 脑 上 使 用 输 
入 法 ， 词 库 信 息 都 会 实时 同步 以 满足 你 的 输入 习惯 和 要 求 。 并 且 服 务 
器 整 词 输入 时 ， 程 序 还 会 去 服务 器 端 动态 检索 是 否 有 相同 音 的 词 被 其 
他 人 输入 过 ， 也 即 是 所 谓 “ 云 输入 法 ”。 不 过 这 个 云 却 是 非常 实用 的 ， 
比如 某 些 同音 词 ， 单 靠 软件 智能 是 无 法 正确 输入 的 ， 但 是 借助 云 ， 你 
可 以 看 到 其 他 人 对 于 这 个 拼音 所 输入 的 词汇 ， 你 把 所 有 人 的 知识 拿 来 
用 了 ， 这 确实 非常 让 人 兴奋 ! 同时 你 曾经 输入 过 的 词汇 也 会 动态 地 被 
发 送 到 服务 器 端 保存 ， 也 会 贡献 给 他 人 。 这 样 就 形成 了 一 个 “个 体 一 整 
体 ” 的 系统 ,个体 的 行为 贡献 给 整体 ， 整 体 又 反 过 来 影响 个 体 、 加 速 个 
体 的 发 展 ， 个 体 整 体 之 间 相 互 促进 ， 形 成 一 个 有 机 的 智能 整体 ! 


20.7.3 ”进化 还 是 退化 


独立 计算 回归 集中 计算 ， 是 退化 还 是 进化 ? 都 不 是 ， 是 轮回 。 公 
共 的 集中 分 时 计算 早 在 40 年 前 就 出 现 了 ， 随 后 逐渐 萎缩 。 世 纪 相 交 时 
刻 的 前 后 几 年 ， 用 户 都 各 自 购买 Infrastructure 自 行 计算 和 存储 ， 但 是 为 
何 进入 新 世纪 之 初 ， 又 逐渐 兴起 回归 到 集中 计算 时 代 呢 ? 笔者 认为 这 
依然 应 了 中 国 的 一 句 古话 :“ 分 久 必 合 ， 合 久 必 分 。” 即 万 物 皆 在 一 个 
轮回 中 不 断 地 发 展 ， 到 一 定 程 度 就 会 改变 成 最 初 的 形态 ， 但 是 承载 它 
的 物质 是 连续 不 断 地 积累 和 提升 的 ， 所 被 轮回 的 只 是 其 上 的 那 层 能 
量 ， 谓 之 道 ! 硬件 不 断 地 发 展 ， 其 上 的 道 却 是 不 断 轮 回 地 往 前 发 展 ， 
这 种 现象 存在 于 万 物 之 间 ， 不 能 用 什么 科学 解释 ， 只 能 说 这 是 自然 的 
规律 。 


比如 存储 系统 的 演变 ， 从 独立 存储 DAS 发展 到 网 络 集中 存储 
SAN， 你 也 可 以 称 SAN 为 一 个 云 服务 ， 很 恰当 ， 而 如 今 随 着 盘 片 密度 
的 不 断 增高 和 SSD 固 态 心 片 存储 的 发 展 ， 好 像 存储 系统 有 那么 点 回归 


独立 存储 的 趋势 。 比 如 在 1U 的 服务 器 上 插 满 12 块 2.5 贡 寸 的 SAS 硬 盘 ， 
其 提供 的 容量 和 速度 也 是 相当 可 观 的 。 


理想 : 就 像 笔者 个 人 曾经 预测 的 一 样 ， 如 果 存 储 介质 真 的 能 
够 发 展 到 惊人 的 高 密度 和 高 速度 ， 谁 还 会 插 个 卡 再 用 绪 缆 连 
接 到 某 个 很 远 的 地 方 只 为 了 存储 数据 呢 ? 更 其 一 步 ， 集 中 存 
储 轮 回 至 独立 存储 之 后 ， 什 么 时 候 可 能 再 轮回 到 集中 存储 
呢 ? 无 线 时 代 。 随 着 无 线 电 技术 的 发 展 ， 人 们 发 现 可 以 用 无 
线 电 通信 和 直接 到 地 球 上 甚至 宇宙 中 某 处 来 存储 数据 ， 此 时 我 
还 需要 在 本 地 使 用 大 容量 的 心 片 么 ”至 此 我 更 加 坚信 “上 道 
者 ”的 轮回 往复 。 然 而 , “下 器 者 ”是否 一 定 也 是 永远 前 进发 展 
而 不 轮回 呢 ? 笔者 给 不 出 答案 ， 如 果 古 玛雅 人 的 预测 是 真 
的 ， 那 或 许 是 的 ， 只 不 过 一 个 轮回 要 经 历 太 长 时 间 而 已 。 


20.7.4” 云 发 展 展 望 


网 线 可 以 代步 ， 网 线 比 宇宙 飞船 速度 快 ， 网 线 上 可 以 传 来 香喷喷 
的 采 大 和 服装 ， 网 线 可 以 做 任何 事情 ， 给 我 一 根 网 线 ， 你 可 以 关 我 禁 
闭 ， 如 果 要 加 上 一 个 期 限 的 话 ， 可 以 是 一 万 年 。 随 着 互联 网 和 电子 商 
务 的 发 展 ， 越 来 越 多 的 人 成 为 宅 人 ， 他 们 的 工作 以 Homeoffice 为 主 ， 
生活 上 也 是 足 不 出 户 。 这 些 宅 人 们 充分 享受 云 的 便利 ， 腾 云 驾 雾 ， 通 
过 网 络 订餐 送水 购物 ， 活 的 怡然 自得 。 正 所 谓 : 白云 若 上 白云 帝 , 白 
云 帝 下 白云 仙 ; 白云 仙人 布 网 线 ， 原 来 仙人 也 是 宅 。 


当 入 户 网 络 带 宽 达 到 很 高 的 数值 之 后 ， 更 高 级 别 的 云 服 务 将 彻底 
颠覆 PC 市 场 ， 用 户 都 转向 了 集中 计算 和 集中 存储 。 有 人 或 许 会 质疑 ， 
就 算是 1Gb 的 以 太 网 到 户 ， 其 提供 的 带宽 果真 能 够 满足 将 来 的 存储 需 
要 么 ? 


这 一 点 我 们 可 以 做 一 个 论证 ， 现 在 你 就 可 以 试 试看 ， 从 移动 硬盘 
上 复制 一 个 文件 到 你 的 本 地 硬盘 ， 速 度 有 多 少 ? 充其量 四 五 十 兆 吧 ， 
这 算 好 的 了 ，1Gb 的 理论 速率 是 100MB 每 秒 ， 除 去 各 种 开销 ， 咱 们 就 
给 他 算 30MB 每 秒 。 目 前 来 讲 ， 这 个 速率 相当 于 本 地 硬盘 的 大 部 分 操 
作 情 况 下 的 速度 了 ， 这 就 完全 可 以 满足 要 求 了 。 


或 许 还 有 人 质疑 ， 入 户 带 宽 达 到 1Gb 的 时 候 ， 那 时 候 的 应 用 程序 
和 对 数据 的 需求 量 一 定 是 得 寸 进 尺 ， 影 片 不 仅 是 1080P 了 ， 而 是 
4080P， 家 里 都 用 高 清 电视 墙 或 者 投影 仪 了 。 那 也 不 用 担心 ， 就 算是 
4080P，1Gb 的 带宽 也 足够 流 媒 体 的 在 线 播放 要 求 。 


我 们 要 理解 的 一 点 是 ， 云 即 是 服务 ， 我 们 通过 网 络 拿 过 来 的 是 内 
容 的 表示 ， 而 不 是 内 容 的 裸 存储 或 者 计算 。 比 如 原来 我 需要 从 网 络 上 
下 载 一 个 数据 库 程 序 安 装 文件 ， 好 几 GB ， 我 还 是 需要 等 上 一 段 时 间 才 
能 下 载 完 ， 还 得 安装 配置 ， 不 方便 。 


但 是 你 二 了 一 件 事 情 ， 云 服务 时 代 ， 是 不 需要 你 自己 运行 数据 库 
的 ， 你 只 需要 从 云 里 拿 到 最 终 处 理 并 且 表 示 的 数据 即 可 。 这 些 处 理 后 
的 内 容 有 多 少 呢 ? 很 少 的 网 络 流 量 ， 除 非 是 高 清 视 频 等 Rich Media。 
或 者 你 需要 下 载 一 个 Windows 7 的 安装 镜像 ，10GB 用 来 安装 在 你 本 
地 ,“ 无 法 安装 Windows 7， 程 序 未 能 检测 到 本 地 硬盘 ”"， 你 将 会 得 到 这 
个 提示 ， 你 还 是 筷 了 一 件 事 情 ， 你 此 时 还 需要 操作 系统 么 ?你 在 操作 
系统 中 得 到 的 服务 ， 云 都 提供 了 。 或 者 又 有 人 质疑 ,“ 谁 说 的 ? 操作 系 
统 能 安装 SCSI 卡 驱动 程序 ， 云 能 安装 么 ? ”如 果真 有 人 这 么 问 ， 我 只 
能 无 语 ， 除 非 这 人 真是 一 个 患 有 “驱动 程序 安装 ”强迫 症 患 者 。 或 者 还 
有 人 质疑 ， 云 能 玩 网 游 么 ? 能 玩 对 硬件 要 求 非常 高 的 大 型 3D 游 戏 么 ? 
当然 能 了 ， 而 且 现 在 就 已 经 实现 了 。 


说 明 : Cyrsis《 孤 岛 危 机 》 是 我 向 往 玩 一 玩 的 一 个 画面 效果 
至 今 无 人 能 政 的 游戏 ， 然 而 它 对 显卡 的 要 求实 在 变态 ， 至 今 
尚未 进行 体验 。 那 么 ， 对 于 一 款 连 高 端 显 卡 都 无 能 为 力 的 游 
戏 ， 云 有 何 能 耐 应 付 ? 你 志 了 一 件 事 ， 家 用 显卡 无 能 为 力 不 
代表 专业 泻 染 集群 也 无 能 为 力 。 好 莱 坞 用 专业 泻 染 主机 集群 
来 实现 Crysis 的 泻 染 实在 是 小 儿科 了 ， 泻 染 之 后 的 高 清 图 片 
帧 通过 网 络 传输 至 用 户 的 显示 器 ， 用 户 的 游戏 操作 数据 通过 
网 络 发 送 至 集群 游戏 泻 染 服务 从 而 实现 互动 ， 整 体 体验 与 在 
本 机 运行 游戏 一 样 。 有 人 甚至 用 手机 玩 Crysis， 这 不 是 做 
梦 ， 已 经 真 的 实现 了 ， 这 个 云 泻 梁 系统 正 处 于 测试 阶段 ， 相 
信和 不久 便 会 真正 对 外 开放 。 


云 服务 是 否 也 会 步 ERP 或 者 ITIL 的 后 侍 呢 ? ITIL 尚 未 落地 ， 因 为 
它 根 本 就 没有 落地 的 根基 。 而 云 是 个 早已 落地 的 产品 ， 目 前 正在 以 各 
种 形式 成 长 。 要 说 云 是 革命 的 话 ， 那 这 句 话 要 在 互联 网 发 展 初期 就 该 
说 。 


云 就 像 一 个 早已 被 播种 ， 经 历 了 几 十 年 之 后 长 大 成 人 并 且 一 下 子 
出 现在 人 们 面前 的 风华 正成 的 少年 ! 云 服务 相对 于 ERP 和 ITIL 来 说 有 
本 质 的 区 别 ， 虽 然 三 者 都 是 对 于 信息 化 实现 的 方式 和 方法 。 云 有 其 存 
在 的 根基 ， 因 为 其 作用 在 各 个 层次 基础 设施 层 IAAS ， 平 台 层 
PAAS， 内 容 计算 表示 供给 层 SAAS， 任 何人 都 有 机 会 并 且 已 经 在 享用 
云 服 务 ， 凡 是 与 互联 网 有 关系 的 人 或 企业 都 离 不 开 云 服 务 了 。 


而 ERP 和 ITIL 属 于 一 种 企业 生产 和 管理 方式 和 流程 的 信息 化 过 
程 ， 需 要 这 种 服务 的 企业 少 之 又 少 ， 就 算 有 了 需求 ， 实 现 起 来 更 是 难 
上 加 难 ， 其 本 质 原因 还 是 底层 物质 难以 承载 上 层 的 能 量 。 就 像 你 让 一 
个 入 道 尚 浅 的 人 去 修炼 一 种 高 深 的 秘籍 ， 那 是 基本 不 可 能 的 事情 ， 因 


为 其 悟性 和 道行 根本 就 达 不 到 那个 境界 。 然 而 ，ERP 和 ITIL 是 否 可 以 
借助 云 服务 来 让 自己 站 住 脚 呢 ? 已 经 有 一 些 基 于 云 服 务 模式 的 ITIL 或 
者 伪 ITIL 产 品 出 现 。 让 我 们 静观 其 变 吧 ! 


云 ， 将 会 大 行 其 道 ! 
20.7.5 ”Micro、Mini、Normal、Huge、Gird 弹 性 数据 中 心 


目前 已 经 有 厂商 开始 打包 卖 弹 性 核 了 ， 或 者 直接 出 售 或 者 出 租 软 
数据 中 心 。 比 如 将 若干 刀片 与 高 密度 磁盘 柜 以 及 微型 交换 机 打包 到 一 
个 或 者 几 个 机 柜 中 ， 上 面 再 覆盖 以 弹性 层 ， 比 如 虚拟 机 管理 系统 以 及 
分 布 式 存储 系统 ， 将 这 样 一 个 微型 的 弹性 软 核心 作为 一 个 可 提供 IaaS 
服务 的 整体 交付 给 用 户 。 


或 者 再 在 这 个 软 核 之 上 覆盖 一 层 业 务 展现 于 管理 层 ， 直 接 交 付 到 
SaaS 层 。 一 柜 或 者 数 柜 交付 的 弹性 基础 设施 ， 可 以 称 之 为 Micro 
Cloud， 有 些 厂商 干脆 使 用 集装箱 当做 容器 来 盛 放 十 几 个 机 柜 ， 里 面 消 
防 、 监 控 、 供 电 、 散 热 等 都 已 经 做 好 ， 这 种 集装箱 交付 方式 又 可 以 称 
其 为 Mini Cloud。 对 于 以 集装箱 为 交付 单位 的 Mini Cloud， 当 需要 在 短 
时 间 内 迅速 部 署 IT 资源 ， 或 者 临时 性 的 应 付 一 下 业务 峰值 而 需要 增加 
IT 资源 的 时 候 ， 这 种 集装箱 就 可 以 派 上 用 场 。 比 如 发 生 了 战争 ， 某 重 
要 数据 中 心 被 摧毁 ， 那 么 便 可 以 使 用 集装箱 快速 重新 部 署 ; 再 比如 某 
机 构 机 房 空间 不 足 ， 那 么 便 可 以 临时 性 的 使 用 集装箱 来 应 付 ， 或 者 直 
接 将 集装箱 作为 外 辅助 数据 中 心 。 根 据 交 付 层次 的 不 同 ， 可 以 只 交付 
集装箱 十 供电 冷却 消防 监控 设施 十 机 柜 ， 也 可 以 将 一 定 容 量 的 计算 与 
存储 设备 整合 进去 ， 做 到 这 一 层 便 算是 IaaSs 层 了 ， 之 后 还 可 以 继续 向 
其 中 整合 更 上 层 的 东西 ， 比 如 PaaSs、SaaS。 再 大 一 个 档次 ， 就 是 正规 
的 数据 中 心 了 ， 数 百 个 机 柜 的 容量 ， 可 以 称 之 为 Normal Cloud。 那 么 


再 大 一 个 档次 呢 ? 也 就 是 多 个 数据 中 心 之 间 的 互联 网 业务 互联 了 ， 这 
样 就 形成 了 Seed Cloud， 每 个 Normal Cloud 都 作为 Seed Cloud 的 一 枚 种 
子 而 存在 。 再 之 后 呢 ? 这 些 大 种 子 将 会 弥散 开 来 ， 种 子 的 粒度 越 来 越 
小 ， 小 到 每 一 个 节点 都 可 以 作为 一 个 种 子 ， 这 就 是 大 范围 互联 网 网 格 
时 代 了 ， 也 就 是 云 2.0 时 代 ， 此 时 可 以 称 其 为 Infinite Cloud。 整 个 发 展 
过 程 和 形态 如 图 20-39 所 示 。 


图 20-39 云 发 展 的 5 个 阶段 
20.7.6 ”弹性 层 的 出 现 将 会 让 数据 中 心 拥 有 两 套 性 能 指标 


弹性 数据 中 心 将 会 有 两 个 主要 指标 : 硬 核 的 计算 和 存储 能 力 、 软 
核 的 计算 与 存储 能 力 。 比 如 一 台 8 刀 片 十 衣 入 式 交 换 机 十 高 密度 磁盘 柜 
的 机 箱 ， 其 能 提供 的 原生 固有 操作 系统 承载 数量 为 8， 计 算 能 力 为 若干 
Flops 或 者 若干 ITPC-C 指 标 ， 原 生存 储 容量 为 100TB; 但 是 增加 了 弹性 
层 之 后 ， 其 可 扩展 的 OS 数量 变 为 8xn， 等 效 计算 能 力 被 灵活 扩张 ;对 
于 存储 ， 内 置 的 Thin 与 Dedup 引 擎 可 以 增加 存储 的 弹性 ， 分 布 式 的 文 
件 系统 或 者 卷 管理 系统 可 以 增加 存储 系统 灵活 性 。 这 样 ， 这 个 弹性 核 
可 以 在 计算 与 存储 方面 具有 两 个 指标 : 原生 计算 与 存储 资源 指标 和 弹 
性 扩张 之 后 的 计算 与 存储 资源 指标 。 比 如 原生 存储 容量 为 50TB， 弹 性 
存储 容量 为 100TB 甚 至 500TB， 视 Thin 与 Dedup 的 效能 而 定 。 


20.8 尘埃 落 定 一 一 云 所 体现 出 来 的 哲学 思想 
20.8.1 轮回 往复 一 一 云 的 哲学 形态 


说 明 : 不 知道 大 家 是 否 玩 过 游戏 《质量 效应 2》 ， 或 者 看 过 
《黑客 帝国 》 三 部 曲 。 前 者 是 游戏 ， 后 者 是 电影 ， 两 者 都 是 


科幻 题材 。 但 是 二 者 却 都 体现 出 了 一 种 轮回 效应 。 前 者 的 最 
终 Boss 是 由 人 体 和 其 他 无 机 物 共同 组 成 的 一 个 人 形 的 庞 然 大 
物 ; 在 后 者 的 结局 中 ， 成 和 于 上 万 的 机 器 也 在 空中 形成 了 一 个 
人 形 。 虽 然 这 种 情景 只 是 人 的 想象 ， 但 是 绝 不 是 空穴来风 ， 
它 体现 了 一 种 哲学 ， 一 种 轮回 灸 套 的 哲学 。 再 比如 科幻 电影 
《 黑 衣 人 2》 的 结尾 ， 把 宇宙 描绘 成 一 个 怪兽 手中 的 玩具 ， 其 
实 宇宙 是 另外 一 个 世界 中 的 玩具 球 。 还 有 ， 所 谓 :“ 一 阔 一 世 
界 ， 一 花 一 天 堂 。” 这 些 其 实 本 质 上 都 体现 了 这 种 轮回 往复 的 
世界 观 。 


云 也 是 这 种 世界 观 的 体现 。 表 面 上 看 好 像 云 是 一 个 独立 的 个 体 ， 
其 实 它 内 部 是 由 无 穷 的 二 级 个 体 在 起 作用 ， 二 级 个 体 又 可 以 再 继续 往 
下 分 ;同样 ， 向 上 ， 云 可 以 合并 ， 多 个 云 可 以 共同 组 成 一 个 更 大 的 
云 ， 轮 回 往 复 。 


云 除 了 体现 形态 上 的 轮回 之 外 ， 还 体现 了 个 体 之 间 的 关系 ， 大 量 
个 体 的 动作 自然 而 然 地 形成 了 整体 的 动作 ， 而 这 个 整体 却 又 反 过 来 体 
现 了 大 多 数 个 体 的 共同 意愿 和 思想 以 及 物质 形态 。 比 如 麦田 怪圈 、 高 
楼 大 厦 、 蜘 蛛 做 网 、 天 空 云梯 、 鱼 群 、 蚁 群 等 。 我 们 可 以 在 空中 用 一 
只 巨大 的 手 来 男 出 麦田 怪圈 ， 或 者 用 橡皮 泥 来 捏 出 一 堆 高 楼 大 厦 模 
型 ， 但 是 我 们 却 无 法 想象 通过 个 体 之 间 的 协作 和 大 量 个 体 的 夯 作 ， 油 
小 的 个 体 也 能 够 建造 出 规则 的 巨大 的 建筑 ， 并 且 还 可 以 通过 外 形 形 态 
来 传达 各 大 多 数 个 体 的 共同 思想 。 


最 后 ， 人 群 可 以 体现 人 的 意识 的 组 合 ; 计算 机 群 也 一 样 可 以 体现 
机 器 的 意愿 。 目 前 来 讲 ， 机 器 体现 的 其 实 都 是 人 的 意愿 ， 但 是 不 排除 
机 器 自身 进化 之 后 可 以 产生 自己 的 意愿 。 物 质 群 和 意识 群 ， 一 个 在 
下 ， 为 阴 为 器 ; 一 个 在 上 ， 为 阳 为 气 。 这 两 者 螺旋 上 升 地 发 展 。 


云 是 一 种 技术 思想 上 的 轮回 表现 ， 也 就 是 从 独立 计算 转变 为 集中 
计算 的 过 程 ， 仿 佛 又 回 到 了 上 世纪 的 大 型 计算 机 时 代 。 但 是 ， 虽 然 思 
想 轮回 穿越 了 ， 承 载 这 种 思想 的 物质 可 没有 轮回 ， 物 质 总 是 不 断 前 进 
的 ， 不 会 回头 ， 除 非 世界 末日 到 来 。 


同时 ， 云 系统 本 身 也 是 由 阴 和 阳 组 成 的 。 阳 表现 为 云 系统 中 的 丙 
业 运营 模式 以 及 所 有 的 软件 ; 阴 则 表现 为 承载 这 些 思想 以 及 运行 软件 
所 需 的 硬件 物质 基础 架构 ， 即 服务 器 、 存 储 和 网 络 等 设备 。 阳 又 是 一 
种 形 而 上 的 东西 ， 而 阴 则 是 形 而 下 ， 形 而 上 者 为 道 / 气 ， 形 而 下 者 为 
器 。 整 个 系统 是 一 个 阴阳 和 合 相 衡 的 生态 系统 。 


20.8.2 ”智慧 之 云 一 一 云 的 最 终 境界 


云 也 可 以 理解 为 智慧 的 结晶 ， 一 个 超级 智慧 实体 ， 就 像 《黑客 帝 
国 》 中 的 Matrix 角 色 一 样 。 由 大 量 个 体 组 成 的 智慧 体 ， 个 体 只 是 按照 
给 自己 的 那 一 小 部 分 规则 在 运行 ， 而 整体 则 显示 为 具有 个 体 属性 的 ， 
但 又 有 升华 的 起 级 智 意 。 


最 后 ， 人 的 意识 组 合成 了 社会 ， 计 算 机 的 意识 也 会 组 成 计算 机 社 
会 ， 云 的 进化 ， 最 后 就 会 成 为 一 个 计算 机 社会 。 这 便 是 智库 之 云 ， 它 
反映 了 全 体 个 体 的 智慧 结晶 ， 并 且 不 断 地 进化 。 


20.8.3 ” 云 在 哲学 上 所 具有 的 性 质 


(1) 大 规模 的 云 由 大 量 个 体 组 成 ,个体 的 具体 属性 可 能 不 同 ,但 
是 其 本 质 都 相同 。 


(2) 任何 个 体 进入 云 中 将 被 冲淡 ， 将 被 吸入 成 为 云 的 一 部 分 。 


(3) 个 体 连续 地 工作 才 形成 了 整个 云 的 动作 。 
(4) 个 体 的 损耗 、 损 毁 、 代 谢 交 替 对 整个 云 影响 不 大 。 


(5) 云 有 它 的 寿命 ， 虽 然 可 以 通过 代谢 来 不 断 更 换 衰 老 的 个 体 ， 
但 是 最 终 会 像 生命 体 一 样 完全 消亡 。 


(6) 大 云 可 以 捕获 、 吞 并 和 消化 其 他 小 云 。 
(7) 云 有 智能 ， 云 会 进化 。 
(8) 云 和 云 之 间 将 会 形成 生态 关系 ， 形 成 云 社会 。 


(9) 社会 即 云 ， 全 人 类 即 云 ， 太 阳 系 即 云 ， 银 河 系 即 云 ， 宇 宙 即 
云 。 宇 宙 也 是 个 体 ， 多 个 宇宙 再 组 成 云 ， 轮 回 往复 ， 无 穷 无 尽 。 


20.8.4“ 云 基础 架构 的 艺术 与 哲学 意境 


另外 ， 我 发 挥 了 一 下 想象 力 ， 将 云 想象 成 为 一 部 精密 机 械 ， 并 男 
了 一 张 图 ， 如 图 20-40 所 示 。 和 希望 通过 这 张 图 能 够 让 大 家 更 加 深刻 的 认 
识 云 这 个 东西 。 这 张 图 片 其 实 是 可 以 运动 的 ， 大 家 可 以 联系 我 以 获得 
这 张 图 片 的 动态 版 。 这 张 图 是 对 一 片 小 云 种 子 的 一 个 总 结 。 最 中 心 的 
物质 本 源 ， 也 就 是 硬 核心 。 在 这 层 硬 核心 之 外 ， 包 焉 一 层 弹 性 存储 
层 ， 包 括 可 灵活 扩展 的 集群 SAN、 集 群 NAS 或 者 集群 /分 布 式 文件 系统 
等 ， 以 及 Thin、Dedup 等 增加 数据 弹性 的 技术 ， 还 有 增加 管理 灵活 性 
的 虚拟 化 技术 。 之 外 再 履 香 以 弹性 计算 层 ， 最 后 履 香 以 资产 管理 层 ， 
最 外 面 则 是 运营 层 ， 包 括 业 务 展现 子 层 与 运营 管理 子 层 。 至 此 这 片 云 
就 彻底 运转 起 来 了 。 


图 20-40 ”小 云 的 5 层 结构 


人 下 这 张 图 ， 会 发 现 其 中 包含 有 无 穷 奥妙 。 你 先 
想象 它 是 一 台电 动机 ， 其 中 每 个 圈 都 可 以 旋转 ， 谁 来 给 它 提供 能 量 
呢 ? 当然 ， 云 数据 中 心 必须 有 足够 的 电力 ， 电动 机 要 旋转 ， 需 要 有 电 
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是 很 像 两 把 电 刷 ， 将 用 户 需 求 这 种 动力 不 断 地 提供 给 中 心 部 件 ， 从 
ba 电动 机 持久 地 转动 。 如 果 没 有 了 用 户 需 求 ， 或 者 你 已 经 想 不 
出 足够 新 颖 的 业务 展现 方式 ， 那 么 就 算 有 电 ， 这 个 数据 中 心 也 无 法 再 
运营 下 去 了 。 


" 计算 存储 硬 核 层 : 处 于 这 人 台 精 密 机 械 的 最 核心 层次 的 ， 就 是 硬 
核 了 ， 也 是 运转 最 快 而 且 最 硬 最 实 的 一 个 角色 。 在 数据 中 心中 
表现 为 大 量 的 服务 器 和 存储 设备 ， 这 个 核心 是 云 数据 中 心 的 物 
质 本 源 ， 也 是 密度 最 高 的 实体 。 硬 核 相当 于 云 中 的 种 子 。 
存储 弹性 软化 层 : 这 一 层 紧 密 地 包 叶 在 物质 实体 之 外 ， 通 过 分 
布 式 、 集 群 、 虚 拟 化 、Thin、Dedup、 Snapshot、 Clone 等 技 
术 ， 将 原本 高 密度 的 硬 实体 充分 软化 ， 为 上 面 的 层次 提供 一 个 
弹性 软化 的 基 座 。 
计算 弹性 软化 层 : 在 弹性 软化 的 存储 基 座 之 上 ， 计 算 资 源 也 通 
过 各 种 主机 庶 拟 化 技术 手段 被 充分 地 软 化 。 

资源 管理 调度 层 : 物质 硬 核 十 富有 弹性 的 软化 计算 与 存储 资源 
层 ， 共 同 构成 了 一 个 系统 内 的 阴 与 阳 相 合 的 资源 核心 。 资 源 管 
理 与 调度 层 起 到 一 个 适 配 内 外 层次 的 作用 ， 外 层 阳 气 的 生发 需 
要 底层 物质 源泉 的 积聚 、 分 配 和 运 化 ， 如 何 将 这 个 系统 内 的 资 
源 进 行 恨 好 的 调动 与 配合 ， 便 是 这 一 层 的 任务 。 这 一 层 中 存在 
诸多 角色 ， 比 如 资源 监控 、 资 源 分 配 与 调度 、 并 行 计算 分 配 与 
调度 等 。 


= 业务 展现 运营 层 : 这 一 层 则 是 阳 气 外 发 外 散 与 运 化 升华 的 至 极 
之 层次 ， 也 是 整个 云 数 据 中 心 的 精神 本 源 。 中 心 的 硬 核 为 太 
阴 ， 这 一 层 则 为 太阳 ， 为 最 终 将 辐射 展现 出 去 的 一 层 ， 也 是 外 
界 直接 可 见 的 一 层 。 表 里 相合 ， 一 为 实 一 为 虚 ， 一 为 阴 一 为 
阳 ， 一 为 物质 一 为 精神 。 


整个 云 数据 中 心 便 是 一 个 阴阳 表 里 虚 实 相 合 的 一 个 有 机 体 。 这 也 
正 像 一 个 星云 ， 不 断 人 孕育 出 [微软 用 户 1] 星 体 ， 对 应 着 云 基础 架构 之 上 
不 断 孕 育 着 各 种 应 用 业务 服务 。 生 物体 、 社 会 、 企 业 、 公 司 、 宇 宙 ， 
其 实 都 是 这 样 演化 的 ， 那 么 可 以 这 么 说 ， 系 统 即 云 ， 云 即 系统 ， 云 是 
大 统一 的 系统 模型 。 


另外 ， 大 家 可 以 继续 领悟 一 下 ， 这 片 小 云 种 子 ， 是 否 就 是 一 台 计 
算 机 呢 ? 硬 核心 就 相当 于 硬件 ， 看 得 见 摸 得 着 ， 外 层 的 弹性 存储 层 ， 
相当 于 计算 机 的 存储 系统 ， 任 何 计算 机 启动 时 首先 都 要 去 从 存储 系统 
里 读 入 代码 执行 ， 再 外 层 就 是 操作 系统 内 核 层 ， 基 于 存储 层 的 支撑 ， 
内 核 得 以 启动 ， 表 往外 就 是 操作 系统 管理 界面 层 了 ， 利 用 界面 来 管理 
和 分 配 各 种 计算 机 资源 ， 其 中 并 行 计算 调度 模块 也 相当 于 操作 系统 中 
的 线程 调度 器 等 角色 ; 最 外 面 一 层 ， 也 就 相当 于 计算 机 的 应 用 程序 层 
了 ， 各 式 各 样 的 应 用 程序 ， 对 应 着 云 中 各 式 各 样 的 业务 展现 。 各 种 应 
用 (业务 展现 ) 可 以 在 一 台 计 算 机 上 ( 云 中 ) 迅速 的 安装 卸载 (部 
署 ) 。 那 么 ,“ 云 即 计 算 机 ”， 这 句 话 ， 不 记得 之 前 哪 位 提 到 过 ， 至 此 
我 也 彻底 理解 了 。 云 为 何 融 是 计算 机 ? 云 由 大 量 计 算 机 组 成 ， 而 其 挫 
蕉 之 后 的 样子 和 架构 ， 仍 然 还 是 一 台 计 算 机 。 计 算 机 各 处 总 是 体现 着 
轮回 的 形态 。 为 何 呢 ? 因为 它 骨 子 里 就 是 由 计算 机 组 成 的 ， 它 永远 造 
不 出 异形 ， 只 会 造 出 它 自己 ， 除 非 它 有 自己 的 强烈 向 往 ， 希 望 自身 向 


某 个 异形 发 展 。 这 种 行为 ， 骨 子 里 已 经 根植 到 了 基因 当中 ， 这 种 上 下 
联系 看 上 去 非常 微妙 。 


对 比 一 下 : 
(1) 计算 机 加 电 ， 硬 件 启动 - 云 数 据 中 心 硬件 核心 层 启 动 。 


(2) 从 磁盘 读 取 代码 以 便 启动 OS 一 云 中 的 数据 承载 层 。 各 种 分 
布 式 FS 分 布 式 DB，key-value DB 等 。 


(3) OS 启 动 ~ 云 中 的 虚拟 计算 层 ， 生 成 大 量 VM。 


(4) 启动 到 用 户 界 面 ~ 云 中 的 管理 层 ， 比 如 微软 System Center， 
Novell Cloud Manager， 思 科 UCS 的 Unified Manager 等 。 


(5) 内 核 的 线程 调度 器 - 云 中 的 并 行 计算 调度 层 ， 比 如 
Mapreduce 以 及 其 衍生 物 。 


(6) OS 提供 的 开发 API，VC，Java 一 云 中 的 PaaS 开 发 平台 。 
(7) 各 种 运行 在 OS 上 的 应 用 程序 SaaS 展现 层 ， 各 种 云 业 务 。 


又 比如 各 种 分 布 式 文件 系统 ， 其 本 质 是 什么 呢 ? 其实 还 是 本 地 文 
件 系统 思想 的 外 散 。 本 地 文件 系统 通过 一 个 跟 入 口 ， 然 后 一 级 指针 、 
二 级 指针 、 三 级 指针 ， 一 直到 最 后 一 层 0 级 块 用 来 存放 最 终 的 文件 效 
据 。 而 分 布 式 文件 系统 ， 大 家 思考 一 下 ， 对 称 式 分 布 式 文件 系统 ， 其 
各 级 元 数据 其 实 也 都 是 分 部 到 所 有 节点 当中 的 ， 比 如 一 级 措 针 用 1 个 节 
点 承担 ， 二 级 指针 用 2 个 节点 承担 ，3 级 指针 用 3 个 节点 承担 ， 这 样 可 以 
将 文件 系统 分 布 到 非常 大 的 范围 。 或 者 干脆 把 所 有 指针 元 数据 放 到 一 


个 节点 中 ， 那 么 这 个 节点 也 就 是 MDS， 这 样 就 属于 非 对 称 式 集群 文件 
系统 了 。 但 是 不 管 怎么 弄 ， 其 本 质 其 实 束 是 本 地 文件 系统 的 思想 。 


至 此 , “轮回 ”的 道理 在 计算 机 世界 已 经 充分 展现 了 出 来 。 
20.8.5” 纵 观 存储 发 展 时 代 一 一 云 发 展 预 测 


如 图 20-41 所 示 为 存储 系统 的 发 展 时 代 。 这 张 图 所 要 表达 的 两 个 最 
重要 的 地 方 ， 一 个 是 所 谓 “ 小 云 时 代 ” 与 “大 云 时 代 ”， 另 一 个 则 是 “分 ” 
与 “ 合 ” 的 轮回 变化 。 


图 20-41 ”存储 系统 架构 变迁 发 展 


早期 的 直 连 存储 ， 每 个 计算 节点 都 有 各 自 的 存储 系统 ， 计 算 节点 
之 间 的 存储 系统 没有 共享 ， 属 于 分 ; 今天 的 网 络 存储 时 代 ， 所 有 计算 
节点 可 以 共享 访问 同一 个 存储 系统 ， 属 于 合 。 当 前 ， 由 于 单 台 网 络 存 
储 系统 性 能 受 限 ， 集 群 存储 系统 的 地 位 开始 上 升 ， 利 用 大 量 分 开 的 存 
储 节 点 来 获得 更 高 的 性 能 扩展 性 ， 以 满足 数据 爆炸 时 代 的 需求 ， 这 又 
属于 分 ; 而 在 将 来 ， 将 是 一 个 业务 爆炸 的 时 代 ， 各 种 各 样 的 互联 网 服 
务 层出不穷 ， 如 何 快速 满足 业务 部 署 需求 ”传统 数据 中 心 ， 部 署 一 台 
新 服务 器 和 业务 ， 需 要 至 少 一 天 的 时 间 ， 比 如 上 架 、 安 装 OS、 安 装 支 
撑 系 统 、 安 装 应 用 系统 、 测 试 ， 而 如 果 加 上 前 期 采购 等 流程 ， 则 需要 
更 长 时 间 。 而 云 的 出 现 ， 利 用 弹性 核心 ， 将 底层 大 量 分 开 的 计算 或 者 
存储 节点 屏 沿 ， 抽 象 为 各 种 IT 服 务 ， 使 得 部 署 一 个 新 应 用 可 能 只 需 
几 个 小 时 的 时 间 就 可 以 了 ， 云 整合 了 所 有 IT 资源 ， 这 又 属于 合 。 而 在 
遥远 的 未 来 ， 随 着 技术 革命 的 到 来 ， 计 算 与 存储 将 会 发 生 质 的 变化 ， 
单个 节点 的 计算 与 存储 能 力 发 生 半 命 ， 另 外 ， 互 联网 带宽 的 革命 ， 也 


会 促使 大 沁 围 的 网 格 广 点 互联 ， 共 同 组 成 一 个 整体 ， 而 不 是 向 某 个 固 
定 的 云 中 获得 资源 ， 这 又 属于 分 。 


小 云 也 就 是 不 远 的 将 来 会 大 行 其 道 的 、 由 小 规模 的 硬 核 作为 种 子 
所 生成 的 云 [微软 用 户 2]。 而 大 云 则 是 借助 高 速 互联 网 而 组 成 的 大 范围 
的 网 格 型 的 硬 核心 ， 大 家 共同 参与 组 成 云 。 此 时 ， 任 何 节点 可 以 申请 
加 入 这 个 云 而 成 为 云 中 的 一 粒 种 子 ， 不 断 贡 献 着 资源 而 同时 也 吸收 着 
资源 。 其 实 P2P 就 相当 于 一 个 大 网 格 云 ， 只 不 过 网 格 云 时 代 P2P 的 不 仪 
是 电影 ， 而 是 一 切 IT 资 源 了 ， 比 如 存储 和 计算 。 假 如 你 有 一 个 视频 需 
要 泻 染 ,但 是 你 的 机 器 目 身 的 显卡 太 差 ， 那 么 你 可 以 直接 利用 P2P 泻 
梁平 台 服 务 将 你 的 任务 提交 ， 其 后 台 就 会 将 这 个 任务 分 解 到 所 有 拥有 
高 泻 染 能 力 的 节点 中 去 并 行 计算 ， 然 后 结果 汇总 到 你 这 里 ， 这 个 速度 
将 会 是 相当 快 的 。 


在 网 格 云 时 代 ， 此 时 整个 系统 又 属于 分 了 。 在 这 个 大 云 时 代 ， 互 
联网 上 的 所 有 节点 都 会 有 高 接 入 带宽 ， 比 如 万 兆 以 太 网 到 户 ， 再 加 上 
IPV6， 使 得 每 个 人 都 变 成 了 互联 网 运营 两 ， 那 么 之 前 被 大 集中 到 运营 
商 以 及 各 个 数据 中 心中 的 资源 ， 在 这 个 时 代 将 会 重新 流入 到 互联 网 所 
有 节点 中 。 之 前 被 大 集中 在 运营 商 数据 中 心 的 数据 业务 ， 此 时 会 被 大 
范围 分 散 到 互联 网 的 各 个 节点 中 去 ， 此 时 的 形态 又 属于 分 了 。 如 果 说 
集群 存储 时 代 对 应 着 数据 爆炸 ， 那 么 小 云 时 代 便 对 应 了 业务 爆炸 ， 数 
据 与 业务 共同 在 几 个 点 上 爆炸 之 后 ， 必 将 经 过 弥散 的 时 代 ， 这 个 时 代 
也 融 是 大 网 格 云 时 代 。 在 这 个 时 代 ， 你 个 互联 网 内 的 资源 家 虚 拟 地 整 
合 起 来 ， 人 们 可 以 利用 P2P 技 术 运 行 超大 程序 ， 泻 染 图 片 以 及 海量 存 
储 等 其 他 各 种 服务 。 那 时 候 的 运营 商 ， 有 一 种 很 重要 的 角色 ， 这 个 角 
色 就 相当 于 分 布 式 文件 系统 中 的 MDS， 它 会 给 整个 互联 网 提供 一 个 用 
于 P2P 共 享 的 分 布 式 平台 ， 保 存 所 有 互联 网 元 数据 。 比 如 大 分 布 式 文 


件 系 统 、 大 并 行 计算 调 度 系统 ， 都 会 有 运营 商 来 掌握 和 部 署 ， 将 整个 
互联 网 泥 围 内 的 资源 整合 了 起 来 ， 数 据 和 资源 弥散 在 整个 互联 网 沁 
围 。 


另外 ， 小 云 自身 也 相当 于 大 云 中 的 一 粒 种 子 ， 目 前 各 地 都 在 兴建 
小 规模 云 数据 中 心 ， 这 些 建 好 的 数据 中 心 ， 将 来 会 成 为 种 子 ， 然 后 各 
目 联合 起 来 形成 大 泥 围 云 。 我 们 姑且 称 小 云 时 代为 云 1.0 时 代 ， 或 者 也 
可 以 叫 它 种 云 时 代 。 而 大 云 时 代为 云 2.0 时 代 。 云 2.0 时 代 的 时 候 ， 之 前 
云 1.0 时 代 的 种 子 便 完成 了 它 的 使 命 ， 成 功 地 发 芽 开 花 并 结果 。 


那么 在 大 云 时 代 之 后 ， 按 照 之 前 一 路 分 分 合 合 的 变化 规律 ， 势 必 
又 会 变 为 合 的 形态 。 这 里 先 这 样 推 测 ， 然 后 再 找 论据 ， 它 赁 什么 要 合 
呢 ? 你 说 合 它 就 合 么 ? 显然 不 是 的 。 我 们 畅想 一 下 ， 那 时 候 计算 与 存 
储 将 会 发 生 革 命 ， 比 如 从 电路 计算 与 电路 存储 ， 转 为 量子 计算 或 者 生 
物 计 算 与 分 子 存储 。 大 家 知道 ， 生 物 细 胞 中 的 DNA 可 以 存储 大 量 的 信 
息 ， 可 能 一 个 细胞 可 以 存储 的 数据 堪 比 一 块 硬盘 ， 那 么 一 片 树叶 中 将 
可 以 存储 海量 的 数据 。 那 么 谁 来 读 取 其 上 的 数据 呢 ? 当然 是 靠 核 糖 
体 ， 核 糖 体 就 相当 于 磁盘 中 的 磁头 。 细 胞 也 可 以 用 来 计算 ， 一 个 细胞 
中 包含 多 种 模块 ， 每 一 个 都 被 精确 设计 ， 来 完成 一 系列 的 生化 过 程 ， 
这 个 过 程 如 果 可 以 被 翻译 为 其 他 逻辑 ， 那 么 就 可 以 被 用 作 高 速 计算 。 
那个 时 候 ， 将 会 出 现 利用 单 新 技术 生产 的 计算 机 ， 整 个 时 代 又 会 回 到 
最 原始 的 形态 ， 也 就 是 大 量 终端 通过 网 络 连接 到 中 心计 算 机 来 获取 资 
产 。 


纵 观 云 发 展 史 ， 我 们 再 往 高 层 思考 。 一 开始 ，PC 在 LAN 内 访问 服 
务 器 ， 这 种 状态 可 以 映射 到 现在 的 Micro Cloud; 后 来 ，IT 组 织 越 来 越 
大 ， 数 据 中 心 出 现 ， 组 织 内 的 PC 可 以 跨越 多 个 LAN 被 路 由 到 数据 中 心 
LAN 内 访问 所 有 资源， 此 时 可 以 映射 为 Mini 或 者 Normal Cloud; 后 来 


Internet 发 展 ， 使 得 多 个 Internet 上 的 服务 器 可 以 相互 通信 相互 要 资源 ， 
PC 可 以 连接 到 Internet 访 问 其 他 LAN 内 的 服务 器 ， 这 种 状态 可 以 映射 到 
大 范围 的 Seed Cloud; 那么 再 后 来 ，Internet 上 的 资源 被 一 定 程度 地 弥 
散 ， 当 然 数 据 中 心 等 云 种 子 依然 存在 ， 只 不 过 资源 被 极 大 地 弥散 到 了 
所 有 节点 之 上 ， 此 时 便 映 射 到 了 TInfinite Cloud， 也 就 是 大 范围 Gird 了 。 


请 看 一 下 图 20-42 所 示 的 开 系 统 基 础 染 构 一 开始 都 是 孤岛 ， 烟 向 。 
后 来 存储 开始 被 集中 起 来 。 再 后 来 ， 存 储 的 上 层 ， 也 就 是 计算 层 ， 也 
被 集中 整合 起 来 。 再 后 来 ， 统 一 了 开发 平台 ， 其 上 孕育 出 各 种 应 用 。 
这 也 是 当前 的 新 型 I 基础 架构 的 形态 ， 也 就 是 人 们 常 说 的 “ 云 ” 基 础 架 
构 。 存 储 从 主机 脱离 出 来 成 为 SAN， 那 么 整个 IT 系统 基础 架构 的 共 
享 ， 就 成 为 了 Cloud。 可 以 看 到 一 层 层 的 向 上 侵蚀 ， 但 是 APP 一 层 自身 
能 被 融合 起 来 么 y” 恐 人 不 能 了 ， 每 个 业务 都 要 对 应 一 个 APP。 那 么 这 
个 系统 正在 干什么 呢 ? 它 下 一 步 将 会 是 什么 形态 呢 ? 


图 20-42 IT 基础 架构 演进 示意 图 


IT 系统 最 终 是 不 是 要 长 成 这 个 样子 〈 见 图 20-43) 全 部 融合 。 一 个 
操作 系统 实例 可 以 管理 所 有 服务 器 、 存 储 、 网 络 资源 ， 也 即 所 谓 “ 数 
据 中 心 操作 系统 ”或 者 “分 布 式 操作 系统 ”。 这 个 DOS 

(Datacenter/Distributed OS ， 不 仅 寒 了 一 下 ， 确 实 是 个 轮回 ， 到 了 
DOS 时 代 了 ) 可 以 有 两 种 模式 ， 就 像 分 布 式 文件 系统 一 样 ， 一 种 模式 
是 把 多 个 文件 系统 实例 用 目录 的 方式 虚拟 ， 而 另 一 种 模式 是 直接 在 底 
层 虚 拟 。 


图 20-43 ”分布 式 统一 操作 系统 


那么 DOS 也 可 以 有 这 两 种 类 似 的 方式 ， 要 么 就 用 一 种 简单 松 耦 合 
的 管理 角色 ， 比 如 微软 的 System Center、Novell 的 Cloud Manager 等 ; 
要 么 ， 也 就 是 要 引出 的 另 一 种 彻底 底层 融合 方式 ， 一 个 操作 系统 实 
例 ， 高 速 网 络 的 出 现 ， 将 总 线 延 伸 到 计算 机 外 部 (请 翻 回 阅读 本 书 第 2 
章 ， 外 部 网 络 就 是 计算 机 总 线 的 延伸 ) ， 将 内 存 的 RDMA， 这 些 都 变 
得 可 能 ， 此 时 多 个 物理 上 分 离 的 节点 可 以 直接 进行 总 线 级 的 通信 和 内 
存 直 接 寻 址 ， 那 么 一 个 分 布 式 操 作 系统 也 就 可 以 在 此 基础 上 诞生 了 。 


这 个 操作 系统 将 会 把 整个 数据 中 心中 的 所 有 元 素 统一 管理 起 来 ， 
包括 底层 的 供电 、 消 防 、 监控 等 ， 及 上 层 的 存储 、 计 算 、 网 络 资产 管 
理 和 调度 ， 以 及 各 模块 间 的 消息 转发 中 间 件 平台 ， 旋 至 最 上 层 的 应 用 
业务 展现 开发 平台 。 所 有 这 些 元 素 将 被 一 种 像 微软 Windows 操 作 系 统 
一 样 的 统一 平台 来 操作 与 管理 。 这 又 是 一 个 大 轮回 了 。 同 时 ， 存 储 早 
就 准备 好 这 一 天 的 革命 了 ， 各 种 分 布 式 虚拟 化 存储 已 经 成 熟 。 此 时 ， 
整个 系统 确实 从 骨子里 表现 为 一 台大 计算 机 了 。 这 个 DOS 会 将 任务 拆 
分 为 颗粒 分 配 到 底层 所 有 计算 节点 中 去 ， 这 也 正如 传统 OS 将 每 个 线程 
分 配 到 CPU 的 每 个 核心 中 去 执行 一 样 。 


这 种 操作 系统 如 果真 的 出 现 ， 其 早期 必然 不 能 够 满足 高 实时 性 计 
算 的 需求 ， 只 能 作为 一 个 庞然大物 级 别 的 系统 来 处 理 一 些 非 高 实时 性 
但 是 却 拥有 极 高 的 总 吞吐 量 的 系统 ， 对 于 高 实时 性 需求 依然 需要 独立 
的 系统 。 其 实 这 种 演进 就 相当 于 目前 的 传统 操作 系统 与 窜 入 式 高 效 实 
时 的 精简 操作 系统 的 区 别 了 ， 谁 也 离 不 了 谁 ， 总 要 有 一 种 通 吃 一 切 的 
庞大 系统 ， 比 如 Windows、Linux 等 ， 也 必然 要 有 一 些 尖 兵 操作 系统 比 
如 VxWorks 等 。 随 着 规模 的 庞大 ， 整 体 颗 粒度 必然 变 大 ， 微 观 运动 必 
然 相 对 变 慢 ， 但 是 总 吞吐 量 数量 级 也 必然 升 高 ， 这 就 像 一 个 细胞 的 运 
动 与 地 球 目 转 的 比较 一 样 。 


那么 ， 这 个 系统 究竟 是 否 会 朝 着 这 个 方向 演进 呢 ? 让 我 们 拭 目 以 
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当 云 的 底层 架构 从 数据 中 心 集中 的 Infrastructure 变 为 全 Internet 上 
的 节点 之 后 ， 也 就 是 网 格 云 计 算 ， 这 种 庞大 的 网 格 在 节点 间 相 互 交流 
后 便 会 逐渐 进化 ， 或 者 不 由 自主 地 表现 出 一 种 全 体 无 意识 性 的 结果 ， 
这 种 结果 往往 是 惊人 的 ， 就 像 蚁 群 一 样 ， 会 创造 出 惊人 的 结果 。 再 比 
如 ， 眼 前 的 例子 : 人 肉 搜索 。 


现在 提出 云 是 否 会 太 超前 ? 我 们 知道 ， 客 户 端 并 行 访问 数据 的 概 
念 早 在 1994 年 就 被 Gibson 提 出 了 ， 当 时 被 设计 为 一 种 对 象 存储 系统 。 
这 么 优越 的 设计 为 何 最 近 才 被 纳入 业界 标准 呢 ? 各 个 分 布 式 文件 系统 
厂商 相继 推出 配套 的 并 行 访问 客户 端 。 究 其 原因 还 是 因为 硬件 、 网 络 
的 发 展 。x86 服 务 器 硬件 已 经 相当 廉价 ，1GbE 以 太 网 环境 比比 皆 是 ， 
10GbE 马 上 也 要 普及 开 来 ， 而 软件 相对 变 为 了 瓶颈 ， 传 统 只 通过 单一 
链 路 访问 目标 的 做 法 已 经 用 不 满 网 络 带宽 了 ， 为 此 pNFS 等 标准 被 制定 
出 来 。 


我 们 再 反观 目前 的 云 ， 云 确实 是 比较 超前 的 东西 ， 但 是 看 看 现在 
的 互联 网 带宽 ， 不 用 说 1GbE，10MbE 都 还 没有 普及 。 在 这 种 低 带 宽 的 
网 络 环境 下 ， 互 联网 用 户 暂 时 只 能 享受 到 一 些 不 需要 高 带宽 的 服务 ， 
比如 在 线 文 档 阅读 等 ， 而 这 些 服 务 将 其 归 类 到 互联 网 服务 比较 贴切 ， 
尚未 达到 云 服 务 的 层次 。 而 当 互 联网 带宽 革命 之 后 ， 云 此 时 才 会 被 大 
规模 释放 出 来 ， 用 户 用 一 个 瘦 终 端 即 可 享受 到 任何 IT 服务 ， 连 操作 系 
统 都 不 需要 安装 。 


是 计算 、 传 输 还 是 存储 。 没 有 业务 驱动 ， 计 算 、 传 输 与 存储 便 没 有 了 
任何 意义 。 业 务 又 是 人 类 需求 的 体现 。 


想 胃 一 张 图， 在 世界 地 理 版 图 上 ， 分 布 着 若干 个 大 云 团 ， 周 围 佐 
以 一 些 零散 的 小 云 团 ， 整 体形 成 一 个 云 网 络 ， 形 成 一 个 计算 的 脉络 。 
这 是 何等 壮观 之 景象 《如 图 20-45 所 示 ) ! 不 知道 至 此 你 是 否 还 会 看 云 
而 晕 呢 ? 云 计算 / 云 存储 / 云 服 务 ， 是 否 真能 成 为 IT 发 展 的 天 时 ? 让 我 们 
拭目以待 ! 


图 20-44 业务 驱动 下 的 计算 、 传 输 与 存储 ”图 20-45 ”世界 云 版 图 


附录 1 存储 系统 问 与 谷 精 华 集锦 


本 问 与 答 精华 集锦 全 部 收录 自作 者 几 年 来 在 各 大 存储 技术 论坛 以 
及 个 人 博客 中 针对 广大 网 友 提 出 的 问题 的 回复 内 容 。 作 者 对 这 些 内 容 
做 了 总 结 和 归纳 ， 作 成 了 问 与 爸 的 形式 。 其 中 有 对 于 存储 技术 基础 问 
题 的 问答 ， 也 有 针对 本 书 内 容 的 问答 ， 还 有 对 一 些 方案 设计 等 问题 的 
问答 。 作 者 希望 读者 通过 阅读 这 些 问答 内 容 ， 能 够 解决 自己 心中 的 一 
些 疑 问 ， 从 而 对 整个 存储 系统 的 理解 更 深 一 步 。 


1. 关于 “文件 "与 “ 块 


请 教 个 问题 : 什么 是 文件 数据 ， 什 么 是 块 数据 ? 它们 有 什么 区 
别 ? 


块 泛 指 底层 磁盘 上 的 局 区 组 合 ， 某 个 文件 可 以 对 应 一 个 或 者 多 个 
这 样 的 块 。 客 户 端 访问 存储 系统 的 接口 有 两 种 : 网 络 文 件 系统 接口 和 
SCSI 或 者 ATA 接 口 。 前 者 指 的 是 CIFS 和 NFS; 后 者 可 以 是 SCSI、 
FCP、iSCSI、ATA/IDE、SATA、eSATA、1394、USB。 前 者 在 网 线 上 
的 数据 三 元 素 是 文件 名 、 起 始 偏 移 量 、 读 写字 节 数 ， 后 者 在 线 绕 上 传 
递 的 三 元 素 是 起 始 扇 区 号 码 、 操 作 码 ( 读 、 写 等 ) 、 要 操作 的 扇 区 数 


旦 。 


文件 系统 的 作用 就 是 将 块 虚拟 成 文件 。 如 果 磁 盘 阵 列 中 集成 了 自 
己 的 文件 系统 ， 则 可 以 虚拟 这 些 块 ， 向 外 面 提供 NAS 接 口 访问 ， 此 时 
盘 阵 的 存储 空间 在 主机 端 表现 为 一 个 挂 载 上 的 目录 (不 需要 格式 化 ， 
直接 向 其 中 读 写 文 件 ， 也 就 是 NAS 访 问 方式 ) 。 如 果盘 阵 自己 没有 文 
件 系统 虚拟 化 功能 ， 则 只 能 依靠 客户 端 ， 也 就 是 主机 端 上 的 文件 系统 
来 管理 此 盘 阵 向 这 个 主机 映射 的 磁盘 。 


关于 “数据 块 ”" 级 和 “文件 ”级 之 间 的 差异 ， 能 不 能 给 我 讲 透彻 一 
点 ? 


AAA e 


你 好 ，Block 级 别 就 是 直接 通过 读 写 存储 空间 (磁盘 ，LUN ， 
Volume) 中 的 一 个 或 者 一 段 地 址 的 局 区 来 存 取 数据 ， 文 件 级 别 则 是 通 
过 读 写 某 个 文件 中 的 一 段 数 据 。 比 如 你 是 存储 设备 ， 我 是 主机 ， 我 
说 : 请 你 将 LUN1 上 的 0~127 这 128 个 扇 区 的 数据 给 我 ， 你 给 我 了 ， 咱 
俩 之 间 就 是 Block 级 的 访问 。 如 果 我 这 样 和 你 要 数据 : 请 你 将 X 目 录 下 


的 tellme.txt 文 件 的 前 128 字 节 传 给 我 ， 这 就 是 文件 级 别 的 访问 。 前 者 俗 
称 SAN Block 访 问 ， 后 者 俗称 NAS 访 问 。 


2. 何谓 “NAS”? 


想 知道 NAS 的 功能 具体 是 怎么 实现 的 ? 可 不 可 以 举例 下 ? 谢谢 。 


你 好 ，NAS 就 是 ， 前 端 用 网 络 文件 系统 提供 服务 ， 后 端 用 任何 方 
式 的 存储 空间 。 可 以 说 ， 只 要 前 端 通过 网 络 文件 系统 服务 的 存储 设备 
就 是 NAS。 


我 在 网 上 看 了 一 下 ， 比 较 有 名 的 是 Sansky 博 客 上 提出 的 理论 带宽 
计算 是 根据 每 控制 器 上 的 主机 FC 芯片 和 磁盘 FC 芯片 计算 ，Sansky 指 
出 以 DS4800 为 例 : DS4800 虽 然 主机 端口 和 磁盘 端口 都 是 8 个 4Gb 接 
口 ， 但 实际 上 每 个 控制 器 内 部 只 有 两 个 4Gb 主 机 FC chip 和 两 个 4Gb 磁 
盘 FC chip ， 两 个 控制 器 加 起 来 是 4 个 4Gb FC chip， 所 以 两 个 控制 器 
的 最 大 传输 速率 是 4x4Gb。 我 有 点 疑问 ， 如 果 我 们 来 看 IBM DS4700 两 
款 产品 的 话 ，IBM 提 供 的 带宽 大 概 是 1270MB/s 和 1550MB/s ， 这 两 款 
产品 都 是 双 控 制 器 产品 ， 每 控制 器 芯片 分 别 为 1 个 和 两 个 ， 磁 盘 必 片 均 
为 1 个 。 如 果 按 照 如 上 计算 ， 是 达 不 到 IBM 宣 称 的 技术 参数 的 。 老 冬 能 
否 帮 忙 解答 一 下 ? 谢谢 ! 


你 好 ， 人 确实 达 不 到 的 。 那 个 参 效 具 有 误导 性 。 确 认 一 款 产 品 的 审 
宽 ， 考 虑 6 个 地 方 即 可 : 前 端 接口 数 ， 前 端 心 片 数 ， 后 端 接口 数 ， 后 端 
芯片 数 ， 前 后 端 之 间 的 总 线 带 宽 ， 内 存 带 宽 。 任 何 一 个 地 方 受 限制 ， 
就 会 达 不 到 表面 的 标 称 值 。 有 了 时候 多 个 端口 是 共享 一 个 Chip ( 心 


片 ) ， 那 多 半 就 只 能 共享 带宽 ， 但 是 也 不 排除 有 使 用 高 端 线 速 交 换 的 
心 片 ， 就 和 交换 机 一 样 ， 虽 然 看 起 来 口 不 少 ， 可 是 背 板 带宽 小 的 话 ， 
那 就 不 能 保证 所 有 口 同时 线 速 交 换 。 加 上 前 后 端 之 间 总 线 不 够 的 话 ， 
那 就 也 有 瓶颈 。 同 样 ， 如 果 内 存 带 宽 不 匹配 ， 也 会 有 瓶颈 ， 因 为 磁盘 
数据 都 是 先入 内 存 再 入 前 端口 。 


你 说 的 高 端 线 速 交换 心 片 是 怎么 回 事 ? 是 否 就 是 说 只 要 背 板 带宽 
足够 大 ， 最 终 磁 阵 的 吞吐 量 就 能 由 前 端 和 后 端 接口 的 数目 决定 ? 


所 谓 线 速 ， 就 是 指 所 有 端口 都 以 自己 的 额定 速度 同时 交换 ， 而 所 
有 端口 都 是 连接 到 背 板 上 的 ， 其 中 需要 核心 心 片 管 理 ， 而 核心 到 这 些 
所 有 端口 之 间 的 总 线 ， 就 需要 支撑 这 么 大 带宽 的 同时 交换 。 盘 阵 吞 吐 
量 的 决定 因素 ， 这 个 就 更 复杂 了 ， 与 10、 控 制 器 、 通 路 带宽 和 效率 、 
后 端 磁盘 类 型 和 数量 均 有 关 。 如 果 不 考虑 这 么 复杂 的 话 ， 吞 吐 量 可 以 
近似 认为 由 前 后 端 Chip 和 接口 数目 决定 。 


老 冬 ， 我 刚才 问 了 一 下 我 们 的 研发 人 员 ， 是 不 是 Sansky 的 说 法 有 
些 不 对 ， 带 宽 不 能 根据 FC 蕊 片 计 算 ? 我 们 的 研发 人 员 说 ，4G FC 孔 片 
每 秒 处 理 能 力 不 止 4G， 只 要 在 总 线 带宽 和 CPU 的 处 理 能 力 能 包含 的 范 
围 之 内 的 话 ， 就 可 以 根据 主机 接口 数 来 计算 理论 带宽 。 


不 懂 你 具体 的 意思 。4G FC 忆 片 处 理 能 力 不 止 4G， 这 个 说 法 不 太 
明白 。FC Chip 上 对 于 接口 的 编码 速度 部 分 是 严格 精密 的 ， 包 括 Timer 
和 Serdes 串 化 解 串 化 器 ， 是 严格 的 4Gb， 至 于 不 止 4Gb 的 说 法 ， 我 不 清 
楚 ， 可 以 让 研发 人 员 直 接 留言 。FC Chip 可 以 管理 多 个 口 ， 如 果 其 所 管 
理 的 多 个 口 是 共 享 的 FC Chip 的 核心 FC 处 理 逻 辑 ， 则 不 管 多 少 口 共享 
4Gb 带 宽 ， 如 果 每 个 口 各 保持 独立 ， 即 每 个 FC 处 理 核心 处 理 速 度 可 同 
时 保证 多 个 接口 同时 并 发 地 线 速 以 4Gb 速 率 独 享 带 宽 运 行 ， 则 这 样 的 


话 ， 吞 吐 量 与 接口 数量 可 以 成 正比 。 所 谓 的 4G FC Chip 处 理 能 力 不 止 
4G 的 说 法 可 能 从 此 而 来 。 


4. iSCSI 与 Windows 下 动态 磁盘 的 问题 


前 两 天 在 现场 看 到 一 奇怪 问题 ，iSCSI 存 储 直 连 windows 2003 主 
机 ， 每 次 重启 的 时 候 磁 盘 管理 下 存储 的 那 块 硬盘 都 变 为 脱 机 状态 ， 右 
键 重新 激活 后 就 能 用 了 ， 分 区 也 还 在 ， 发 现 是 动态 磁盘 的 简单 卷 。 网 
上 搜 了 一 下 ， 有 哥们 说 windows 的 Initiator 不 支持 动态 磁盘 ， 给 微软 
的 工程 师 打 电话 咨询 ， 他 当时 也 不 能 确定 ， 好 在 没什么 重要 数据 ， 得 
到 客户 许可 后 将 磁盘 设置 为 基本 磁盘 后 就 正常 了 。 哪 位 大 侠 碰 到 过 这 
种 情况 吗 ， 能 不 能 给 个 解释 ? 


MS 的 iSCSI Initiator 用 户 手 册 中 明确 指出 了 不 支持 动态 磁盘 ， 原 因 
就 是 因为 网 络 服务 加 载 晚 于 动态 卷 服 务 。iSCSI Service 加 载 太 晚 以 至 
于 动态 磁盘 管理 系统 认为 丢 盘 了 。Linux 下 的 解决 办 法 是 编辑 加 载 设 备 
的 配置 文件 表明 本 设备 属于 netdev。 不 过 MS 应 该 着 手 解决 这 个 问题 
的 。 


5. FCAL 环 路 性 能 问题 


大 多 数 人 磁盘 阵列 都 是 通过 两 个 控制 器 后 端的 端口 ， 组 成 1/2/4 条 
FC-AL 环 ， 来 连接 所 有 磁盘 。FC-AL 仲裁 环 的 协议 规定 ， 同 一 时 刻 只 
有 两 个 设备 能 传送 数据 ， 也 就 是 说 ， 在 一 条 FC-AL 环 里 面 ， 控 制 器 的 
一 个 后 端 端口 充当 了 发 起 者 的 角色 ， 环 上 的 一 个 硬盘 充当 了 目的 地 的 
角色 ， 在 一 个 时 刻 里 ， 后 端 端口 发 出 数据 读 写 指令 ， 只 有 一 个 硬盘 能 
响应 这 个 指令 并 传输 数据 。 那 是 否 就 意味 着 ， 一 条 FC-AL 环 的 总 体 性 
能 ， 取 决 于 一 个 硬盘 的 读 写 性 能 ? 1500 转 速 的 硬盘 ， 持 续 读 写 带 宽 不 


到 70MB/s，IOPS 不 到 400。 那 像 IBM DS 4800、EMC CX-80 之 类 的 ， 
总 共 4 条 环 ， 后 端的 性 能 岂 不 是 只 有 280MB/s、1600 IOPS? 除了 以 阵 
列 里 Cache 来 提高 速度 ， 我 不 知道 有 没有 别 的 办 法 ， 或 者， 磁盘 阵列 
内 部 采用 的 不 是 工业 标准 的 FC-AL? 


这 个 问题 非常 好 ， 而 且 也 非常 经 典 。 要 解释 这 个 问题 ， 需 要 明白 
点 : 


a EFCAL 的 传输 通道 的 确 同 一 时 刻 只 人 允许 两 点 间 独 占 通道 带宽 来 


传输 效 据 。 
控制 器 在 有 足够 1 请求 的 情况 下 绝对 不 会 让 通道 朵 着， 会 充分 
利用 带宽 。 


=。 位 盘 的 外 部 传输 率 和 内 部 传输 率 。FCAL 环 路 上 存在 多 个 设备 
的 时 候 ， 由 于 控制 器 的 轮 询 策略 充分 利用 带宽 ， 整 个 系统 在 外 
体现 为 一 个 永远 都 在 读 写 数据 状态 而 不 是 寻 道 状态 的 大 虚拟 设 
备 (本 书 有 描述 ) ， 一 旦 某 个 设备 需要 寻 道 ， 那 么 就 让 其 他 设 
备 来 传输 数据 来 弥补 所 浪费 的 时 隐 ， 所 以 整体 系统 可 以 发 挥 出 
一 个 单一 设备 的 内 部 传输 率 。 


当 FCAL 环 路 上 存在 多 个 设备 的 时 候 ， 控 制 器 向 某 设备 发 起 IO 之 
后 ， 该 设备 需要 一 定 的 寻 道 时 间 ， 而 此 期 间 内 AL 环 处 于 被 释放 的 状 
态 ， 此 时 控制 器 依然 可 以 向 另外 的 设备 发 起 IO， 也 就 类 似 于 先 把 该 做 
的 命令 全 部 下 发 ， 待 某 个 设备 寻 道 完成 请 求 将 数据 返回 给 控制 器 的 时 
候 ， 往 往 是 多 个 设备 都 处 于 积 失 状态 ， 也 就 是 它们 都 干 完 活 了 ， 准 备 
交差 了 ， 而 此 时 只 能 排队 一 个 一 个 来 ， 大 家 都 部 着 劲 呢 。 明 白 了 这 一 
点 ， 我 们 就 往 下 看 。 


关于 IOPS 数 值 的 矛盾 : 


IOPS 与 吞吐 量 是 一 对 矛盾 关系 。 在 关注 IOPS 的 环境 下 ，IO Size 往 
往 比 较 小 ， 因 为 只 有 较 小 的 Size 才 不 至 于 充满 带宽 达到 瓶颈 ， 所 以 ， 
要 达到 较 高 的 IOPS ，IO Size 需 要 比较 小 。 而 这 种 情况 下 控制 器 将 IO 请 
求 发送 给 设备 之 后 ， 多 个 设备 处 于 积攒 状态 ， 它 们 会 仲裁 从 而 一 个 一 
个 地 分 别 得 到 传输 数据 的 机 会 。 由 于 IO Size 很 小 ， 所 以 每 次 传输 数据 
很 快 就 结束 ， 这 样 ， 一 个 IO 就 飞快 地 完成 了 ， 而 上 一 个 设备 的 IO 完成 
之 后 ， 下 一 个 设备 接着 也 会 很 快 完 成 ， 因 为 它 已 经 处 于 积攒 状态 ， 待 
返回 的 数据 早已 在 Cache 中 准备 发 送 。 这 样 的 话 ， 这 个 整体 系统 对 外 就 
表现 为 一 个 永远 在 完成 10 而 不 需要 寻 道 的 虚拟 设备 。 而 如 果 AL 环 上 除 
了 控制 器 之 外 只 有 一 个 设备 ， 那 么 环 路 就 必须 等 待 它 寻 道 ， 因 为 寻 道 
的 时 阶 内 ，AL 环 上 已 经 没有 其 他 设备 可 工作 了 。 然 而 ，AL 环 的 这 种 
弥补 寻 道 时 隙 的 效果 也 不 是 设备 越 多 就 越 好 ， 不 同 的 设计 和 产品 都 有 
自己 不 同 的 最 佳 设 备 数 量 ， 目 前 的 经 验 值 为 64 个 ， 也 就 是 环 路 总 容量 
的 一 半 ， 超 过 这 个 值 ， 性 能 不 会 再 有 提高 ， 甚 至 有 所 下 降 。 我 们 可 以 
推论 出 另外 一 个 结论 ， 也 就 是 ， 慢 速 设 备 ， 比 如 寻 道 时 间 长 的 设备 ， 
越 是 慢 速 设 备 ， 组 成 AL 环 路 之 后 其 带 来 的 整体 提升 越 大 ; 越 是 快速 设 
备 ， 高 规格 的 设备 ， 组 成 AL 环 路 之 后 ， 提 升 的 性 能 越 有 限 。 这 就 是 
AL 环 或 者 其 他 共享 总 线 / 环 方式 弥补 设备 自身 处 理 产 生 的 时 隙 的 效 
果 。 


关于 吞吐 量 / 带 宽 值 的 矛盾 : 


经 过 上 面 的 描述 ， 我 们 已 经 对 共享 总 线 / 环 传输 方式 的 底层 机 制 以 
及 其 效用 有 了 一 个 很 好 的 理解 了 。 在 重视 和 追求 高 吞吐 量 ， 也 就 是 充 
分 利用 带宽 的 环境 下 ，1IO Size 往 往 非 常 大 ， 以 至 于 在 较 低 的 IOPS 值 下 
就 已 经 可 以 吃 满 通道 带宽 了 。 往 往 这 种 情况 下 ， 上 层 所 发 出 的 IO 都 是 


连续 大 块 的 IO， 以 至 于 AL 环 之 上 的 设备 寻 道 时 间 可 以 大 大 降低 ， 这 残 
使 得 设备 更 快 地 处 于 积攒 态 ， 准 备 向 外 发 送 数据 。 我 们 知道 磁盘 外 部 
传输 率 由 于 磁盘 内 部 不 断 换 道 被 打 断 ， 致 使 其 数值 较 内 部 传输 率 降 低 
了 大 约 20 倍 。 而 AL 环 的 效用 就 是 弥补 寻 道 所 浸 费 的 时 阶 ， 所 以 整体 系 
统 的 外 部 吞吐 量 就 被 提升 了 上 来 ， 从 而 解决 了 这 个 矛盾 。 


6. 关于 RAID 层 面 的 IO 并 发 与 Stripe Depth 的 一 系列 问题 


看 书 产生 的 疑问 ， 书 中 讲 IO 并 发 几率 的 时 候 说 , “对 于 RAID 0， 
在 两 块 硬盘 的 情况 下 ， 条 带 深度 比较 大 的 时 候 并 发 两 个 IO 的 几率 为 
1/2”， 我 理解 为 条 带 深度 比较 大 的 时 候 容易 产生 并 发 。 但 是 在 书 中 分 
析 “ 分 析 以 上 过 程 ”这 段 里 说 “在 某 种 特定 条 件 下 要 提升 性 能 ， 让 一 个 
IO 尽量 扩散 到 多 块 物理 硬盘 上 ， 要 减 小 条 带 深度 " ， 我 理解 为 扩散 到 
多 块 硬盘 才能 并 发 10 ， 要 减 小 条 带 深度 。 但 是 ， 这 两 种 说 法 是 否 矛 盾 
了 ? 可 能 是 新 手 ， 理 解 不 正确 。 


前 者 是 并 发 IO ， 后 者 不 是 并 发 TO ， 后 者 描述 的 情况 是 大 块 连续 IO 
的 情况 下 ， 数 据 适 当 分 散 有 利于 提高 传输 速度 ， 以 便 饱 和 链 路 市 宽 。 
要 IO 并 发 ， 还 是 要 单个 IO 速度 最 大 化 ? 自己 决定 。 


你 指 的 大 块 连续 IO ， 意 思 是 ， 数 据 是 同时 分 散在 Disk 1 、Disk2 
、Disk3 上 写 ， 还 是 先 写 Disk1， 完 了 再 写 Disk2。 那 如 果 是 同时 写 的 ， 
那么 它 和 并 发 IO 有 什么 区 别 ? 这 部 分 看 得 有 些 疑 惑 ， 希 望 指点 。 


间 得 很 好 。1IO 是 并 发 的 ， 如 果 分 散 的话 ， 所 有 盘 同 时 读 写 ， 当 
然 ， 如 果 用 FCAL ， 微 观 还 是 指令 顺序 被 发 出 ， 但 是 发 出 之 后 ， 磁 盘 
干 活 还 得 需要 时 间 。 这 个 间 隐 中 ， 控 制 器 就 可 以 轮流 发 送 指令 给 其 他 
硬盘 ， 脑 子 转 一 下 ， 想 想 这 个 模型 ， 转 起 来 之 后 ， 理 想 情 况 下 ， 整 个 


RAID 组 就 相当 于 一 个 磁头 永远 在 读 写 数 据 而 不 被 寻 道 所 打 断 的 大 虚拟 
磁盘 ， 这 个 书 中 也 描绘 了 。 这 样 ， 外 部 传输 率 就 能 达到 一 块 磁盘 的 内 
部 传输 率 了 ， 当 然 ， 理 论 理想 情况 下 。 


在 RAID 0 中 并 发 为 什么 条 带 深度 越 大 越 容 易 并 发 10? 并 发 IO 跟 
条 带 深度 有 什么 关系 ? 这 点 始终 理解 有 困难 。 书 81 页 的 表 中 IO 
Size/StripeSize 这 个 表达 式 是 比值 大 小 的 意思 吗 ? 呵呵 ， 书 认真 读 
了 ， 但 是 理解 有 点 困难 ， 我 想 把 前 面 的 章节 弄 清楚 点 再 读 后 面 的 会 比 
较 好 。 和 希望 老大 以 后 多 指点 。 


这 点 怪我 ， 在 原文 段落 中 没有 提前 再 次 声明 一 个 IO 到 底 是 什么 形 
式 。 一 个 IO 的 三 大 件 : 操作 类 型 、 起 始 遍 区 地 址 、 长 度 。 其 次 ，RAID 
组 上 的 虚拟 磁盘 的 LBA 地 址 是 局 部 竖 向 (Segment 内 ) 、 全 局 横向 

(Stripe 内 ) 排列 的 ， 单 盘 的 LBA 是 绝对 竖 向 排列 的 (当然 此 处 不 考虑 
盘 片 柱 面 等 物理 因素 ) 。 这 样 ， 条 带 深度 (Segment) 越 大 ， 就 可 以 同 
时 接受 多 个 IO， 越 小 ，IO 中 的 LBA 长 度 就 越 容易 跨 满 这 个 Stripe。 


又 来 提问 题 了 ， 呵 呵 。 书 中 83 页 提 到 RAID1 的 并 发 IO 不 支持 随机 
IO 关于 这 和 句 话 一 一 “ 写 IO 因 为 要 同时 向 每 块 磁盘 写 入 备份 数据 ， 所 以 
不 能 并 发 IO ， 也 不 能 分 块 并 行 ”不 太 理解 。 


呵呵 ， 每 天 来 一 问 ， 每 天 有 提高 ! 


一 句 话 : 每 个 磁盘 同一 时 刻 只 服务 于 一 个 IO ，NCQ 中 的 Out of 
Order 技 术 另 当 别 论 。 这 样 你 的 问题 就 明白 了 ， 思 考 一 下 。 


有 一 些小 疑问 。 我 们 平常 在 配置 RAID 的 时 候 ，Stripping Size 是 
预先 设置 好 的 ， 比 方 说 64KB ， 然 后 我 的 Segment Size 是 等 于 Stripping 
Size 除 以 它 所 组 成 的 数据 盘 ， 而 且 冬 的 头 也 说 到 了 Segment Size 大 小 


应 该 是 扇 区 的 整数 倍 ， 那 如 果 说 我 的 数据 盘 是 7 块 ， 那 我 的 Segment 
Size 应 该 怎么 算 啊 ? 64/7 除 不 尽 啊 ? 这 一 点 没有 看 明白 ， 老 大 能 帮 有 我 
解释 下 么 ? 谢谢 ! 


好 问题 。 首 先 ，Stripe Size 是 包含 Parity 盘 在 内 的 。 关 于 除 不 尽 的 
问题 ， 不 一 定 。 看 具体 实现 了 ， 可 能 输入 64， 则 自动 变 为 48 或 者 96， 
都 有 可 能 。 总 之 ， 看 具体 实现 。 这 一 点 我 已 经 向 某国 外 OFEM 广 商 的 研 
发 人 员 咨 询 过 ， 得 到 了 肯定 的 答复 。 现 在 一 些 机 器 都 只 给 出 设置 
Segment Size 的 接口 ， 而 且 估 计 有 些 机 器 所 谓 的 Stripe Size 其 实 就 是 


Segment Sizeo 


书 中 提 到 : IO Size /Stripe Size 较 大 ， 顺 序 IO ， 连 续 读 ， 提 升 了 N 
X 系数 倍 。 


而 随后 又 说 : 系数 =IO Size /Stripe Size...， 大 于 等 于 1。 这 里 的 
系数 为 什么 大 于 等 于 1? 应 该 是 小 于 等 于 1 吧 。 


这 里 大 于 1 小 于 1 都 可 以 ， 因 为 N 可 以 随机 。 


《大 话 存储 》P82， 读 ，IO Size /Stripe Size 较 小 ， 并 发 IO ， 随 机 
IO， 提 升 了 (1 十 并 发 系数 ) 倍 ， 这 个 1 是 怎么 来 的 ? 


这 里 1 就 是 单位 1， 起 码 要 比 1 块 磁盘 高 ， 所 以 需要 1 十 系数 。 


请 问 冬瓜 头 ， 当 IO Size 小 于 条 带 深度 的 时 候 ，RAID 0 写 数据 是 不 
是 只 写 往 一 个 磁盘 ? 为 什么 很 多 地 方 又 强调 条 带 化 时 写 数 据 是 同时 往 
所 有 的 磁盘 而 不 是 写 完 一 个 磁盘 的 Segment 再 继续 写 另 一 个 磁盘 的 ? 
如 果 是 这 样 的 话 即使 IO Size 小 于 条 带 深度 也 应 该 是 每 个 磁盘 都 写 入 一 
部 分 数据 吧 ? 看 着 有 扣 糊 涂 ， 请 指教 。 


当 IO Size 小 于 Segment Size 的 时 候 ， 这 个 IO 一 定 是 只 落 在 一 个 磁 
盘 上 了 。 同 时 向 多 个 磁盘 写 某 个 IO Data 的 情况 是 IO Size 大 于 Segment 
Size 的 时 候 。 


那 是 不 是 可 以 这 么 理解 : 写 数据 是 以 Segment 为 单位 的 ， 比 如 有 5 
个 硬盘 做 RAID 0，Segment 大 小 为 IKB， 当 一 个 IO Size 为 2KB 时 ， 它 
只 将 数据 并 行 写 入 其 中 的 两 个 磁盘 ， 而 其 他 3 个 磁盘 对 这 个 IO 是 不 起 
作用 的 ? 如 果 是 ， 数 据 是 依据 什么 寻 址 ， 即 决定 写 入 哪 两 个 磁盘 的 ? 
另外 ， 存 不 存在 一 个 IO Size 不 是 Segment 整 数 倍 的 情况 ， 此 时 数据 是 
怎么 写 入 的 ? 还 有 ， 是 不 是 所 有 RAID 条 带 化 都 是 基于 这 个 原则 ? 请 
指教 。 


那 是 不 是 可 以 这 么 理解 : 写 数据 是 以 Segment 为 单位 的 ， 比 如 有 5 
个 硬盘 做 RAID0，Segment 大 小 为 1KB， 当 一 个 IO Size 为 2KB 时 ， 它 只 
将 数据 并 行 写 入 其 中 的 两 个 磁盘 ， 而 其 他 3 个 磁盘 对 这 个 IO 是 不 起 作 
用 的 ? (是 的 ) 。 如 果 是 ， 数 据 是 依据 什么 寻 址 ， 即 决定 写 入 哪 两 个 
磁盘 的 ? (数据 逻辑 地 址 和 物理 地 址 Block 的 映射 关系 是 由 控制 器 做 以 
记录 的 ， 控 制 器 会 依据 映射 表 来 做 翻译 ， 书 中 讲 了 ， 请 仔细 阅读 。) 
另外 ， 存 不 存在 一 个 IO Size 不 是 Segment 整 数 倍 的 情况 ， 此 时 数据 是 怎 
么 写 入 的 ? 〈 存 在 ， 该 怎么 写 就 怎么 写 ，IO 最 小 单位 是 LBA 局 区 ， 也 
就 是 512B， 一 般 情况 下 。 近 年 来 吃喝 着 要 增 大 LBA 容 量 到 4KB， 尚 未 
成 型 。 记 住 ，Segment 只 是 一 个 逻辑 概念 而 已 ， 磁 盘 不 理解 Segment， 
控制 器 对 磁盘 发 起 的 实际 IO 都 是 以 一 段 连续 的 LBA 为 单位 。) 还 有 ， 
是 不 是 所 有 RAID 条 带 化 都 是 基于 这 个 原则 ? (基本 原理 类 似 ， 但 是 具 
体 实现 看 各 厂家 设计 。) 


7. 关于 “Block” 的 意义 


再 请 教 一 个 问题 ，RAID 中 的 Data Block 和 我 们 平时 做 RAID 的 时 
候选 择 的 Block Size 是 否 是 指 同一 参数 ? 


平时 做 RAID 的 时 候 的 “Block Size”， 要 看 RAID 控 制 器 厂家 如 何 定 
义 的 ， 不 同 厂家 叫 法 不 同 ， 具 体 咨 询 厂 家 。 


8. 用 Iometer 测 试 时 所 选择 的 参数 


我 用 Iometer 测 用 DELL/EMC CX 600 人 磁盘 组 建 的 RAID 5 的 
IOPS。 我 的 做 法 如 下 : 


我 在 Windows XP 上 运行 IOMETER ， 在 Linux 上 运行 dynamo， 
Linux 与 磁盘 阵列 之 间 用 FC 连接 。 我 要 测试 最 大 IOPS， 所 以 我 照 着 指 
导 书 上 说 的 调整 成 512B; 100% 读 ; 0%Random。 问 题 : (1) 这样 设 
置 对 吗 ? 磁盘 阵列 的 扇 区 大 小 应 该 也 是 512B 吧 ， 读 比 写 快 ， 顺 序 读 也 
比 随机 要 快 ， 我 觉得 应 该 对 吧 。 (2) 我 没有 设置 QD ， 所 以 我 测 最 大 
是 120000 左 右 ，EMC 官 方 说 它 的 IOPS 最 大 为 150000 左 右 ， 我 是 在 一 
个 电脑 上 运行 一 个 worker 试 过 、2 个 worker、3 个 workers。 (3) 如 果 
设置 QD ， 对 于 我 的 配置 ， 应 该 怎样 设置 ? (4) 最 后 一 个 问题 是 最 郁 
闷 的 : 我 就 那 一 天 测试 出 来 是 120000 左 右 ， 隔 了 一 天 测试 ， 今 天 测 
试 ， 最 高 才 只 有 50000 左 右 。 我 不 知道 为 什么 。 


120000 相 对 于 150000 来 说 ， 已 经 不 错 了 。 官 方 的 承诺 值 在 实际 测 
试 或 者 使 用 的 时 候 是 达 不 到 的 ， 官 方 都 是 王 婆 卖 失 自 卖 自 硅 的 。 
QueueDepth 可 以 设置 大 一 些 ， 不 过 与 底层 的 一 些 因素 也 有 关系 ，FC 卡 
就 是 一 个 主要 瓶颈 处 ， 有 的 FC 卡 写 死 了 QueueDepth， 不 管 上 面 多 大 ， 
到 了 它 这 都 得 排 着 。 多 个 worker 也 是 好 办 法 ， 增 加 并 发 度 ， 总 之 
120000 应 该 是 这 人 台 设 备 的 最 大 IOPS 了 。 关 于 你 问 的 QueueDepth 怎 么 设 


置 ， 自 己 去 找 ， 不 同 设备 不 同 设置 法 。IO 吞 吐 量 突然 降低 ， 可 以 排除 
下 列 几 个 因素 : 测试 工具 应 用 端 设置 出 问题 ，FC 卡 驱动 或 者 Firmware 
进入 不 稳 态 需要 Power Cycle， 配 置 变更 ， 外 部 存储 设备 处 理 瓶 颈 〈 通 
过 盘 阵 监控 工具 进行 监控 ) ， 网 络 传输 上 发 生 问 题 (查看 本 地 接口 及 
交换 机 状态 和 配置 ) 。 


9. RAID 5 在 一 块 盘 故 障 之 后 如 何 继续 服务 IO 的 问题 


如 果 一 个 RAID 5 在 创建 时 没有 指定 热 备 份 盘 ， 那 它 在 一 个 磁盘 失 
效 之 后 ， 能 够 继续 响应 用 户 的 读 请 求 是 很 自然 的 ， 那 它 能 否 继续 响应 
用 户 的 写 请 求 呢 ? 它 的 逻辑 地 址 空间 是 怎样 的 ? 发 到 失效 设备 上 的 写 
请 求 如 何 处 理 ? 


RAID 5 坏 一 块 盘 依旧 可 以 写 ， 坏 的 如 果 是 Parity 盘 ， 数 据 依然 完 
整 写 入 数据 盘 。 如 果 坏 的 是 数据 盘 ， 则 一 个 写 需 要 牵 一 发 而 动 全 身 
了 ， 此 时 如 果 某 IO 只 更 新 坏 Segment 的 数据 ， 则 读 改 写 Parity 计 算 公 式 
中 的 “ 老 数据 ”一 项 变 为 未 知 ， 所 以 只 能 读 出 所 有 其 他 数据 盘 的 数据 进 
行 校 验 然后 将 新 校 验 值 写 入 校 验 盘 即 可 。 这 个 问题 不 难 理解 ， 请 再 仔 
细 用 脑 思 考 。 


10. 关于 磁盘 扩展 柜上 的 IN 和 OUT 端 口 的 问题 


接触 存储 时 间 不 长 ， 问 个 小 白 问题 ， 请 入 门 的 兄弟 给 解答 下 。 控 
制 器 后 面 的 主机 端口 上 面 有 IN 和 OUT 之 分 ， 麻 烦 给 解释 下 有 什么 区 
别 。 如 果 将 控制 器 主机 端口 (IN) 与 MDC 相 连 可 以 映射 到 阵列 中 的 相 
关 LUN， 如 果 与 《OUT) 相连 则 看 不 到 磁盘 ， 这 是 为 什么 ? 


完全 看 设计 了 ， 其 实 in 和 out 都 是 连接 在 一 个 Port Bypass Circuitv 必 
片上 的 。 按 理 说 连 到 out 上 也 可 以 进入 FC Loop， 但 是 有 些 设 计 可 能 
求 必 须 接 到 in 一 条 ， 然 后 再 接 到 out 一 条 ， 就 可 以 同时 认 到 双 路 径 。 以 
上 说 的 都 是 Host 直 连 这 个 in 和 out。onut 常 规 情况 下 是 用 来 级 联 更 多 扩展 
柜 的 。 


11. 关于 磁盘 上 的 “剩余 空间 ”的 问题 


ext3 是 人 欢 所 周知 的 日 志文 件 系统 ， 在 写 一 个 文件 到 磁盘 的 空闲 区 
域 时 ， 采 用 先 写 文 件数 据 ， 再 记录 元 数据 到 日 志 ， 最 后 写 元 数据 到 磁 
盘 的 步骤 ， 这 样 可 以 保证 数据 的 一 致 性 。 但 是 如 果 文 件 系统 下 发 的 写 
请 求 是 对 非 空闲 的 磁盘 块 (以 前 已 经 有 内 容 ) 进行 更 新 呢 ? 前 面 所 述 
的 步骤 就 不 能 保证 一 致 性 了 ， 这 种 情况 下 ext3 是 怎么 处 理 的 呢 ? 


前 提 ， 所 谓 * 非 空 内 >? 和“* 空 出 ”， 是 针对 FS 来 说 的 ， 磁 盘 自身 没有 
空 内 或 者 非 空 册 。FS 既 然 决定 了 要 履 盖 某 个 文件 的 某 个 块 ， 就 证 明 原 
来 的 数据 已 经 不 需要 了 ， 此 时 窗 盖 也 无 妨 。FS 是 通过 bitmap 来 记录 磁 
盘 上 哪个 扁 区 为 空间 ， 哪 个 正 被 文件 占用 的 。 如 果 覆 盖 到 一 半 ， 
MetaData 未 写 入 ， 此 时 依然 是 一 致 的 ， 因 为 bitmap 尚 未 更 新 ， 标 记 的 
这 个 扇 区 依然 是 空 朵 的 ， 虽 然 扇 区 中 实际 数据 变化 了 一 半 。 如 果 楼 主 
理解 的 “一 致 ? 是 业务 层 的 一 致 ， 那 融 是 不 一 致 ， 文 件 没有 被 真正 写 
入 ， 此 时 上 层 应 该 报错 提示 程序 写 入 不 成 功 ， 或 者 不 报错 ， 看 需求 。 
但 是 此 时 FS 是 一 致 的 ， 也 就 是 FS 不 需要 fsck。 


12. 关于 实际 磁盘 阵列 产品 使 用 FC Class Service 的 问题 


FC 协议 文档 提 到 : FC 仅 提供 了 错误 检测 手段 ， 但 大 多 数 情况 下 
FC 只 是 将 检测 到 的 异常 上 报 给 ULP ， 是 否 重 传 、 重 传 哪些 数据 由 ULP 


决定 。 分 Class 级 别 的 ， 有 的 Class 就 提供 重 传 ， 有 的 则 不 提供 。 确 实 
是 这 样 ， 文 档 中 提 到 ， 由 于 SCSI 提 供 了 重 传 机 制 ， 因 此 SCSI over FC 
时 ， 一 般 采 用 Class 3 (无 ACK) 。 但 文中 用 括号 写 了 这 么 一 句 : In 
actual SCSI operation ， class 3 is used for simplicity of 
implementation。 其 中 simplicity 让 人 生 疑 : Class 3 只 是 一 种 简化 方 
案 ， 真 正 运营 时 会 采用 Class 3 吗 ? 


看 情况 了 ， 据 我 所 知 某 阵 列 使 用 的 确实 就 是 Class3， 而 且 我 推断 
其 他 阵列 几乎 也 都 会 使 用 Class 3， 因 为 SCSI 已 经 有 了 机 制 ， 疫 有 必要 
外 壳 层 再 多 此 一 举 了 。 


13。 关 于 Cache Mirror 测 试用 例 的 问题 


双 控 ， 支 持 Cache Mirror。 请教， 如 何 设计 测试 Cache Mirror 功 
能 的 测试 用 例 ? 还 有 一 个 问题 : 存储 控制 器 的 Cache 一 般 是 单独 的 
Memory 还 是 从 整个 系统 的 Memory 中 分 配 一 部 分 来 做 Cache? 


设置 控制 器 向 磁盘 Flush 的 频率 到 最 低 ， 然 后 测试 机 发 起 突 发 大 量 
IO， 期 间 人 为 Down 掉 目标 控制 器 ， 然 后 检查 磁盘 上 是 否 成 功 写 入 了 数 
据 ， 成功， 则 有 效 ， 不 成 功 ， 则 Mirror 出 现 问 题 。 这 里 还 有 个 问题 ， 
取决 于 控制 器 的 设计 ， 如 果 某 个 IO 恰好 断 在 控制 器 尚未 返回 ack 给 测试 
机 ， 则 另 一 个 控制 器 是 否 可 以 继续 保留 状态 而 返回 ack? 如 果 不 保留 ， 
则 程序 应 当 报 错 ， 检 查 此 IO 的 上 一 个 IO 是 否 成 功 ， 成 功 ，Mirror 有 
效 ， 不 成 功 ， 有 问题 。 


谢谢 冬瓜 头 ! 有 两 个 问题 (1) 存储 控制 器 为 何 没 有 调整 Flush 
频率 的 选项 ? (2) 测试 机 写 数 据 的 时 候 应 该 复制 多 大 的 文件 为 好 ? 用 
IOmeter 这 样 的 工具 写 数 据 不 太 合 适 吧 ? 


IOmeter 写 了 什么 你 不 清楚 ， 如 何 检查 ?得 自己 写 测试 程序 。 最 好 
是 写 小 东西 ， 比 如 每 次 一 个 LBA， 其 中 包含 容易 识别 的 二 进 制 。 


即使 自己 写 了 程序 ， 怎 么 验证 硬盘 中 的 文件 是 通过 Cache 写 进去 
的 ， 还 是 通过 Cache Mirror 写 进去 的 ? 


同一 时 刻 发 送 大 量 IO， 控 制 | 器 缓存 不 会 立刻 写 到 磁盘 ， 此 时 Down 
掉 这 个 控制 器 ， 另 一 个 会 接着 写 ， 过 一 段 时 间 就 去 读 出 来 验证 。 你 再 
仔细 想 想 Mirror 的 基本 原理 。 


哦 ， 另 一 个 接着 写 是 关键 ， 这 样 写 完 后 ， 过 一 段 时 间 读 出 来 验 
证 ， 如 果 文 件 不 完整 ， 就 说 明 mirror 有 问题 。 我 这 边 主要 是 没有 考虑 
要 结合 多 路 径 来 测试 ， 如 果 没 有 配置 LUN 多 路 径 ， 一 个 控制 器 Down 
掉 了 ， 读 写 就 停止 了 。 另 外 ， 因 为 有 你 说 的 “恰好 断 在 一 个 IO 还 没有 
返回 ack 之 前 ”， 所 以 需要 用 文件 复制 测试 可 能 有 问题 ， 而 需要 自己 写 
LBA 的 小 工具 ， 对 吧 ? 


其 实 写 文件 也 不 是 不 可 以 ， 只 是 可 控 性 不 好 。 写 入 大 量 小 文件 ， 
Down 机 瞬间 到 底 写 了 哪 一 些 ， 你 不 知道 。 


可 以 写 一 个 大 文件 吧 ， 比 如 说 压缩 的 RAR 文件 ， 如 果 Mirror 出 了 
问题 ， 那 么 在 读 出 来 验证 的 时 候 ， 解 压 RAR 文件 肯定 会 有 问题 ; 但 是 
如 果 读 出 来 的 RAR 文件 解压 没 问题 ， 那 是 否 能 说 明 Mirror 一 定 没 有 问 
题 呢 ? 


写 大 文件 很 有 可 能 触发 控制 器 的 连续 写 盘 动作 ， 就 测 不 出 来 了 。 


Carlhewei (一 哥 卡 尔 ) 说 道 : 使 用 “小 文件 ”有 更 大 的 机 会 去 测 
试 ， 大 文件 的 话 Cache Destage 可 能 会 太 快 而 做 不 成 有 效 测 试 。“ 小 文 


件 ” 可 能 不 是 个 好 名 词 ， 正 确 的 应 该 是 : 自己 写 一 个 工具 ， 对 象 是 裸 设 
备 ， 对 指定 的 起 始 LBA 写 入 Data Pattern， 比 如 从 LBA 1~2 之 间 写 A， 
LBA 2~4 之 间 写 B。 有 了 工具 后 ， 就 是 选 址 写 Data Pattern。 选 址 尽量 
拉 远 并 且 随 机 ， 每 次 写 一 块 。 你 的 工具 可 以 把 发 出 的 LBA、Data 
Pattern 和 大 小 记录 到 log 里 。 然 后 用 冬瓜 的 方法 ， 可 以 Hard Reset 
Controller (就 是 像 断 电 一 样 的 Shutdown， 但 是 不 用 拔 出 来 ) ， 然 后 根 
据 log 把 数据 读 出 来 对 比 。 


14. 冷 热 插 拔 与 Rebuild 


请 教 下 各 位 ，RAID 5/0 十 1 是 否 支 持 在 Normal 状 态 下 ， 切 断 电 
源 ， 更 换 Disk (RAID 5 ldisk 、RAID0 十 1less than 1 pair) ， 然 后 
power up ， 这 两 种 阵列 是 否 支持 这 样 的 冷 插 拔 的 recoverresyncing? 
恢复 机 制 是 怎样 的 ? 


冷 插 拔 和 热 插 拔 一 样 ， 起 来 之 后 便 会 rebuild。 
15. 如 何 实现 RAID 的 动态 扩容 ? 


(1) TFTP 能 否 支 持 跨 网 段 的 传输 ? (PS: 今天 测试 了 好 半天 ， 
最 后 发 现 貌 似 不 行 ， 但 是 也 没有 搜 到 相关 的 官方 说 法 。) 


(2) 假设 一 个 RAID 01 由 四 块 100GB 的 磁盘 组 成 ， 用 一 个 150GB 
的 大 容量 盘 更 换 其 中 的 一 块 磁盘 ， 等 重建 完成 ; 然后 更 换 第 二 块 磁 
盘 ， 再 等 重建 完成 .….. 依 次 更 换 四 块 磁盘 容量 为 150GB 的 新 盘 。 这 样 
第 四 块 盘 在 开始 重建 过 程 中 会 不 会 和 前 面 的 三 块 盘 没 有 条 带 化 的 50GB 
组 成 条 带 (因为 现在 四 个 盘 都 已 经 是 150GB 了 ) ? 简 而 言 之 ， 如 何 实 
现 RAID 的 动态 扩容 ? 


TFTP 基 于 TCPIP， 除 非 这 个 协议 必须 用 到 广播 ， 否 则 怎么 不 可 能 
不 支持 跨 网 段 ， 只 要 IP 能 Ping 通 ，TFTP Server 起 来 ， 就 可 以 。 (好 像 
有 些 说 法 认为 某 些 TFTP 软 件 使 用 ARP 广 播 ， 致 使 不 能 跨 广播 域 。) 


第 二 个 问题 完全 看 RAID 控 制 器 的 实现 方式 了 ， 传 统 上 50GB 是 浪 
费 了 。 但 是 不 排除 有 些 控制 器 的 算法 不 同 ， 能 利用 起 这 50GB。 由 于 是 
一 块 一 块 地 替换 的 ， 所 以 多 出 来 的 区 域 的 条 带 可 能 是 不 连续 的 ， 不 管 
怎么 说 ， 具 体 算法 ， 还 是 设计 者 说 了 算 。 如 果 是 校 验 型 RAID， 想 利用 
起 多 余 的 空间 ， 就 需要 将 最 大 的 盘 作 为 校 验 盘 以 便 容纳 随后 加 入 的 
盘 ， 如 果 加 入 更 大 的 ， 则 最 大 的 盘 顶 替 当前 校 验 盘 ， 这 样 就 可 以 继续 
容纳 随后 加 入 的 盘 了 。 


在 这 里 多 说 两 句 。RAID 组 扩容 后 的 数据 分 布 有 两 种 处 理 方式 : 一 
是 Redistribute， 二 是 Append。 前 者 ， 在 新 盘 加 入 RAID 组 之 后 ， 控 制 器 
立即 将 组 中 原来 磁盘 尾部 的 数据 读 出 来 写 入 新 加 入 的 盘 ， 重 算 Parity， 
平衡 数据 分 布 ， 所 以 叫 Redistribute ， 很 耗费 资源。 后 者 ， 新 盘 加 入 
RAID 组 中 之 后 ， 控 制 器 不 做 任何 额外 的 数据 迁移 操作 ， 而 只 是 在 逻辑 
和 物理 地 址 对 应 表 中 作 变 更 ， 相 当 于 在 RAID 组 中 插入 了 一 个 一 个 的 
Segment 人 碎片 ， 逻 辑 上 ， 这 块 新 加 的 盘 的 空间 被 追加 的 逻辑 地 址 的 尾 
部 ， 而 物理 上 却 是 琐碎 的 不 连续 物理 空间 。 随 着 前 端 1O 向 这 块 逻 辑 尾 
部 空间 的 持续 写 入 ， 控 制 器 会 根据 地 址 映射 表 将 新 数据 写 到 对 应 的 物 
理 空 间 中 ， 也 就 是 前 者 牺牲 了 一 时 的 性 能 来 保证 地 址 依然 是 规则 连续 
映射 的 ， 从 而 保障 了 后 期 性 能 ; 而 后 者 则 是 在 潜移默化 中 对 后 期 的 性 
能 造成 了 一 定 的 影响 。 


16. 流 媒 体 服务 器 使 用 何 种 存储 协议 的 问题 


应 用 : 流 媒 体 服 务 ， 流 媒体 处 理 模 块 和 存储 介质 物理 上 分 开 ， 前 
者 在 单 板 A， 后 者 在 单 板 B， 二 者 通过 以 太 网 总 线 连 接 ， 高 带宽 (大约 
在 10~20Gbps) ， 且 需要 保证 传输 可 靠 性 。 问 题 A、B 之 间 应 该 采 
用 何 种 存储 协议 ? 


我 的 想法 如 下 。 
方案 一 : iSCSI 
优点 : 标准 主流 协议 ， 可 扩展 性 好 ， 对 以 太 网 没有 特殊 需求 。 


缺点 : TCP/P 协 议 开 销 较 大 ， 为 保证 高 带宽 ， 需 要 TOE 技 术 ， 成 
本 较 高 。 


方案 二 : FCoE 
优点 : 不 甚 了 解 。 


缺点 : FCoE 与 CEE 均 未 完全 标准 化 ， 即 使 标准 化 ， 对 以 太 网 有 
额外 需求 〈 需 支持 CEE? ) 。 


方案 三 : SCSI over Ethernet 

优点 : 简单 ? 

缺点 : 小 众 标准 ， 不 知 成 熟 度 如 何 。 
SCSI over Ethernet， 目 前 有 产品 么 ? 


个 人 理解 ，FCoE 的 成 本 主要 集中 在 : 


(1) EC 协议 处 理 芯片 〈 能 否 用 CPU 完成 ? ) ; 
(2) 普通 千 兆 或 万 兆 以 太 网 卡 。 


用 哪 种 协议 ， 真 不 好 说 ， 得 实测 才 行 。File 协 议和 Block 各 有 优 缺 
点 。 不 过 本 质 受 限于 底层 链 路 ， 差 不 太 多 。 目 前 FCOE 还 不 知道 是 不 
是 县 花 一 现 的 东西 。 另 外 如 果 单 纯 为 了 FCOE 而 FCOE 的 话 ， 没 有 意 
义 。 如 果 原 来 系统 中 有 FC 的 SAN ， 现 在 想 融合 到 以 太 网 中 而 且 有 人 迫切 
需求 ， 那 可 以 考虑 。 不 过 ， 目 前 FCOE 都 是 使 用 专门 的 适 配 卡 和 专门 
的 交换 机 ， 与 传统 以 太 网 根本 不 可 互 操作 ， 目 前 实际 主要 应 用 于 大 型 
运营 商 ， 准 备 同 时 投入 高 速 以 太 网 与 存储 网 络 的 ， 可 以 在 适配器 、 布 
线 、 交 换 机 方面 成 本 有 所 节省 ， 离 行业 市 场 客户 还 差 很 远 。 16 口 
8Gbps FC 交换 机 也 就 两 万 多 元 一 台 ， 一 台 同 样 口 数 的 10Gbps 的 FCOE 
交换 机 ， 贵 了 去 了 。 但 是 对 于 运营 商 那 种 大 型 模块 化 交换 机 来 讲 ， 
FCOE 交 换 机 由 于 融合 了 两 种 网 络 ， 反 而 比 单独 为 每 种 网 络 都 配 一 台 
交换 机 要 便宜 了 。 


17. FC 是 否 可 以 使 用 主机 CPU 模 拟 的 问题 


想 外 接 FC SAN， 主 机 是 否 必须 配置 FC HBA 卡 ， 还 是 可 以 用 主机 
CPU 模 拟 ? 


若 能 模拟 ，CPU 开 销 是 否 很 大 ? 


模拟 不 了 。 起 码 要 有 张 FC 卡 ， 软 硬 不 说 ， 接 口 起 码 得 有 ， 而 且 FC 
的 链 路 层 Frame 同 步 ， 提 取 功 能 要 有 ， 其 他 上 层 人 逻辑 可 以 用 CPU 模 拟 。 


Oooops， 我 的 问题 描述 有 误 ， 应 该 是 : FCoE 中 ，FC-2 帧 通过 以 
太 网 承载 ，FC 协 议 处 理 能 否 用 主机 CPU 实现 ? 按照 冬瓜 头 的 解释 ， 我 


理解 此 时 FC-2、FCoE Mapping 属 于 < 上 层 逻 辑 ”， 可 以 通过 CPU 实现 
的 。 


这 样 的 话 是 可 以 的 ， 而 且 我 推测 很 可 能 一 开始 某 些 FCOE 卡 大 部 
分 逻辑 束 运 行 在 其 驱动 程序 中 。 


18. Stripe 与 Block 的 关系 


在 创建 RAID 的 时 候 ， 会 让 你 选择 Stripe Size 以 及 Block Size， 
Block Size 跟 所 创建 RAID 容 量 超过 2TB 后 被 主机 识别 有 关系 。Sstripe 以 
及 Block 什 么 关系 没有 ? 最 好 是 有 个 结构 图 可 以 说 明 一 下 啊 。 


不 知道 具体 哪个 设备 ， 一 般 来 讲 Block Size 是 存储 内 部 对 磁盘 读 写 
的 二 级 单位 。 Stripe Size 是 RAID 横 跨 所 有 RAID 组 磁盘 的 逻辑 单元 。 要 
说 有 联系 的 话 ，Stirpe Depth 的 最 小 单位 就 是 一 个 Block， 除 了 Block， 
还 有 多 种 其 他 被 定义 的 概念 比如 Chunk、Segment、Slice 等 ， 与 各 个 三 
家 设计 和 定义 有 关 ， 需 要 去 看 厂家 的 白皮书 。 


另外 ， 著 名 的 windows 操 作 系 统 2TB 极 限 问 题 ， 是 说 MBR 分 区 格 
式 下 最 大 分 区 2TB ， 而 不 是 说 系统 只 能 认 最 大 磁盘 2TB ， 磁 盘 可 以 认 
到 很 大 ， 只 要 注册 表 中 打开 48b 寻 址 模式 即 可 。 解 决 办 法 是 使 用 GPT 分 
区 或 者 动态 磁盘 。 而 且 ，Block Size 与 这 个 问题 无 关 。 


19. Loop 与 RAID 


如 果 是 阵列 里 的 Loop 架 构 ， 那 么 RAID 如 何 工 作 呢 ? 如 何 保证 多 
块 硬盘 同时 读 写 呢 ? 还 有 就 是 这 个 LOOP 如 何 收 敛 呢 ? 冬瓜 兄 ， 我 理 
解 LOOP 的 原理 是 一 个 节点 占用 后 需要 完成 操作 再 释放 令 牌 ， 磁 盘 干 


活 不 就 是 磁盘 读 写 和 传输 么 ， 总 得 让 它 一 次 LO 操作 结束 才 释 放 令 牌 
吧 ， 其 他 磁盘 岂 不 是 得 等 着 ? 呵呵 ， 不 知道 理解 是 否 正确 ， 恭 听 各 位 
高 见 。 


请 求 发 过 去 ,磁盘 总 得 干 活 吧 ， 干 活 的 时 间 ， 其 他 盘 也 给 了 任务 
了 ， 就 像 boss 一 样 ， 不 让 人 闲 着 ， 闪 着 成 本 就 高 ， 一 个 道理 。 呵 呵 ， 
仲裁 权 不 是 这 么 弄 的 ， 仲 裁 不 是 一 个 Session。 一 个 写 操作 底层 对 应 着 
多 个 Frame， 每 次 党 试 发 送 一 个 Frame， 都 要 仲裁 ， 而 不 是 仲裁 一 次 等 
这 个 IO 完 成 的 。 每 个 Frame 都 要 仲裁 ， 这 样 才 能 保证 其 他 设备 不 被 饿 
死 ， 如 果 是 Session 的 话 ， 早 就 被 饿 死 了 ， 有 Session 的 那 是 更 加 上 层 的 
协议 ， 比 如 TCP， 底 层 需 要 做 的 是 充分 保证 拓扑 上 每 个 点 的 公平 性 。 
另外 ， 以 太 网 也 是 每 Frame 都 要 进行 CSMA 的 ， 而 且 估计 你 也 不 知道 网 
卡 每 收 到 一 个 Frame， 都 要 中 断 CPU 来 执行 驱动 程序 提取 这 个 Frame 中 
的 上 层 Payload， 这 里 顺便 告诉 你 一 下 。 


20.RAID 初 始 化 的 问题 


能 详细 说 明 下 ， 做 了 初始 化 再 使 用 RAID 的 好 处 吗 ? 


与 实现 方法 有 很 大 关系 。 如 果 所 有 磁盘 在 加 入 RAID Group 前 都 预 

处 理 过 ， 则 不 需要 初始 化 。 如 果 没 有 预 处 理 比如 以 前 用 过 的 磁盘 而 没 
清 零 直接 加 入 RAID Group， 则 需要 初始 化 。 有 两 种 方式 : 前 台独 占 
性 初始 化 ， 后 台 初 始 化 。 前 者 初始 化 结束 之 前 不 能 接受 IO。 而 后 者 可 
以 一 边 接受 IO 一 边 初 始 化 ， 但 是 后 者 对 IO 的 性 能 有 很 大 影响 ， 控 制 器 
会 在 后 台 连 续 地 对 所 有 条 带 初 始 化 清 零 操作 ， 或 者 读 取 所 有 数据 盘 上 
的 数据 进行 校 验 并 将 校 验 值 写 入 Parity 盘 ， 视 不 同 设计 而 定 。 期 间 一 旦 
遇 到 上 层 下 发 的 写 IO， 则 临时 跳跃 到 对 应 的 条 带 进行 操作 ， 完 成 后 再 
转 回 来 继续 。 写 IO 刷 盘 之 前 如 果 对 应 的 目标 条 带 尚 未 初始 化 过 ， 那 么 


控制 器 会 直接 在 内 存 中 就 计算 好 这 个 条 带 的 内 容 然 后 整 条 写 ， 这 个 整 
条 中 包括 此 写 IO 的 数据 Segment， 其 他 磁盘 的 全 0 的 Segment 以 及 计算 
好 的 Parity Segment。 对 于 RAID 初 始 化 的 详细 描述 本 附录 后 文 还 有 。 


你 的 书 上 说 初始 化 有 两 种 情况 : 一 种 是 对 所 有 的 盘 全 部 写 0; 另 一 
种 是 保持 原来 的 数据 ， 只 是 写 入 校 验 位 。 我 这 碰 到 的 应 该 是 第 二 种 情 
况 ， 好 像 没 多 大 必要 都 写 0。 还 有 就 是 我 这 的 RAID 5 不 初始 化 也 是 可 
以 用 的 ， 是 不 是 对 性 能 上 或 者 安全 上 有 影响 啊 ? 还 望 再 解释 一 下 ， 非 
常 感谢 ! 


凡是 没有 写 0， 拿 了 盘 就 加 入 RAID Group 并 且 立 即 可 以 使 用 的 ， 
属于 后 台 初 始 化 ， 性 能 会 受到 影响 ， 因 为 写 入 的 时 候 它 有 必要 读 出 必 
需 的 部 分 来 进行 校 验 ， 几 乎 都 是 全 条 带 读 出 校 验 ， 所 以 这 个 时 候 ， 
RAID 5 写 惩罚 将 达到 最 大 。 


写 的 时 候 为 什么 还 要 读 出 以 前 的 旧 数 据 来 校 验 啊 ? 直接 写 入 对 应 
的 扇 区 不 就 可 以 吗 ? 还 望 再 解释 一 下 ， 很 想 搞 懂 它 的 具体 过 程 ， 谢 
谢 。 


请 先 理解 校 验 型 RAID 写 入 时 候 的 具体 动作 。 直 接 写 ， 其 他 什么 都 
不 干 ? 那 还 叫 RAID 5 么 ， 那 不 RAID 0 了 么 。 未 初始 化 的 RAID 5， 其 
校 验 值 根本 就 是 不 匹配 的 ， 因 为 盘 是 拿 来 就 用 的 ， 上 面 的 数据 均 未 清 
零 ， 写 入 某 个 块 ， 就 需要 读 出 整个 条 带 上 其 他 所 有 块 来 共同 进行 校 
验 ， 并 写 入 正确 的 校 验 值 。 这 个 条 带 校 验 完毕 后 ， 如 果 再 有 写 IO 针 对 
这 个 条 带 ， 那 么 就 按照 正常 RAID 5 写 入 时 候 的 动作 。 具 体 请 参考 《大 
话 存储 》， 仔 细 思 考 。 


21. 热点 盘 是 什么 东西 


存储 中 他 们 说 的 热点 盘 是 啥 意思 ? 


热点 盘 就 是 几乎 每 次 IO 都 会 读 写 的 那个 盘 。 比 如 RAID 4 中 的 校 验 
盘 ， 每 次 写 IO 无 一 例外 均 会 读 写 这 个 校 验 盘 ， 使 得 这 个 盘 的 速度 成 为 
瓶颈 ， 而 且 也 容易 疲劳 而 损坏 。 除 了 RAID 机 制 比如 RAID 4 导致 的 不 
可 避免 的 热点 之 外 ， 其 他 因素 ， 比 如 某 个 应 用 程序 长 时 间 不 停 地 读 写 
某 个 盘 ， 而 系统 中 其 他 的 磁盘 则 相对 空 内 ， 则 这 个 频繁 读 写 的 盘 相 比 
于 其 他 盘 也 是 热点 盘 。 比 如 数据 库存 放 日 志 的 盘 ， 相 对 于 存放 数据 文 
件 的 磁盘 ， 就 是 热点 盘 。 


如 何 解 决 热 点 盘 的 瓶颈 呢 ? 


避免 用 RAID 4， 将 需要 频繁 读 写 的 盘 放 在 RAID 0/RAID 10/RAID 
5 之 上 ， 使 这 种 潜移默化 的 损害 平衡 到 多 个 物理 磁盘 上 ， 降 低 每 盘 损坏 
的 几率 和 提高 IO 性 能 。 其 次 ， 合 理 设 计 应 用 程序 。 


22. 如 何 放 置 数据 文件 的 问题 


Oracle 的 库 ， 其 中 一 个 2TB， 一 个 2.6TB， 对 应 数据 和 索引 文件 ， 
从 Oracle 的 性 能 来 ， 最 好 能 放 到 不 同 的 10 上 。Wwindows Server 2003 目 
前 使 用 存储 ，RAID 0 十 1 后 总 空间 是 5TB 多 ， 当 前 这 种 方案 整个 做 
RAID 0 十 1， 然 后 在 windows 中 分 两 个 区 ， 分 别 放 数 据 和 索引 。 我 的 
想法 ， 能 否 在 存储 上 分 别 做 两 个 RAID 0 十 1， 在 windows 上 被 认 成 两 
个 不 同 的 物理 盘 ? IO 性 能 更 好 一 点 ， 这 点 能 实现 吗 ? 不 清楚 存储 的 原 
理 ， 这 样 做 性 能 是 否 更 好 一 些 ? 


后 者 更 好 一 些 。 如 果 做 成 一 个 大 的 RAID Group ， 数 据 和 索引 的 IO 
会 有 冲突 ， 只 能 排队 ， 但 好 处 是 空间 分 配 灵 活 。 打 成 两 个 RAID 


Group， 各 自 就 有 了 专用 盘 ， 在 RAID 这 一 级 上 就 不 会 冲突 ， 但 是 在 底 
层 比如 FCAL 上 依然 是 冲突 的 ， 但 这 是 无 法 避免 的 。 一 个 例外 就 是 两 
个 RAID Group 的 盘 分 属 不 同 的 Loop ， 就 不 会 在 Loop 这 层 冲 突 ， 但 是 依 
然 会 在 FC 控 制 器 处 有 冲突 的 可 能 。 比 如 同一 个 FC Chip 管 理 共 享 的 多 
个 AL 环 ， 避 人 免 方法 就 是 使 用 每 Loop 独 立 FC Chip 的 卡 。 然 而 FC Chip 这 
一 层 可 以 解决 ， 但 是 再 下 一 层 也 就 是 IO 总 线 这 一 层 ， 依 然 可 能 冲突 ， 
比如 多 个 AL 环 多 个 Chip 多 个 FC 卡 同 处 一 个 IO 总 线 ， 避 免 方法 是 让 其 
分 属 不 同 的 总 线 。 再 往 下 就 是 CPU 冲突 ， 避 免 方法 使 用 多 核 的、 前 端 
口 的 共享 等 。 顺 带 说 了 一 大 堆 ， 呵 呵 。 


23.RAID 10 和 RAID 5 的 详细 对 比 


RAID 10 和 RAID 5 相 比 ， 哪 个 性 能 比较 高 呢 ? 


RAID 10 上 RAID 5 在 读 方面 稍微 强 了 一 点 点 ， 但 是 强 的 这 一 点 点 
并 不 是 因为 数据 被 镜像 了 所 带 来 的 ， 而 是 因为 RAID 5 比 RAID 10 多 了 
一 个 Parity 盘 ， 无 法 接受 用 户 数据 IO。 我 们 来 举 个 例子 如 何 。8 块 盘 。 


RAID 10 
11223344 
55667788 
RAID 5 
1234567P 
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有 12345678 这 四 个 数据 放 在 这 个 8 盘 RAID 10 上 ， 而 8 盘 的 RAID 
5， 则 是 1234567P，P 代 表 parity。 先 来 看 随机 小 块 IO ， 比 如 上 层 发 来 这 
样 一 组 IO ， 读 1， 然 后 3、2、4、8、5、7， 此 时 ， 抛 开 FCAL 底 层 不 
讲 ，RAID 10 之 上 可 以 并 发 这 8 个 IO 的 ， 每 个 盘 处 理 一 个 IO ， 此 时 
RAID 5 之 上 只 能 并 发 7 个 IO ， 也 就 是 1234567， 废 了 一 个 P 盘 。 所 以 说 
读 方面 ，RAID 10 的 性 价 比 远 不 如 RAID 5。 


再 来 看 写 方面 ， 同 样 是 上 面 的 RAID 组 ，RAID 10 上 ， 抛 开镜 像 过 
程 是 异步 还 是 同步 ， 全 部 按照 同步 镜像 来 算 ， 也 就 是 说 写 入 一 块 盘 则 
必须 同步 写 入 另 一 块 盘 。 假 设 上 层 某 时 刻 发 来 一 组 写 IO，1、6、3、 
4、5、7、8，RAID 10 可 以 并 发 的 IO 只 有 4 个 ， 也 就 是 永远 等 于 磁盘 总 
数 除 以 2。 再 来 看 RAID 5， 同 样 这 组 IO ， 其 可 并 发 的 是 1 一 7， 构 成 整 
条 写 ， 写 效率 大 大 高 于 RAID 10 了 。 这 个 例子 貌似 对 RAID 10 不 公平 ， 
我 们 先 来 看 单一 Segment 的 IO 行为 。 单 个 Segment 写 的 情况 下 ，RAID 
10 之 上 会 产生 两 个 实际 Segment 的 IO ， 而 RAID 5 则 对 应 了 两 个 读 和 两 
个 写 的 IO， 比 RAID 10 多 了 两 个 读 。 如 果 是 两 个 Segment 的 IO ， 比 如 
1、2， 则 RAID 10 对 应 了 4 个 写 操 作 ，RAID 5 此 时 采用 了 读 改写 ， 即 3 
个 读 3 个 写 ， 比 RAID 10 多 了 3 个 读 ， 少 了 一 个 写 。 依 此 类 推 ，3 个 IO 情 
况 下 ，RAID 10 是 6 个 写 ，RAID5 则 是 4 个 读 ，3 个 写 ， 比 RAID 10 少 了 3 
个 写 ， 多 了 4 个 读 。 至 此 ，RAID 5 已 经 达到 读 改 写 和 重 构 写 持平 态 ， 
IO 再 多 可 以 实现 重 构 写 ， 极 端 态 下 可 以 实现 整 条 写 。 显 然 ， 重 构 写 和 
整 条 写 就 比 RAID 10 高 效 多 了 。 


然而 ， 上 述 结 果 是 基于 小 范围 的 随机 ， 也 就 是 一 批 ITJO 很 大 几率 都 
分 布 到 同一 个 条 带 中 。 如 果 上 层 的 随机 IO 离散 度 过 大 以 至 于 分 布 到 同 
一 个 条 带 的 几率 大 大 降低 ， 此 时 ，RAID 10 的 优势 凸显 ， 因 为 不 管 IO 
离散 度 如 何 ，RAID 10 始 终 可 以 并 发 半数 磁盘 数 的 JO。 而 RAID 5 此 时 


就 要 磁 运 气 了 ， 可 并 发 几率 大 大 降低 ， 此 时 RAID 5 性 能 与 RAID 10 相 
比 就 差别 比较 大 了 。 


综 上 所 述 ， 相 同情 况 下 ，RAID 5 的 写 操作 总 是 小 于 等 于 RAID 10 
写 操作 ， 而 读 操 作 总 是 大 于 RAID 10， 在 高 度 随机 写 IO 的 情况 下 ， 
RAID 5 读 改 写 的 几率 最 大 ， 所 以 相 比 RAID 10 多 出 了 很 多 读 操作 ; 而 
在 随机 性 不 太 高 并 且 并 发 几率 比较 高 的 情况 下 ，RAID5 重 构 写 甚至 整 
条 写 的 几率 大 大 增加 ， 此 时 RAID 5 效率 与 RAID 10 接 近 。 加 上 读 操作 
比 写 操作 成 本 和 效率 更 低 ， 而 且 如 果 考 虑 入 Cache 的 预 读 效 果 加 成 ， 总 
体 来 讲 RAID 5 与 RAID 10 实 际 使 用 中 ， 在 小 范围 随机 IO 的 情况 下 效果 
差别 不 是 很 大 ， 如 果 考 虑 性 价 比 ， 首 选 RAID 5。 如 果 写 IO 离散 度 过 
大 ， 此 时 RAID 5 性 能 下 降 就 比较 厉害 了 。 优 化 的 控制 器 会 平衡 IO 
Queue 的 大 小 ，Queue 越 大 ， 就 有 更 大 的 几率 优化 成 并 发 1O ， 但 是 延迟 
和 开销 却 越 大 ; Queue 越 小 ， 优 化 成 并 发 IO 的 几率 越 小 ， 然 而 开销 和 
延迟 就 越 小 。 


24. 磁盘 数量 太 多 的 RAID 组 ， 有 什么 优 缺 点 


磁盘 数量 太 多 的 RAID 组 ， 有 什么 优 缺 点 ? 


一 个 RAID 组 中 的 磁盘 数量 越 多 ，IO 性 能 就 越 高 。 当 然 控制 器 起 到 
至 关 重 要 的 作用 ， 有 些 控制 器 的 硬件 规格 不 能 承受 太 多 磁盘 同时 IO， 
总 有 上 限 。 通 常情 况 下 ， 一 个 RAID 组 推荐 磁盘 数量 为 8 一 14 块 。 磁 盘 
太 多 也 有 和 缺点， 比如 扩展 性 差 ， 因 为 RAID 组 一 旦 创建 完成 就 不 可 以 别 
除 其 中 磁盘 ， 拔 掉 任 何 一 块 磁盘 ， 便 处 于 降级 状态 ， 危 险 增加 ， 必 须 
插入 新 磁盘 来 顶替 。 所 以 创建 RAID 组 是 不 可 逆 过 程 ， 如 果 一 次 就 用 了 
太 多 人 磁盘， 今后 余地 就 很 少 了 ， 尤 其 是 拥有 磁盘 数量 不 多 的 情况 下 。 
还 有 一 个 缺点 ， 就 是 Rebuild 过 程 会 很 长 ，Rebuild 需 要 读 出 整个 条 惠 的 


数据 ， 如 果 磁 盘 数量 太 多 ， 则 Rebuild 时 间 会 严重 增加 ， 系 统 不 堪 重 
负 。 


~ 


25. 多 主机 共享 LUN 的 问题 


我 们 公司 用 HP-MSA2000 人 磁盘 柜 存储 8TB 的 数据 ， 有 三 台 Dell 的 
1950 服 务 器 (操作 系统 为 Centos) 访问 这 个 存储 柜 ， 存 取 数 据 。 连 接 
方式 是 服务 器 通过 光纤 交换 机 直 连 磁盘 柜 ， 然 后 挂 载 到 本 地 访问 。 问 
题 : 从 其 中 一 台 服 务 器 往 磁盘 柜上 传 文件 ， 这 个 时 候 其 他 服务 器 从 本 
地 挂 载 的 硬盘 上 看 不 到 刚才 上 传 的 文件 ， 除 非 是 先 务 载 掉 ， 然 后 再 挂 
载 才 能 看 到 。 这 是 为 什么 呢 ? 另外 这 种 连接 方式 是 不 是 SAN 呢 ? 


多 主机 共享 同一 个 LUN， 除 非 所 有 主机 上 都 安装 集群 文件 系统 或 
者 SAN 共 享 仲裁 软件 比如 SANergy ImageSAN 之 类 ， 否 则 会 出 问题 。 问 
题 的 根源 就 在 于 三 台 主 机 上 的 文件 系统 写 入 LUN 的 信息 不 是 同步 的 ， 
是 各 有 各 的 缓存 ， 写 入 的 数据 先进 入 缓存 。 而 且 也 没有 锁 机 制 ， 致 
使 数据 不 同步 不 一 致 。 要 达到 你 的 目的 ， 多 主机 共享 数据 ， 要 么 用 
NAS 要 么 用 特殊 的 文件 系统 ， 但 是 推荐 用 NAS， 成 熟 ， 方 便 ， 只 不 过 
带宽 可 能 满足 不 了 要 求 。SAN 共 享 软 件 当然 所 有 节点 都 得 装 。 不 知道 
Reiserfs 本 身 是 否 支持 共享 ， 不 支持 的 话 ， 上 面 已 经 回答 了 。 至 于 DAS 
还 是 SAN 的 ， 不 重要 。 


而 这 方面 我 自己 的 定义 是 这 样 的 : 广义 来 讲 ，SAN 指 的 是 存储 网 
络 和 其 中 的 所 有 元 素 ， 也 就 是 说 ， 只 要 通过 网 络 来 传输 存储 数据 的 ， 
都 属于 SAN 范 畴 。NAS 也 属于 SAN。FC 直 连 也 应 当 属 于 SAN， 因 为 FC 
是 一 个 包 交 换 的 现代 网 络 传输 协议 ， 不 管 物理 拓扑 上 是 直 连 还 是 通过 
交换 设备 ， 其 协议 本 质 已 经 是 Network。 而 目前 的 存储 架构 中 ， 唯 一 排 
除 在 SAN 范 畴 之 外 的 应 该 是 传统 的 SCSI 线 绕 、SATA 线 绕 、IDE 线 费 、 


USB、1394 等 访问 方式 。 因 为 它们 不 具备 包 交 换 的 特性 ， 如 果 硬 说 它 
们 也 是 网 络 的 话 (其 实 就 是 网 络 ) ， 那 么 也 是 一 个 共享 总 线 的 网 络 ， 
不 具有 次 世代 网 络 特征 。 然 而 ， 如 果 从 最 大 的 角度 来 看 ， 目 前 所 有 存 
储 架 构 都 属于 SAN， 从 一 开始 就 属于 SAN。 


26. 如 何 利用 多 以 太 网 链 路 达到 最 大 带宽 的 问题 


环境 描述 : 服务 器 端 安 装 了 多 路 软件 ，iSCSI 磁 盘 阵列 只 有 一 个 
LUN 人 分区， 控制 器 上 面 有 4 个 iSCSI 主机 接口 。 假 设 此 款 磁 盘 阵列 的 每 
个 主机 接口 只 有 100MB 的 带宽 ， 连 接 到 千 兆 交换 机 ， 此 款 交 换 机 支持 
链 路 聚合 功能 ， 即 Port Trunking。 即 把 四 条 百 净 链 路 聚合 成 一 条 总 共 
400MB 带 宽 的 链 路 。 磁 盘 阵 列 的 这 个 分 区 根据 四 个 端口 都 映射 给 了 服 
务 器 ， 即 服务 器 在 没有 配置 多 路 径 软 件 时 可 以 看 到 四 个 完全 一 样 的 分 
区 。 使 用 了 多 路 径 软件 之 后 ， 系 统 只 有 一 个 分 区 ， 即 任何 一 条 链 路 出 
现 故 障 ， 不 影响 对 磁盘 阵列 的 正常 读 写 。 问 题 : 


(1) 服务 器 向 磁盘 阵列 读 写 数据 时 ， 是 否 能 够 通过 链 路 聚合 而 达 
到 400MB 的 带宽 ? 


(2) 多 路 径 软件 只 认可 一 条 链 路 ， 主 要 功能 是 容错 ， 然 而 ， 是 否 
在 读 写 时 只 使 用 一 条 链 路 把 数据 写 入 磁盘 阵列 呢 ? 假设 此 磁盘 阵列 本 
身 不 支持 链 路 聚合 的 功能 。 如 果 支 持 链 路 聚合 功能 的 话 ， 直 接 在 磁盘 
阵列 把 四 个 主机 接口 绑 定 成 一 条 链 路 ， 那 什么 问题 都 解决 了 。 


第 一 个 问题 : 这 种 情况 ， 只 有 在 同时 满足 下 列 几 个 条 件 的 情况 
下 ， 才 能 达到 400MB/s。 


= 多 路 径 软 件 支持 多 路 径 并 发 。 


= 盘 阵 端的 每 个 以 太 口 必须 都 设计 为 独 享 带宽 ， 不 允许 有 任何 一 
个 与 其 他 端口 共享 带宽 ， 也 就 是 不 允许 两 个 或 者 几 个 端口 在 一 
个 HUB 上 。 我 说 的 带宽 是 说 盘 阵 内 部 背 板 上 的 带宽 ， 而 不 是 说 
外 部 的 交换 机 或 者 HUB。 

客户 端的 IO 类 型 ， 随 机 小 Size 的 IO ， 达 到 400MB 不 可 能 。 需 
连续 大 块 的 并 发 IO。 

= 后 端 前 端 中 部 总 线 以 及 处 理 能 力 均 满足 400MB/s 的 需求 。 


值得 一 提 的 是 ， 利 用 多 路 径 达 到 的 聚合 ， 是 原生 的 ， 不 需要 盘 阵 
“支持 ”， 但 是 盘 阵 一 定 要 支持 同时 向 多 个 前 端口 映射 这 个 LUN。 


第 二 个 问题 : 多 路 径 软 件 一 般 是 支持 多 路 径 并 发 的 ， 不 过 效率 很 
少 有 满载 的 。 可 以 单 Active 也 可 以 多 Active。 单 Active， 最 大 带宽 只 能 
是 100m。 多 Active， 带 宽 恐 习 也 达 不 到 400m， 理 论 值 而 已 ， 实 际 上 很 
难 达 到 。 


多 路 均衡 在 OSI 的 多 个 层次 上 均 可 实现 。 
链 路 层 : Nic Teaming，Trunking/Channelling。 
网 络 层 : 根据 IP 地 址 和 MAC 地 址 的 均衡 。 


传输 层 : 用 Multi TCP Connection 进 行 均 衡 ， 每 个 TCP 连 接 使 用 单 
独 的 耳 和 网 卡 出 去 ， 达 到 对 端 虽然 是 不 同 的 卫 和 网 卡 ， 但 是 上 层 给 屏 
淫 近 了。 一 个 例子 就 是 iSCSI 中 的 Multi Connection per Sessiono 

应 用 层 : 利用 多 路 径 软 件 进行 均衡 。 


所 以 说 ， 达 到 多 少 带宽 ， 使 用 什么 方法 ， 在 哪 一 层 实现 ， 都 会 对 
结果 产生 影响 ， 而 所 有 这 些 方法 的 本 质 皆 相同 。 


27. 关于 LUN 切 换 的 问题 


大 家 好 ， 我 有 一 个 问题 向 大 家 请 教 。 环 境 是 : 一 人 台 双 控 磁盘 阵 
列 ， 分 别 直 连 两 侣 服务器， 有 两 个 疑问 是 : 


(1) 正常 是 应 该 用 A 控 管理 LUN1，B 控 管理 LUN2 ， 但 我 划分 
LUN 的 时 候 把 LUN1 分 配给 了 B 控 ， 结 果 也 能 在 服务 器 上 看 见 LUN1， 
请 问 这 种 情况 正常 么 ? 


(2) 我 按 正常 分 配 A 控 管理 LUN1，B 控 管理 LUN2 ， 如 果 A 控 制 
器 坏 了 ， 是 不 是 B 控 能 自动 接管 LUN1? 这 种 情况 还 用 在 服务 器 上 装 多 
路 径 软 件 么 ? 


脱离 了 实际 设备 ， 这 个 问题 就 没有 确切 答案 。 有 的 在 盘 阵 端 支持 
LUN 切 换 到 活着 的 控制 器 ， 而 主机 端 不 需要 切换 ， 当 然 主机 端 需要 有 
其 他 程序 来 控制 这 种 行为 。 有 的 则 全 靠 主 机 端 多 路 径 软 件 ， 所 有 控制 
器 都 可 以 映射 所 有 LUN， 具 体 问 题 具 体 分 析 。 


28. 关于 星 形 拓扑 、FC 拓 扑 的 问题 


我 记得 你 的 书 里 面 有 提 到 光纤 的 星 状 拓扑 ， 不 知道 和 HDS 高 端 产 
品 的 Hi-Star 光 纤 交 换 ， 还 有 EMC 高 端的 光纤 矩阵 是 什么 关系 。 搞 混 
了 擒 不 清楚 ， 麻 烦请 教 下 。 


FC 拓扑 中 的 星 型 拓扑 ， 和 盘 阵 控制 器 内 部 CPU 内 存 外 设 之 间 的 拓 
扑 ， 好 像 是 两 码 事 吧 ..….…... 我 一 再 强调 不 要 再 用 什么 “光纤 硬盘 ”什么 “ 光 
纤 交 换 机 ”了 ， 这 里 又 来 了 个 “光纤 和 矩阵 ”， 本 来 已 经 很 不 容易 入 门 ， 如 
果 再 搅 浑 水 ， 会 误导 很 多 人 ， 甚 至 自己 都 糊涂 了 。HDS 高 端 存储 内 部 
控制 器 总 线 类 型 多 少年 未 变 ， 全 部 使 用 Crossbar 交 换 和 矩 阵 世 片 ， 高 成 


本 高 性 能 。EMC 的 高 端 存 储 内 部 总 线 架构 则 使 用 点 对 点 直 连 结构 ， 非 
Crossbar 交 换 和 矩阵 。 


29. 一 些 专业 术语 的 理解 


小 第 刚 接触 存储 设备 ， 一 次 面试 过 程 中 不 知道 以 下 这 些 专业 术语 
是 什么 意思 ， 请 知道 的 兄弟 们 解释 下 ， 谢 谢 ! 快照 代理 ， 虚 拟 快照 ， 
分 裂 镜像 。 


快照 代理 : 泛 指 安装 于 OS 中 的 一 个 程序 ， 可 以 与 FS 或 者 应 用 发 生 
交互 作用 ， 使 得 Snapshot 开 始 之 前 FS 缓存 中 的 内 容 被 写 入 硬盘 或 者 应 
用 层 触发 一 系列 动作 ， 让 FS 和 应 用 程序 产生 一 致 点 ， 避 免 恢 复 
Snapshot 后 不 必要 的 fsck 过 程 和 应 用 级 恢复 过 程 。 


虚拟 快照 ， 不 懂 。 你 可 以 反问 他 这 是 谁 家 的 定义 。 


分 裂 镜像 : 对 某 份 数据 做 同步 镜像 ， 空 间 双 倍 占用 ， 当 需要 这 份 
数据 某 时 刻 的 Snapshot 的 时 候 ，Freez IO ， 然 后 解除 镜像 关系 ， 脱 离开 
的 镜像 就 是 这 份 数 据 此 刻 的 一 份 Snapshot。 这 时 你 可 以 回答 ， 嗯 ， 这 
么 看 来 ， 分 裂 镜像 产生 的 Snapshot 是 实 Snapshot， 而 通过 复制 MetaData 
Tree 产 生 的 Snapshot 就 是 虚 Snapshot， 或 者 就 是 上 文中 的 所 谓 “ 虚 拟 快 
照 ” 吧 。 


30. RAID 5 的 读 写 步 又 


RAID 5 的 读 写 步骤 是 怎样 的 ? 


这 个 Internet 上 都 可 以 搜索 到 的 。 分 4 个 步骤 的 是 写 ， 而 且 写 也 是 
分 情况 的 ， 不 一 定 都 是 4 步 。 随 机 写 的 情况 下 ， 写 惩罚 严重 ， 先 读 出 被 


覆盖 的 数据 和 Parity 数 据 ， 然 后 用 待 写 的 数据 和 被 覆盖 的 数据 计算 新 
Parity， 然 后 写 入 新 数据 和 Parity。 就 是 这 样 。 


31. SAN 共 享 问题 


有 个 问题 ， 书 中 说 到 NAS 可 以 提供 同时 对 同一 个 目录 或 文件 夹 的 
访问 ， 而 如 果 是 SAN 网 络 ， 如 果 共 享 同一 存储 空间 ， 需 要 借助 软件 。 
如 果 把 SAN 后 端 存储 中 设置 为 只 一 个 人 可 写 ， 其 他 只 读 ， 不 是 也 称 之 
为 多 台 客 户 端 在 一 台 存 储 中 共享 访问 么 ? (当然 了 ， 虽 然 具 体 的 访问 
模式 不 一 样 。) 


一 写 多 读 理论 上 是 可 以 的 ， 不 过 需要 在 特定 情况 下 。 比 如 所 有 客 
户 端 统 一 使 用 Direct IO 十 Write Through 模 式 对 目标 进行 IO， 但 是 DIO 
十 WT 模式 并 不 能 保证 客户 端 缓存 的 文件 Metadata 也 同步 被 写 入 磁盘 ， 
如 果 目 标 文 件 的 Metadata 对 程序 没有 什么 影响 的 话 ， 那 么 这 种 方式 是 
可 以 满足 要 求 的 。 但 是 现实 中 很 少 这 么 实现 的 ， 因 为 大 多 数 情 况 都 是 
多 写 多 读 的 ， 只 不 只 读 是 应 用 的 事情 了 。 如 果 不 使 用 DIO 和 WT 模式 ， 
就 算 用 只 读 mount， 对 方 写 入 之 后 ， 我 方 也 不 能 得 到 最 新 的 数据 ， 除 
非 等 下 一 次 FS 从 磁盘 提取 最 新 的 inode tree 到 buffer， 这 样 会 造成 不 一 致 
的 。 如 果 写 方 和 读 方 之 间 有 其 他 上 层 关 键 业 务 逻 辑 ， 数 据 不 同步 造成 
的 后 果 可 能 是 极其 严重 的 。 


32. 如 何 判断 造成 邮件 队列 堵塞 的 原因 ? 


这 是 我 上 网 看 到 的 一 个 方案 根据 作者 列 出 的 4 点 可 能 造成 邮件 队 
列 堵塞 的 现象 ， 感 觉 不 是 一 个 NAS 就 可 以 解决 这 四 个 问题 ， 方 案 如 
下 。 


1) 用 户 现状 


某 ISP 信 息 网 原 邮 件 服务 器 采用 某 公 司 小 型 机 及 其 磁盘 阵列 组 ， 
邮件 服务 器 每 日 处 理 邮 件 能 力 不 足 3000 封 ， 每 日 早晨 上 班 和 下 午 下 班 
使 用 邮件 高 峰 都 会 出 现 发 送 邮 件 队列 堵塞 。 


2) 需求 分 析 
造成 邮件 队列 堵塞 的 现象 可 能 因为 : 
(1) 小 型 机 无 法 同时 响应 来 自 磁盘 阵列 盘 上 的 邮件 分 发 工作 。 


(2) UNIX 系 统 的 文件 管理 服务 在 文件 读 写 操作 过 程 中 ， 占 用 IO 
资源 无 法 释放 ， 小 型 机 处 理 并 发 /O 进 程 的 能 力 有 限 。 


(3) 即使 网 络 带宽 充足 ， 几 千 封 邮件 排队 等 竺 处理， 也 会 造成 堵 
塞 现象 。 


(4) 另外 ， 网 络 带宽 不 够 ， 还 可 能 造成 数据 在 网 络 传输 中 的 读 写 
瓶颈 。 


3) 系统 设计 


购买 一 台 NAS 存 储 设备 作为 原 服务 器 的 数据 存储 设备 ， 将 原 服务 
器 中 的 电子 邮件 数据 全 部 转移 到 该 设备 上 ， 保 持原 服务 器 继续 作为 电 
子 邮件 服务 的 应 用 服务 器 。 此 时 ， 一 切 问 题 迎刃而解 。 


原作 者 的 方案 点 评 : 


NAS 产 品 采用 了 专用 技术 优化 了 文件 访问 的 IO 效率 问题 ， 提 供 了 
比较 理想 的 文件 访问 能 力 。 尤 其 是 Veritas NAS 解 决 方案 还 提供 了 容 灾 


和 故障 管理 能 力 ， 使 得 NAS 技 术 也 可 以 成 为 容 灾 系统 的 组 成 部 分 。 
个 人 理解 : 


(1) 如 果 原 来 的 磁盘 阵列 只 用 于 存放 电子 邮件 数据 ， 将 原 服务 器 
中 的 电子 邮件 数据 全 部 转移 到 NAS， 这 样 做 ， 原 来 的 磁盘 阵列 是 不 是 
只 能 用 于 其 他 需求 了 ? 


(2) 保持 原 服务 器 继续 作为 电子 邮件 服务 的 应 用 服务 器 。 (这 里 
的 服务 器 应 该 不 是 前 面 说 的 小 型 机 吧 (会 拿 小 型 机 做 服务 器 吗 ) ? 如 
果 不 是 ， 购 买 NAS 后 ，NAS 是 不 是 取代 的 是 原 有 的 磁盘 阵列 呢 ? ) 


(3) 优化 了 文件 访问 的 VO 效率 问题 ， 提 供 了 比较 理想 的 文件 访 
问 能 力 。 (小 型 机 配置 没有 提升 ， 只 是 买 了 人 台 NAS， 这 样 小 型 机 就 可 
以 同时 响应 来 自 NAS 上 的 邮件 分 发 工作 了 吗 ? 这 么 说 原来 的 颈 瓶 不 就 
是 出 于 原来 的 磁盘 阵列 不 能 提供 一 个 好 的 文件 访问 能 力 了 吗 ? 可 作者 
说 的 是 小 型 机 无 法 同时 响应 来 自 磁盘 阵列 盘 上 的 邮件 分 发 工作 。 怎 么 
感觉 是 小 型 机 性 能 跟 不 上 呢 ? ) 


(4) 网 络 带宽 不 够 (增加 一 台 NAS 带 宽 就 够 用 了 吗 ? ) 


太 多 不 理解 了 ， 希 望 各 位 不 要 见笑 ， 新 人 阶段 ， 各 位 能 解析 下 
吗 ? 


(1) 如 果 原 来 的 磁盘 阵列 只 用 于 存放 电子 邮件 数据 ， 将 原 服务 器 
中 的 电子 邮件 数据 全 部 转移 到 NAS， 这 样 做 ， 原 来 的 磁盘 阵列 是 不 是 
只 能 用 于 其 他 需求 了 ? 


可 以 将 数据 文件 分 别 放 在 原来 的 阵列 和 NAS 中 ,平衡 负 载 。 


(2) 当然 还 是 原来 的 机 器 。 不 拿 小 型 机 做 服务 器 难道 用 笔记 本 
做 ? 


(3) 这 个 方案 ， 一 点 根本 的 调查 分 析 都 没 做 ， 只 是 给 出 了 几 个 猜 
测 ， 也 都 在 理 ， 其 实 只 要 在 小 型 机 上 用 各 种 命令 查看 输出 ， 就 能 初步 
推断 到 底 瓶 颈 出 在 哪里 。 一 点 确切 结论 都 没有 ， 把 所 有 可 能 摆 上 了 ， 
然后 就 说 换 NAS。 他 也 没 提 到 以 前 的 到 底 还 用 不 用 ， 新 NAS 是 分 担负 
载 还 是 全 盘 替 换 过 来 。 而 且 ， 就 算 换 了 NAS， 也 不 一 定 会 有 改善 ， 也 
得 看 NAS 的 规格 、 后 端 带宽 和 IO 需求 。 


(4) 他 说 的 是 前 端 融 宽 也 许 不 够 ， 都 是 推测 。 后 端 存 储 带 宽 他 没 
有 调查 ， 不 明确 。 


33. 随机 和 连续 IO 的 问题 


随机 (random) 和 连续 (sequential) 读 写 的 区 别 ， 是 对 Volume 
来 说 连续 的 读 写 还 是 对 物理 硬盘 来 说 连续 的 读 写 ? 


是 哪个 层面 的 “磁盘 ”， 物 理 磁 盘 么 ?一 般 来 讲 就 是 根据 一 定 算 
法 ， 比 如 前 几 个 是 连续 地 址 ， 后 来 这 个 差 太 大 了 ， 就 算 random 了 。 至 
于 哪个 层次 上 的 ， 哪 个 层次 都 有 。 但 是 最 终 影响 性 能 的 还 是 要 看 最 底 
层 也 就 是 物理 磁盘 ， 因 为 最 终 是 磁头 臂 的 寻 道 影响 了 性 能 。 有 意义 的 
就 是 最 终 物 理 上 的 地 址 。 关 于 各 种 IO 属性 的 总 结 和 联系 ， 请 阅读 《大 
话 存 储 》 相 关 章 节 。 


34. 负载 均衡 的 方法 


有 一 个 SAN 环 境 ， 有 几 台 存储 管理 服务 器 ， 现 在 想 实 现 IO 负 载 均 
衡 ， 就 是 几 台 服务 器 用 一 个 虚拟 IP 给 用 户 ， 用 户 有 数据 IO 时 ， 自 动 找 
到 IO 负载 较 小 的 服务 器 ， 有 些 类 似 于 LVS 的 思想 。 不 知道 有 没有 实现 
这 个 想法 的 软件 或 方法 。 


LVS 不 就 是 么 ?硬件 比如 F5、Packteer 之 类 的 。 都 是 基于 TCP 及 以 
上 层次 的 ， 高 级 点 的 可 能 还 会 识别 应 用 层 内 容 来 均衡 。 如 果 你 的 意思 
是 说 仅仅 均衡 存储 的 Block IO ， 比 如 用 一 个 前 端 设备 接收 主机 IO ， 然 
后 后 端 向 多 个 存储 设备 分 发 负载 ， 这 种 思想 是 存在 的 。 但 是 这 种 物理 
拓扑 目前 是 不 存在 的 ， 真 正体 现 这 种 思想 的 拓扑 是 存储 集群 ， 比 如 
NAS 和 集群， 集群 中 并 没有 一 个 前 端 Sateway 设 备 ， 而 是 多 个 节点 共同 
提供 访问 。 它 们 有 一 个 虚拟 IP 地 址 用 于 接受 前 端 IO， 而 且 负 载 均衡 并 
不 是 随机 分 发 ， 而 是 按照 预先 设 定好 的 目录 来 判断 对 应 数据 IO 应 分 发 
给 哪个 存储 设备 。 数 据 一 旦 存储 之 后 ， 是 一 直 都 在 固定 的 地 方 的 ， 当 
然 一 些 带 有 Tier 数 据 迁 移 功 能 的 设备 除外 ， 不 管 是 否 带 有 迁移 功能 ， 
数据 被 写 入 后 ， 绝 不 是 可 以 随机 乱 跑 的 ， 所 以 要 做 到 IO 随机 分 发 是 不 
可 能 的 。 随 机 分 发 方式 的 负载 均衡 只 能 在 相对 上 层 来 做 ， 将 所 有 数据 
人 工分 目录 分 类 按照 访问 频 度 和 要 求 存 放 在 多 个 后 端 存 储 设 备 上 来 达 
到 人 工 的 均衡 。 


35. 单个 目录 下 的 文件 数量 和 性 能 问题 


为 什么 单 目录 下 子 文件 过 多 会 影响 性 能 ?如 1 个 目录 下 有 10000 个 
子 文 件 ， 那 么 读 取 某 个 文件 的 速度 将 会 明显 慢 下 来 ， 这 和 文件 索引 有 
关 吗 ? 索引 中 如 何 组 织 这 些 节 氮 ? 谢谢 大 家 帮忙 。 


是 的 ， 与 达 引 有 关 。1 万 个 不 算 多 。 上 白 万 个 就 看 出 来 了 。 


上 百 万 个 慢 是 文件 系统 整体 吧 ， 那 么 和 当前 目录 怎么 关系 上 呢 ? 


一 个 差不多 的 文件 系统 支持 几 白 万 个 文件 不 算 什么 。 我 是 说 一 个 
目录 下 ， 不 分 子 上 目录， 直接 放 它 几 十 万 上 下 万 的 文件 ， 此 时 检索 这 个 
目录 索引 很 费 资 源 。 支 持 数 量 有 限 是 因为 目录 这 个 对 象 本 身 容纳 的 大 
小 有 限制 ， 目 录 就 是 一 个 容纳 文件 名 和 文件 对 应 inode 号 的 容器 ， 被 限 
制 了 ， 那 么 容纳 的 条 目 也 就 被 限制 了 。 读 取 某 个 文件 速度 没 影响 。 但 
是 查找 就 费劲 了 。 某 些 文件 系统 的 索引 机 制 不 完善 ， 甚 至 没有 什么 优 
化 算法 ， 致 使 每 次 查找 耗费 更 多 的 时 间 。 


36. Spare 的 数量 与 风险 的 关系 


一 个 DS 3200， 打 算 建 一 个 RAID 5， 本 来 设 2 块 hot spare 的 。 后 来 
由 于 容量 限制 ， 想 改 成 一 块 ， 这 样 会 增加 风险 吗 ? 


2 块 是 为 了 防止 Rebuild 结 束 之 后 过 一 段 时 间 又 坏 了 一 块 ， 能 坏 第 
一 块 就 证 明 其 他 的 也 离 坏 不 远 了 。2 块 同时 坏 的 几率 是 比 一块 小 。 一 旦 
某 条 件 达 成 ， 坏 的 就 不 只 是 2 块 了 ， 说 不 定 坏 一 批 或 者 HBA 问 题 直 接 
Loop 上 的 全 不 认 ， 真 这 样 的 话 ， 多 少 块 Spare 也 没 用 ， 一 块 就 够 了 。 所 
以 需要 综合 考虑 。 


37. 接口 带宽 与 磁盘 传输 率 的 关系 


1000M 带 宽 满 跑 流 量 是 多 少 ? SCSI 硬 盘 的 最 大 传 流 量 是 多 少 ? 在 
不 考虑 其 他 因素 的 情况 下 . 当 两 者 满 跑 的 时 候 ， 谁 先 成 为 瓶颈 ? 

1Gb 的 跑 满 是 120MB (包含 协议 开销 ) 。iSCSI 人 硬盘 ， 没 有 这 种 硬 
盘 。 有 iSCSI 盘 阵 ， 多 块 盘 一 起 做 成 LUN， 这 样 的 话 ， 大 块 连续 IO 瓶颈 


在 网 络 ， 小 块 随机 IO 瓶颈 在 磁盘 ， 不 过 也 得 具体 分 析 ， 与 磁盘 数量 ， 
控制 器 等 都 有 关 。 理 想 状 况 下 100 一 110MBA 是 没 问题 的 。 


38. Page Cache 作 尝 


有 一 个 卷 lv1 ， 块 大 小 为 4KB。 此 时 我 用 dd 做 写 测 试 ，dd 
if=/dev/zero of=lvl bs=4k ， 当 测试 的 bs 为 4KB 时 ， 数 据 正常 。 当 把 bs 
的 值 减 小 到 4KB 以 下 ， 发 现 读 和 写 都 有 数据 ， 而 且 流 量 相当 ， 不 知道 
是 为 什么 。 也 就 是 ， 不 理解 当 测 试 的 块 大 小 “小 于 ” 卷 的 块 大 小 时 ， 就 
会 产生 读 的 数据 。 


呼 呼 ， 正 常 现 象 了 。1lv1 是 块 设 备 ， 你 用 的 什么 os? 块 设备 你 对 它 
写 小 于 4KB 的 数据 ， 它 要 先 读 出 来 ， 然 后 写 进 去 。 用 裸 设备 就 不 会 出 
现 这 种 情况 ，1KB、512B 都 可 以 。Page Cache 在 作 崇 。 


39. 关于 标 称 带 宽 与 实际 带宽 的 问题 


简单 的 说 ，DS 4700 的 机 器 用 两 个 FC 4Gbps 的 接口 ， 怎 么 样 才能 
让 它 可 以 提供 8Gbps 的 主机 连接 带宽 ? 


估计 很 难 达 到 。4700 标 称 后 端 带 宽 没 记 错 的 话 是 1.6GB/s， 而 且 实 
际 中 一 半 估 计 都 达 不 到 ，0.83GB/s 不 可 能 达到 的 。 


40. 卷 共 享 的 问题 


A 机 和 B 机 都 接 在 SAN 上 面 ， 操 作 系统 是 Redhat Linux AS 4.5; 存 
储 是 HP 的 设备 。 在 A 机 上 写 的 文件 ， 在 B 机 上 不 能 访问 ， 请 问 有 无 解 
决 办 法 ? 需要 在 磁盘 阵列 上 做 什么 设置 么 ? 谢谢 。 


共享 同一 个 卷 ， 请 小 心 ， 弄 不 好 就 数据 损毁 ， 得 用 集群 文件 系 
统 ， 例 如 Stornext， 或 者 集群 卷 软件 Sanergy 之 类 。 还 有 一 个 野蛮 办 
法 ， 使 用 DIO 十 WT 模式 ， 不 过 只 能 保证 弱 一 致 性 。 


41. Proactive Copy 与 Rebuild 的 关系 


热 备 盘 的 前 摄 性 模式 和 重建 模式 什么 区 别 ? 


可 能 这 就 是 英文 Proactive 吧 。 一 旦 发 现 哪 块 盘 不 对 劲 ，Prefail， 复 
制 数 据 ， 盘 对 盘 ， 而 不 是 Rebuild， 这 样 速度 快 很 多 ， 性 能 受 影响 也 很 


小 。 
42. Loss of Sync 的 含义 


Loss of sync 过 高 意味 着 什么 ? 


意味 着 物理 层 两 端 时 钟 或 者 接口 接触 等 方面 有 问题 。 这 种 是 可 以 
目 行 恢复 的 ， 恢 复 不 了 就 是 link fail 了 。 


43. 数据 删除 之 后 如 何 恢复 ? 


一 块 SCSI 36GB 硬 盘 ， 作 为 SYBASE 12.5 数 据 库 的 数据 文件 设 
备 ， 最 近 出 现 读 写 错误 ， 估 计 是 硬盘 有 坏 块 ， 做 了 FSCK 后 问题 依 
旧 ， 数 据 文件 无 法 备份 也 无 法 复制 ， 昨 天 一 哥们 来 通过 数据 库 倒数 
据 ， 结 果 误 操作 ， 把 原来 数据 的 表 全 部 删除 后 ， 又 重新 创建 ， 我 现在 
都 器 了 ， 大 侠 们 看 看 能 恢复 到 误 操 作 前 的 数据 状态 吗 ? 


得 找 数据 恢复 公司 了 。 重 新 创建 的 ， 往 里 填 数据 了 么 ? 冯 填 的 话 
可 能 只 是 hole， 还 有 希望 恢复 的 。 


44. FC 阵列 是 否 可 以 直 连 的 问题 


FC 磁盘 阵列 是 否 可 以 直 连 ? 


可 以 直 连 ， 只 能 以 FCAL 模 式 直 连 了 。 因 为 用 交换 机 的 情况 下 ， 
各 个 节点 都 是 N 端 口 ， 都 需要 进行 Flogin 等 一 系列 FC 逻辑 ， 直 连 情况 
下 ， 如 果 两 端 都 还 是 N 端 口 ， 则 无 人 会 响应 Flogin。FCAL 则 是 各 个 节 
点 自 初始 化 自选 举 自 仲 裁 的 ， 所 以 可 以 直 连 。 


45. RAID 3 的 IO 问题 


RAID 3 每 进行 一 笔 数 据 传输 ， 都 要 更 新 整个 Stripe， 即 每 一 个 成 
员 磁 盘 驱 动 器 相对 位 置 的 数据 都 一 起 更 新 ， 因 此 不 会 发 生 需 要 把 部 分 
磁盘 驱动 器 现 有 的 数据 读 出 来 ， 与 新 数据 做 XOR 运 算 ， 再 写 入 的 情 
况 。 这 种 情况 在 RAID 4 和 RAID 6 中 会 发 生 ， 称 之 为 Read、Modify、 
Write Process， 即 读 、 改 、 写 过 程 。 因 此 ， 在 所 有 的 RAID 级 别 中 ， 
RAID 3 的 顺序 写 入 性 能 是 最 好 的 。 怎 么 理解 ? 


RAID 3 任何 情况 下 都 保持 整 条 写 ， 解 释 完 了 。 其 实 上 面 已 经 解释 
的 很 清楚 了 ， 不 理解 的 话 表 明 对 更 加 基本 的 一 些 底 层 概念 还 没有 理 
解 ， 所 以 请 再 阅读 《大 话 存储 》。 


46. 脑 分 裂 是 怎么 回 事 ? 
谁 能 帮 有 我 解释 下 到 底 Split-brain 即 脑 裂 是 怎么 一 回 事 ? 


就 是 说 ， 本 来 一 个 大 脑 的 两 半球 互相 配合 ， 变 成 了 分 裂 成 两 个 独 
立 的 大 脑 ， 都 认为 对 方 已 死 。 此 时 ， 双 方 都 尝试 接管 集群 资源 ， 造 成 


冲突 ， 后 果 严 重 。 解 决 办 法 : 使 用 Vote 人 磁盘 仲裁 ， 利 用 对 特定 数量 的 
磁盘 放置 SCSI reservation 的 方式 来 决定 谁 最 终 掌 管 集群 资源 ， 或 者 ， 
最 极端 的 Powerfence， 谁 抢先 关 掉 对 方 的 电源 谁 就 获胜 。 


47. 硬盘 的 Block 与 Extent 的 区 别 


硬盘 中 block 和 extent 有 何 区 别 ? 


这 些 名 词 都 请 参阅 具体 厂家 的 定义 。 硬 盘 上 只 有 sector， 还 有 
track。 Cylinder 也 是 由 track 组 成 的 一 个 逻辑 定义 。 其 他 什么 都 没有 有。 再 
往 上 的 都 是 逻辑 结构 ， 并 非 物理 结构 ， 牵 扯 到 逻辑 结构 ， 那 就 和 定义 
者 有 天 了 。 


48. 一 些 IO 测试 结果 的 分 析 


先 介绍 一 下 大 概 情况 : 阵列 是 EMC 的 CX-310， 全 光纤 盘 ， 与 主 
机 连接 用 的 是 4GB 的 光纤 通道 卡 ， 做 的 RAID 5。 机 器 是 IBM System 
x3650 (7979B9C) 。 服 务 器 的 硬盘 是 SAS 盘 。 操 作 系 统 是 Centos5.2， 
文件 系统 是 ext3。 下 边 是 用 dd 测 出 来 的 速度 (偶尔 会 更 低 ) : sda 是 本 
机 sas 盘 。 


sda 
写 


dd if=/dev/zero of=/app1i/test/dd.1og 
# dd if=/dev/zero of=/appi/test/dd.1og 
1975913+0 records in 


1975912+0 records out 


1011666944 bytes (1.0 GB) copied, 15.0658 seconds, 67.1 


MB/S 
读 
dd if=/appi/test/dd.1o0og of=/dev/null 
# dd if=/appi/test/dd.1log of=/dev/null 
1975912+0 records in 


1975912+0 records out 
1011666944 bytes (1.0 GB) copied, 6.53719 seconds, 155 


MB/S 
读 写 
dd if=/appi/test/dd.1log of=/app1i/test/dd2.1og 
# dd if=/appi/test/dd.1og of=/appi/test/dd2.1o0og 
1975912+0 records in 


1975912+0 records out 
1011666944 bytes (1.0 GB) copied, 17.1978 seconds, 58.8 


MB/S 


十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 


十 十 十 十 十 十 十 


阵列 


/home/sakai/mount/bak 


写 


dd if=/dev/zero of=/home/sakai/mount/bak/dd.1o0og 
# dd if=/dev/zero of=/home/sakai/mount/bak/dd.1og 
3544417+0 records in 
3544417+0 records out 
1814741504 bytes (1.8 GB) copied, 24.3567 seconds, 74.5 


MB/S 
读 
dd if=/home/sakai/mount/bak/dd.1log of=/dev/null 
# dd if=/home/sakai/mount/bak/dd.1log of=/dev/null 
3544417+0 records in 
3544417+0 records out 


1814741504 bytes (1.8 GB) copied, 11.9376 seconds, 152 


MB/S 
读 写 


dd if=/home/sakai/mount/bak/dd.1og 
of=/home/sakai/mount/bak/dd2.10g 
# dd if=/home/sakai/mount/bak/dd.1og 
of=/home/sakai/mount/bak/dd2.10g 
3544417+0 records in 
3544417+0 records out 
1814741504 bytes (1.8 GB) copied, 26.4129 seconds, 68.7 


MB/S 


569MB 速 度 显 然 是 Cache 速 度 ， 既 然 读 入 的 是 FS 文件 ， 那 么 显然 
FS 缓存 在 作 崇 。 umnomt 然 后 mount (或 者 # echo 3 > 
/proc/sys/vm/drop_Caches) ， 然 后 再 测试 你 就 会 发 现 根本 没有 500 多 
MB。 至 于 155MB/s 的 速度 ， 与 很 多 因素 有 关 ， 如 IO 调用 方式 、IO Size 
等 。 centos 不 熟悉 。dd 在 Linux 下 一 般 都 是 sync 同 步 IJO 调 用 ， 每 次 IO 
Size 三 4KB， 此 时 除非 同时 运行 多 个 dd， 否 则 只 一 个 dd，155MB 速 度 
也 算是 不 错 了 ! 


df 查看 的 是 文件 系统 使 用 率 ， 磁 盘 使 用 率 如 何 获取 呢 ? 大 家 谈 谈 
思路 也 行 ， 谢 谢 。 


这 是 个 匪夷所思 的 问题 。 如 果 拿 一 块 窑 新 的 磁盘 ， 你 可 以 说 它 使 
用 率 是 0， 一 旦 使 用 了 一 段 时 间 ， 就 不 好 说 了 。 只 有 其 上 “有 用 ”的 区 
域 ， 才 能 算是 使 用 率 ， 如 何 计算 “有 用 ”的 区 域 呢 ? 就 是 看 文件 系统 。 


文件 系统 之 外 的 有 两 部 分 : 操作 系统 其 他 逻辑 层 比 如 VM， 在 disk 
上 写 的 数据 ; 磁盘 控制 器 比如 RAID 控 制 器 在 磁盘 某 些 区 域 写 入 的 数 
据 ， 这 些 也 算 < 有 用 ”的 ， 但 是 不 能 通过 FS 来 查看 了 。 


这 个 问题 脱离 了 上 层 的 卷 管理 软件 或 者 文件 系统 ， 是 没有 意义 
的 。 人 磁盘 本 身 并 不 知道 自己 身上 哪些 是 正在 被 使 用 的 ， 哪 些 是 没 
的 。“ 有 用 ”和 “* 没 用 ”是 FS 或 者 VM 管 理 的 ，VM 用 磁盘 ，FS 用 VM， 应 
用 程序 用 FS， 人 用 应 用 程序 ， 如 果 人 说 一 句 ， 这 些 数据 都 没 用 了 ， 扎 
了 吧 ， 那 么 不 就 是 都 没 用 了 么 ? 顺便 说 一 句 ，FS 里 面 都 有 bitmap 来 记 
录 对 应 存储 空间 上 的 每 个 扁 区 或 者 簇 区 是 否 被 某 文 件 占 用 ， 占 用 则 有 
用 ， 未 占用 则 没 用 ， 也 就 是 空 凋 。 空 内 的 扇 区 不 一 定 里 面 都 是 0(， 可 能 
是 原来 数据 的 Zombie， 这 个 请 阅读 《大 话 存储 》 相 关 章 节 。 其 他 的 OS 
不 谈 ， 在 AIX 里 面 应 用 能 使 用 多 少 硬 盘 空 间 在 lspv 里 面 可 以 看 到 (Free 


PPs 十 Used PPs=Total PPs) 。 Free PPs 是 还 可 以 使 用 的 空间 ， 而 Total 
PPs 就 是 总 空间 。 这 个 总 空间 肯定 比 磁盘 的 裸 空间 要 小 ， 但 通常 相差 不 
是 很 大 ， 通 常 就 是 相差 一 个 PP 的 大 小 。 所 以 我 说 如 果 不 严 格 要 求 的 话 
可 以 近似 用 lspv 来 看 。 不 过 如 果 你 说 的 是 磁盘 阵列 上 物理 磁盘 的 利用 
率 ， 那 我 们 说 的 就 不 是 一 回 事 了 。 说 白 了 ，VM 就 是 个 粗 线条 的 FS。 
最 终 知道 使 用 率 的 ， 除 了 FS 就 是 VM， 最 终 物 理 Disk， 没 法 知道 。 


49. NAS 控 制 器 和 服务 器 的 区 别 


存储 设备 是 通过 NAS 控 制 器 挂 到 网 络 上 的 ，NAS 控 制 器 也 被 称 为 
瘦 服 务 器 ， 实 践 方面 接触 的 比较 少 ， 谁 知道 这 个 NAS 控 制 器 的 具体 结 
构 请 介绍 一 下 ， 主 要 是 和 一 般 的 服务 器 的 区 别 《从 结构 上 谈 ， 功 能 上 
网 上 搜 的 到 ) 。 如 果 可 以 ， 其 他 方面 的 也 谈 一 下 ， 比 如 具体 的 工作 流 
程 。 


NAS 就 是 一 个 提供 文件 服务 的 设备 ， 后 端 既 可 以 使 用 自己 本 地 硬 
盘 ， 也 可 以 连接 到 SAN 设 备 上 拿 硬盘 。 之 后 上 面 加 一 些 虚拟 化 的 层 ， 
比如 Volume、LUN， 然 后 必须 再 添加 一 层 本 地 文件 系统 层 ， 最 终 一 层 
必须 是 网 络 文件 系统 ， 比 如 CIFS、NFS 等 。 就 是 这 么 个 架构 。 


50. 关于 RAID 信 息 是 否 写 盘 的 问题 


我 知道 很 多 RAID 控 制 器 为 了 好 管理 都 会 写 类 似 超级 块 的 信息 到 
组 成 RAID 的 硬盘 上 。 我 想 知道 有 没有 一 种 控制 器 除了 上 层 操作 系统 
的 写 数据 外 是 不 会 写 任何 信息 到 硬盘 上 的 。 


稍微 高 端 一 点 的 RAID 控 制 器 好 像 没有 哪 家 这 么 做 ， 原 因 很 简单 ， 


载 入 ， 照 样 用 。 后 者 是 根本 原因 。 早 期 的 RAID 卡 甚至 不 允许 磁盘 槽 位 
错乱 ， 很 有 可 能 就 是 因为 它 没 向 磁盘 上 写 入 对 应 的 信息 ， 而 只 是 在 卡 
上 自己 保存 了 一 份 ， 磁 盘 一 旦 错乱 ，RAID 就 不 认 了 。 写 到 磁盘 上 之 
后 ， 磁 盘 不 管 放 到 哪个 槽 位 ， 人 逻辑 上 的 结构 依然 没有 变 ， 依 然 可 以 组 
成 RAID Group。 


51. 测试 速度 达 不 到 要 求 


阳光 磁盘 阵列 柜 ， 挂 到 服务 器 上 用 HDTune 测 试 只 有 5MB。 
提供 可 能 的 原因 : 

(1) IO 不 对 齐 或 者 其 他 原因 导致 的 内 部 惩罚 。 

(2) 用 IOmeter 试 试 。 

(3) Queue Depth 太 低 。 

(4) 用 多 线程 并 发 访问 ， 不 会 只 用 了 一 个 线程 吧 ? 
(5) 也 是 最 有 决定 性 的 原因 ，IO 属 性 是 什么 。 
52.FCOE 和 iSCSI 的 区 别 

请 问 下 fcoe 和 iSCSI 的 区 别 是 什么 ? 

用 于 存储 网 络 时 : 

FCOE: SCSI over FC over Ethernet 


iSCSI: SCSI over IP over (any kind of link that support IP) 


其 实 ， 底 层 链 路 不 管 是 什么 ， 都 可 以 支持 IP。 支 持 这 个 词 似 乎 用 
得 不 好 ， 但 是 链 路 层 帧 中 应 该 有 个 字段 来 描述 其 承载 的 上 层 协 议 是 什 
么 ， 这 就 是 所 谓 的 支持 。IP 和 链 路 层 位 于 OSI 不 同 层次 ， 之 间 可 以 适 配 
的 ， 所 以 ， 不 管 怎 么 连通 ， 用 什么 方式 连通 ， 其 上 都 可 以 盖 一 层 IP 来 
进入 TCPIP， 这 就 是 OSI 的 精髓 。 另 外 ，FCOE 现 在 已 经 远 非 这 么 简单 
了 ，FCOE 已 经 逐渐 脱离 传统 以 太 网 基础 架构 ， 适 配器 ， 甚 至 交换 机 
都 需要 专用 的 ， 这 还 谈 什 么 OE 呢 ? 本 来 就 是 为 了 和 以 太 网 基础 架构 结 
合 ， 降 低 成 本 ， 现 在 却 越发 走向 不 开放 的 道路 ， 个 人 不 看 好 。 


53. 判断 IO 瓶颈 


现 有 一 台 LSI 3994 磁 盘 阵列 (TBM 的 4000 系 列 即 是 OEM 它 的 ) ， 
2 台 HPDL380G5 与 这 台 磁 阵 相 连 ， 这 两 台 服 务 器 各 自 有 自己 的 LUN， 
不 做 双 机 ， 只 是 2 台 服 务 器 一 起 给 磁 阵 写 数据 ， 写 到 各 自 的 LUN 上 。 
但 是 现在 只 要 使 用 业务 ，2 台 服务 器 开始 给 磁 阵 写 数据 ，2 台 一 共 大 概 
有 180MB/s 的 写 入 量 。 这 时 读 磁 阵 上 保存 的 数据 时 ， 速 度 很 慢 ， 大 概 
1MB/s 多 的 速度 吧 。 这 人 台 服 务 器 的 主机 通道 是 4Gb/s 的 ， 应 该 有 400MB 
的 读 写 能 力 ， 怎 么 会 这 么 慢 呢 。 服 务 器 使 用 的 是 windows 2003 操 作 系 
统 。 服 务 器 分 别 直接 连接 两 个 控制 器 ， 没 有 使 用 光纤 交换 机 。 磁 阵 已 
经 设置 为 4G 的 模式 ， 磁 盘 条 带 化 已 经 为 了 适应 视频 而 调节 到 最 大 值 
了 。 


呵呵 。 兄 第 ， 看 来 你 这 瓶颈 没 出 在 网 络 上 。 昌 然 用 了 80 个 500G 的 
SATA， 但 是 控制 器 此 时 的 行为 不 好 说 是 否 都 用 在 了 写 数 据 上 。180M 
的 写 IO， 请 问 这 些 IO 的 属性 估计 一 下 是 IO 密集 的 还 是 IO Size 很 大 的 ? 
如 果 是 前 者 ， 具 体 多 少 ? 有 没有 达到 IOPS 瓶 颈 ? 其 次 ，IO 的 时 候 ， 不 
一 定 就 真正 分 摊 在 了 这 80 块 盘 上 ， 而 很 有 可 能 只 用 到 了 其 中 几 块 盘 。 


最 好 能 用 盘 阵 监视 工具 看 一 下 当前 的 磁盘 IO 情况 ，CPU 和 RAM 情 况 ， 
综合 分 析 。 读 的 时 候 用 什么 读 的 ? 读 的 多 大 的 文件 ? RAID 类 型 是 什 
么 ? 这 些 都 要 心 有 一 幅 图 ， 不 然 没 法 做 下 去 的 。 


54. 网 卡 瓶颈 


在 由 服务 器 网 卡 到 交换 机 再 到 磁盘 阵列 的 传输 链 路 中 ， 瓶 颈 在 哪 
里 ， 值 是 多 少 ? 


假设 : 


(1) 网 卡 为 普通 千 兆 网 卡 ， 且 服务 器 只 有 这 一 块 网 卡 用 于 连接 IP 
SAN 中 的 交换 机 ; 


(2) 交换 机 为 全 干 兆 全 线 速 转发 交换 机 ; 


(3) 磁盘 阵列 通过 对 硬盘 做 RAID 能 够 从 出 口 对 交换 机 提供 足够 
的 传输 带宽 。 


那么 瓶颈 应 该 可 能 在 两 个 位 置 : 


(1) 服务 器 网 卡 ， 千 兆 网 卡 理论 带宽 128MB/s， 然 而 它 的 实际 工 
作 带 宽 能 达到 多 少 ? 有 60% 吗 (77MB/s) ? 如 果 除 去 IP 协 议 的 开销 ， 
还 剩 多 少 ? 


(2) 交换 机 端口 传输 带宽 ， 千 兆 的 端口 ， 最 大 实际 工作 带宽 能 达 
到 128MB/s 的 60% 吗 ? 


我 想 准 确 地 知道 这 个 值 ， 因 为 我 想 知道 ， 在 这 种 情况 下 的 IP SAN 
与 服务 器 本 地 硬盘 相 比 ， 在 传输 性 能 上 有 没有 优势 。 本 地 硬盘 按 SATA 


平均 内 部 传输 率 60MB/s 来 算 。 


觉得 为 何 这 帖子 至 今 无 人 回答 ， 是 因为 没 法 回答 。 你 也 说 了 ， 
瓶颈 点 一 在 网 络 ， 二 在 磁盘 ， 就 这 两 个 。 磁 盘 外 面 是 清 一 路 的 千 焰 通 
路 ， 所 以 算 一 个 瓶颈 点 。 盘 阵 网 口 后 面 是 控制 器 OS 以 及 其 他 硬件 ， 这 
里 算是 个 潜在 瓶颈 点 ， 但 是 再 烂 ，125MB/s 的 速度 也 至 少 能 提供 ， 所 
以 本 案 ， 此 处 没有 瓶 须 。 再 就 是 后 端 磁盘 了 。 还 是 那 句 话 ， 再 烂 ， 一 
百 来 兆 的 速度 起 码 也 能 给 出 来 吧 。 综 合 分 析 ， 您 这 系统 瓶颈 将 会 在 网 
络 。 


而 实际 中 只 要 是 大 带宽 需求 的 环境 ， 确 实 很 大 比例 都 出 现在 网 络 
瓶颈 上 ，1Gb/s 的 速率 实在 是 很 低 了 。 如 果 IO Size 很 大 的 话 ，106MB 左 
右 是 正常 的 ， 这 也 是 我 平时 所 见 的 。IO Size 很 小 的 话 ， 五 六 十 兆 甚 至 
十 几 兆 都 有 可 能 ， 得 根据 IO 属性 综合 判断 。 实 际 中 可 能 发 生 各 种 问 
题 。 有 客户 甚至 测试 过 ， 用 盘 阵 不 如 用 USB 硬 盘 盒 。 性 能 分 析 一 定 要 
有 如 下 条 件 : 中 什么 应 用 ; @ 什 么 盘 阵 ， 内 部 行为 如 何 设计 的 ，CPU 
和 RAM 如 何 ; 什么 IO， 读 写 ， 大 小 ， 随 机 程度 ，QueueDepth 并 发 程 
度 ; @ 什 么 RAID 类 型 ， 具 体 参数 ，Strip、Block 之 类 ， 并 发 度 怎 样 ; 
各 种 适 配 卡 线 等 是 否 底层 缺乏 兼容 性 或 者 参数 不 匹配 。 


55. IO 是 怎么 定义 的 ? 


(1) 怎样 的 操作 才 算 是 一 个 IO 操作 ? 什么 操作 才 算 一 个 


transaction? 


(2) Transaction 和 IO 有 什么 关系 ? 


你 好 ， 关 于 如 何 才 算 一 个 IO 的 问题 ， 我 可 以 在 这 里 简要 讲解 ， 不 
过 更 详细 的 内 容 请 参考 本 书 前 几 章 。IO 在 不 同 层 次 有 不 同 的 概念 和 单 
位 。 一 次 IO 就 是 一 次 请 求 ， 对 于 磁盘 来 说 ， 一 个 IO 就 是 读 或 者 写 磁 盘 
的 某 个 或 者 某 段 扇 区 ， 读 写 完 了 ， 这 个 IO 也 就 结束 了 。 


至 于 transaction， 就 是 更 高 层 的 内 容 了 ，transaction 往 往 与 业务 逻 
辑 有 关系 。 比 如 你 去 银行 存 一 笔 钱 ， 你 存 这 笔 钱 的 过 程 中 ， 服 务 器 向 
数据 库 中 写 入 的 所 有 关联 的 操作 就 算是 一 个 transaction， 而 完成 这 一 个 
transaction， 往 往 对 应 了 底层 对 磁盘 的 多 次 IO。 上 比如 ， 读 出 数据 库 中 原 
来 的 数据 ， 比 如 你 原来 存款 是 10000 元 ， 他 读 出 来 了 ， 然 后 显示 在 柜台 
终端 上 ， 然 后 操作 员 存 入 5000 元 ， 数 据 传 输 到 数据 库 服务 器 ， 数 据 库 
服务 器 在 内 存 中 更 改 这 个 数值 ， 从 10000 更 改 为 1.5000， 然 后 数据 库 
Flush 的 时 候 ， 将 对 应 的 数据 库 写 入 磁盘 ， 完 成 后 ， 柜 台 终 端 显示 成 
功 。 这 个 过 程 中 对 应 了 多 次 磁盘 IO。 


补充 几 点 : IO 类 型 有 多 种 ， 数 据 型 IO 和 非 数 据 型 IO。 前 者 是 指 IO 
请 求 中 包含 读 写 局 区 的 数据 的 ， 后 者 是 指 IO 中 不 包含 扇 区 数据 ， 而 是 
承载 其 他 信息 的 ， 如 SCSI 协 议 中 的 很 多 操作 码 ， 比 如 0x01 就 是 zero 指 
令 ， 命 令 磁 盘 自行 向 所 有 局 区 中 写 0。 或 者 诸如 report LUN 这 种 常见 的 
令 ， 它 们 是 命令 磁盘 做 一 些 其 他 的 动作 ， 而 不 是 真正 的 读 写 扁 区 中 
的 数据 。 对 于 网 络 文件 系统 来 说 ， 也 有 数据 型 IO 和 非 数 据 型 IO， 前 者 
比如 读 写 操作 ， 后 者 比如 NFS 中 的 mount、fsinfo、fsstat、getattr 等 。 这 
就 是 transaction 与 10 的 关系 。 


56. Cache 与 1OPS 的 关系 


增 大 阵列 的 Cache 能 对 IOPS 有 多 大 的 影响 ? 对 于 顺序 读 写 、 随 机 
读 \ 写 影响 会 有 多 大 ? 


Cache 对 于 连续 IO 具有 较 好 的 效果 ， 尤 其 是 连续 小 块 IO。 针 对 
Cache， 不 同 的 产品 有 不 同 的 算法 ， 但 是 大 部 分 是 众人 上 皆 知 的 算法 。 连 
续 小 块 IO 效果 较 好 的 原因 是 因为 预 读 程序 会 预先 读 入 与 本 次 IO 相连 的 
周围 地 址 的 数据 ， 而 IO 的 Size 越 小 ， 并 且 IO 越 连续 ， 性 能 提升 的 效果 
就 越 明 显 了 。 


连续 大 块 IO 为 何 效 果 不 明 显 ? 其 实 这 里 所 说 的 明显 与 否 是 相对 
的 。 连 续 大 块 IO 的 时 候 ， 更 多 的 压力 在 于 磁盘 和 通道 带宽 ，Cache 只 
起 到 一 个 缓冲 作用 ， 并 没有 体现 出 任何 优化 的 效果 。 大 块 连续 IO 情况 
下 ，Cache Eject 率 非常 高 ， 系 统 没有 必要 也 没有 这 个 精力 去 再 做 什么 
优化 ， 也 没有 可 优化 的 地 方 。Cache 在 重复 读 的 情况 下 效果 最 佳 。 所 谓 
重复 读 ， 也 就 是 外 部 频繁 地 读 取 某 些 地 址 的 数据 ， 而 从 来 不 更 改 它 
们 。 这 样 ， 这 些 数 据 就 会 长 时 间 地 停留 在 Cache 中 而 无 须 访问 硬盘 。 


随机 IO 的 情况 下 ，Cache 效 果 最 小 。 随 机 IO 的 瓶颈 在 于 磁盘 寻 
道 ， 并 且 更 加 考验 一 个 产品 针对 IO 的 优化 程度 。 但 是 广泛 来 讲 ， 随 机 
IO 性 能 低下 的 问题 在 机 械 硬盘 的 世界 里 ， 永 远 不 可 能 有 本 质 上 的 解决 
办 法 。 只 有 SSD 或 者 其 他 概念 的 存储 方式 才 可 以 从 本 质 上 解决 随机 IO 
的 性 能 问题 。 但 是 面 对 随 机 IO ，Cache 也 不 是 一 点 效果 也 起 不 到 的 ， 
比如 某 种 算法 ， 类 似 数据 库 的 优化 方法 ， 即 让 数据 在 磁盘 上 的 分 布 单 
位 加 大 ， 每 次 读 都 读 出 整个 extent 来 碰 运 气 。 也 就 是 类 似 这 种 思想 ， 比 
如 有 一 群 蚂蚁 ， 你 要 把 它们 全 收集 起 来 ， 而 你 的 筷子 每 次 夹 的 太 少 ， 
麻烦 费力 低 效 ， 而 如 果 你 换 成 勺子 ， 直 接 将 蚂蚁 和 泥土 一 起 挖 起 来 ， 
同样 可 以 达到 收集 蚂蚁 的 效果 。 也 就 是 用 大 炮 打 蚊子 ， 炮 弹 爆 炸 了 ， 
那 肯 定 周围 的 蚊子 也 被 烧 死 了 。 


连续 读 : 对 于 小 块 连续 读 IO ，Cache 优 化 效果 最 好 ; 对 于 大 块 连 
续 读 IO， 优 化 效果 不 明显 。 


连续 写 : 对 于 连续 小 块 写 IO ， 如 果 Cache 是 write back 模 式 (通常 
都 应 当 是 write back) ， 由 于 IO Size 比 较 小 ，Cache 剩 余 空 间 充 裕 ， 不 
至 于 频繁 引起 Cache flush 操 作 ， 加 之 系统 不 繁忙 ， 有 更 多 时 间 去 进入 
算法 流程 对 这 些 IO 进 行 优化 调度 重 排 等 ， 所 以 此 时 Cache 效 果 展 好 。 
对 于 连续 大 块 瑟 JO，Cache flush 频 繁 ， 整 体 瓶 有 颈 归于 磁盘 ，Cache 优 化 
不 明显 ， 仅 作 缓冲 之 用 。 


随机 读 : 瓶颈 归于 磁盘 ，Cache 优 化 不 佳 ， 只 作为 缓冲 之 用 。 


随机 写 : 对 于 随机 小 块 写 IO ， 如 果 Cache 是 write back 模 式 ， 则 
Cache 表 现 出 来 的 优化 效果 良好 ， 使 得 程序 有 充分 时 间 去 重 排 、 优 化 这 
些 IO 数 据 从 而 为 更 高 效 的 并 行 写 入 磁盘 做 准备 。 对 于 随机 大 块 写 IO， 
此 时 Cache 效 率 最 为 低下 ， 整 体 狐 颈 归于 磁盘 但 是 表 于 Cache， 因 为 
Cache 快 速 被 充满 而 后 端 磁 盘 处 于 瓶颈 态 ， 此 时 系统 最 为 难受 。 


增加 Cache 会 对 连续 大 块 IO 性 能 提升 比较 明显 ， 但 是 对 于 小 块 
IO ，Cache 空 间 足 够 ， 再 增加 也 无 济 于 事 。 不 过 依然 要 综合 来 看 ， 比 
如 如 果 太 多 客户 端 写 入 导致 Cache 不 够 用 ， 那 当然 就 考虑 增加 Cache， 
总 之 ， 都 是 相对 的 。 只 要 后 端 磁盘 没有 达到 瓶颈 ， 增 加 Cache 有 好 处 ， 
而 且 大 块 和 小 块 ， 在 Cache 相 对 很 大 的 时 候 ， 大 和 小 的 区 别 就 可 以 忽略 
Ta 


不 知道 其 他 厂商 产品 底层 如 何 ftush 的 ， 我 猜测 应 该 是 一 直 在 
flush， 也 就 是 源源 不 断 地 利用 满 后 端的 带宽 。 如 果 一 次 ftush 非 要 等 待 
所 有 dirty block 写 盘 ， 而 此 时 其 他 线程 都 挂 死 的 话 ， 那 绝对 是 划 不 来 
的 。 所 以 我 推测 是 少食 多 餐 制 ，flush 频 率 非常 快 ， 或 者 是 完全 异步 处 
理 ， 后 端 细水长流 ， 而 前 端 洪 水 暴发 进入 水 库 荔 水 ， 同 时 进行 。 而 某 
些 产品 受制 于 日 志方 式 ， 日 志保 存 的 地 方太 小 以 至 于 flush 频 繁 并 且 是 


同步 阻塞 模式 。 前 者 那 种 细水长流 模式 下 ，Cache 越 大 当然 越 好 ， 再 大 
不 怕 因 为 电池 保护 ; 而 少食 多 餐 模 式 下 ， 太 大 的 Cache 对 写 IO 也 没 什 
么 效果 。 而 后 者 那 种 电池 只 保护 日 志 空 间 的 模式 下 ， 则 太 大 的 Cache 疫 
有 用 处 ， 充 其 量 读 缓存 占 大 部 分 ， 剩 余 的 写 缓存 根据 保存 日 志 的 空间 
来 定 。 


上 述 是 Cache 管 理 的 大 概 思想 ， 至 于 更 多 细节 的 实现 方式 ， 比 如 多 
合并 、 分 区 等 思想 和 技术 ， 就 要 看 不 同 产品 不 同 设计 方式 和 开发 人 
富有 创造 力 的 头脑 了 。 
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但 我 有 个 阵列 ， 把 Cache 由 原来 的 1GB 增 加 到 3GB。 做 SPC1 测 试 
从 BSU 240 增 加 到 300， 增 加 了 25% ， 是 因为 原来 Cache 就 太 少 了 吗 ? 


否认 这 个 测试 结果 ， 但 是 他 的 系统 缓存 只 有 1GB ， 未 免 太 小 ， 
况且 spc 结 果 中 随机 写 这 部 分 到 底 提 升 了 多 少 ， 无 从 考证 ， 况 且 不 知道 
是 什么 产品 ， 底 层 destage 的 机 制 等 。 但 是 不 可 否认 的 是 ， 增 加 Cache， 
对 读 优化 肯定 是 增加 的 了 。 


更 多 的 缓存 意味 着 可 以 将 更 多 的 IO 直接 写 到 缓存 里 面 ， 马 上 
response 给 主机 说 IO complete， 然 后 等 积累 到 一 定 程度 在 后 台 destage 
给 磁盘 ， 性 能 应 该 更 好 才 对 ， 为 何 说 是 相对 的 呢 ? 


Cache 太 大 ， 有 太 多 的 数据 没有 destage， 虽 然 放 到 Cache 中 有 电池 
保护 ， 但 是 还 是 要 尽快 destage 到 硬盘 上 才 保险 的 ， 这 就 引出 了 我 对 于 
destage 方 式 的 讨论 ， 如 果 是 一 次 全 部 destage， 那 么 太 大 的 Cache 当 然 会 
耗费 很 多 资源 了 ， 所 以 上 面 才 请 林 总 介绍 一 下 目前 大 Cache 的 产品 
destage 是 怎么 个 机 制 啊 。 


当然 ， 后 端 通道 和 磁盘 越 多 ， 相 应 Cache 就 得 跟 上 去 ， 这 个 无 可 否 
认 。 而 且 如 果 他 的 destage 方 式 是 按照 Cache 容 量 比例 来 的 ， 而 且 后 端 没 
有 瓶颈 ， 那 当然 是 缓冲 空间 越 大 越 好 了 ， 如 果 后 端 捉 襟 见 肝 ， 还 配 百 
八 十 GB 的 缓存 ， 那 也 是 没 必 要 的 。 但 是 为 何 我 说 随机 IO 下 Cache 优 化 
效果 最 小 ， 也 融 是 性 能 提升 最 小 ， 因 为 毕竟 是 随机 IO ， 缓 人 存 再 多 ， 形 
成 整 条 写 的 几率 也 是 相对 其 他 类 型 的 IO 低 ， 这 点 必须 承认 ， 所 以 后 端 
依然 是 会 产生 瓶颈 的 。 既 然 这 样 ， 后 端 产生 瓶颈 的 几率 增 大 ， 那 么 必 
然 需 要 destage 相 对 频繁 一 些 而 不 是 积 抠 太 多 一 次 destage， 因 为 一 旦 积 
攒 太 多 而 待 写 数 据 过 于 离散 ， 则 后 端 需要 很 长 时 间 才能 完成 destage， 
资源 消耗 比较 大 ; 反 过 来 说 ，destage 如 果 频 繁 ， 则 Cache 对 于 与 数据 所 
占 的 空间 也 就 不 需要 太 大 了 ， 而 可 以 放 更 多 的 读 prefetch 数 据 。 这 方面 
可 以 继续 讨论 研究 。 


57. SAS 和 FC 


据说 SAS 接 口 的 普通 盘 阵 ， 十 几 块 盘 就 可 以 达到 600MB/s 的 吞吐 
量 ， 这 样 我 还 用 买 高 端 FC 盘 阵 么 ? 


SAS 盘 阵 达 到 700MB/s，800MB/s，900MB/s 的 速度 都 是 常 有 的 事 
情 。SAS 卡 上 的 多 路 SAS PHY 可 以 形成 宽 端 口 的 ， 一 般 可 以 达到 12Gb 
的 带宽 ， 也 就 是 4 个 3Gb 的 合并 ， 所 以 才能 有 这 个 速度 。 目 前 SAS 已 经 
可 以 达到 单 PHY 速 率 6Gb/s。SAS 相 对 FC 是 不 错 的 选择 。 至 于 高 端的 
FC 盘 阵 ， 往 往 其 他 功能 强 ， 接 口 也 多 ， 而 且 线 绕 方面 也 比 SAS 方 便 ， 
更 容易 扩大 至 很 大 的 扩展 柜 数 量 ， 所 以 SAS 目 前 并 未 非常 流行 ， 取 代 
FC 的 路 程 还 有 很 长 要 走 ， 让 我 们 拭目以待 。 


我 一 直 有 个 疑问 ， 就 是 SAS 在 Sequential 环 境 中 的 表现 到 底 如 何 ? 
理论 上 可 是 有 12Gb 带 宽 啊 。 从 我 看 到 的 几 个 产品 上 看 ， 好 像 是 用 SAS 


的 产品 在 Seq 环 境 中 带宽 表现 不 是 十 分 好 ， 反 而 在 random 环 境 效果 更 
佳 。 


不 知道 是 哪 款 产品 ， 怎 么 测 的 ，SAS 一 RAID 卡 市 面 上 有 很 多 : 
软 ， 硬 ， 半 软 半 硬 。 带 RAID 功 能 的 SAS 箱 的 表现 与 外 置 RAID 卡 再 接 
JBOD 的 性 能 没什么 差别 。 随 机 和 seq 环 境 下 的 性 能 主要 取决 于 参差 不 
齐 的 RAID 卡 了 ， 看 其 优化 是 否 到 位 。 能 否 提 供 一 下 实际 数据 ， 研 究 研 


58. 软 RAID 和 RAID 控 制 器 有 何不 同 ? 


基于 软件 的 RAID 和 基于 控制 器 的 RAID 有 什么 区 别 ? 


前 者 泛 指 利用 主机 自己 的 硬件 资源 来 实现 RAID。 由 于 主机 上 没有 
针对 RAID 的 硬件 心 片 比如 XOR 运 算 器 或 者 其 他 硬 人 逻辑 心 片 ， 所 有 
RAID 功 能 全 部 由 主机 上 的 CPU 通 过 运行 操作 系统 底层 的 RAID 逻 辑 代 
码 执行 。 后 者 泛 指 RAID 逻 辑 运行 在 独立 的 硬件 上 ， 这 些 独立 设备 一 般 
都 配 有 特殊 的 硬 ASIC 心 片 来 将 复杂 的 运算 硬化 入 必 片 从 而 相对 于 全 人 靠 
CPU 来 运行 的 系统 性 能 大 为 提升 。 


当然 ， 也 有 的 控制 器 全 部 用 CPU 来 执行 RAID 功 能 和 其 他 存储 系统 
的 所 有 功能 。 二 者 的 区 别 : 前 者 耗费 主机 资源， 不 过 如 果 主 机 CPU 不 
繁忙 、 系 统 负 载 不 高 而 且 CPU 内 存 够 强劲 ， 其 表现 的 性 能 不 亚 于 硬 
RAID。 后 者 不 耗费 主机 资源 ， 但 是 要 求 一 个 独立 的 设备 ， 成 本 增高 ， 
前 者 由 于 在 主机 上 运行 ， 一 般 不 考虑 实现 复杂 的 逻辑 而 尽量 保持 高 效 
率 ， 后 者 则 由 于 在 独立 的 设备 上 ， 可 以 方便 实现 更 多 的 复杂 功能 ; 前 
者 运行 于 主机 之 上 ,一旦 出 现 问题 或 者 需要 维护 ， 则 很 可 能 要 停机 ， 
而 后 者 如 果 不 出 现 大 问题 ， 对 主机 端 一 般 疫 多 少 影响 ， 灵 活 。 


59. 关于 RAID 的 初始 化 


几 块 盘 创 建 好 一 个 RAID 5 后 ， 一 般 是 采用 什么 方式 初始 化 的 ? 我 
现在 想到 有 两 种 : 


(1) 每 个 Stripe 都 是 写 0， 这 样 只 需要 进行 写 操作 ， 不 需要 进行 
读 操作 和 XOR 操 作 ， 而 且 最 后 的 Stripe 数 据 是 呈 异 或 关系 的 。 


(2) 每 个 Stripe 是 模拟 RAID 5 坏 掉 一 块 盘 后 插入 一 块 新 盘 重 新 
recovery，, 即 先 读 同步 的 盘 上 的 数据 然后 作 XOR， 计 算 结 果 最 后 写 入 
被 同步 的 盘 。 


我 知道 Linux 内 核 中 是 采用 后 一 种 方式 的 ， 但 是 在 性 能 较 弱 的 
CPU 上 会 显得 有 点 吃力 ， 因 为 要 作 XOR 计 算 ， 不 知道 有 没有 其 他 
RAID 厂 家 采用 第 一 种 方式 的 ? 


另外 ， 不 知道 有 没有 不 做 初始 化 就 直接 使 用 的 RAID 厂 家 ? 


前 台 初 始 化 的 时 候 是 不 能 接受 IO 的 ， 必 须 等 待 。 比 如 DS 6800 就 
是 这 样 。 前 台 初 始 化 理论 上 也 有 两 种 方式 ， 也 就 是 上 面 列 出 来 的 两 种 
方式 ，Zero Disk， 或 者 读 出 整个 条 带 的 原来 数据 然后 计算 Parity 数 据 然 
后 写 Parity。 不 过 一 般 倾 向 于 Zero Disk， 因 为 这 种 方式 最 为 简便 ， 只 需 
要 发 送 一 个 SCSI Operation 0x01 指 令 到 磁盘 然后 等 待 返回 即 可 。 控 制 
器 不 耗费 一 点 资源 。 如 果 是 第 二 种 ， 则 有 点 兴 师 动 众 的 意思 ， 速 度 慢 
效率 低 ， 也 没有 必要 这 样 做 。 


台 初 始 化 ， 这 种 方式 可 以 接受 IO ， 理 论 上 是 控制 器 从 RAID 
Group 被 建 好 的 那 一 刻 起 即 开 始 做 初始 化 ， 不 可 能 使 用 Zero Disk 的 方 
法 了 ， 因 为 此 时 需要 接受 上 层 下 发 的 IO 了， 必须 由 控制 器 做 读 写 操 


作 ， 所 以 只 能 用 Parity 重 算 的 方法 。 一 旦 某 个 Stripe 有 IO 进来 ， 则 控制 
器 跳 转 到 这 个 Stripe， 初 始 化 这 个 Stripee， 撒 带 上 下 发 进来 的 写 数 据 一 
起 将 这 个 Stripe 处 理 好 ， 使 得 其 Parity 与 user Data 是 一 致 的 。 如 果 是 读 
IO， 而 且 目 标 地 址 党 在 了 尚未 初始 化 的 条 市 上 ， 那 么 控制 器 直接 在 内 
存 中 返回 全 0 给 发 起 IO 的 主机 ; 如 果 落 在 了 已 经 初始 化 过 的 条 带 中 ， 
则 此 时 由 于 控制 器 无 法 判断 这 个 条 带 初始 化 之 后 是 否 已 经 被 写 入 实际 
数据 ， 只 能 假设 已 经 被 更 改过 ， 所 以 需要 从 对 应 目标 地 址 读 出 数据 并 
返回 。 处 理 完 后 ， 继 续 跳 回 原来 的 断 点 然后 继续 顺序 处 理 其 他 Stripe。 
控制 器 在 后 台 初 始 化 过 程 中 会 对 已 经 初始 化 和 未 初始 化 的 条 市 做 记 
录 ， 这 个 记录 很 小 ， 比 如 一 个 bitmap， 每 个 位 代表 一 个 条 带 ， 初 始 化 
完成 就 标 为 1， 未 初始 化 就 标 为 0， 所 以 查找 起 来 不 费力 。 


为 了 避免 不 必要 的 及 烦 ， 前 台 初 始 化 过 程 应 当选 择 Zero Disk 的 方 
式 。 校 验 型 RAID Group 必须 初始 化 ， 只 不 过 是 前 台 还 是 后 台 而 已 。 有 
百 台 初始 化 的 产品 ， 一 些 低 端 RAID 卡 都 可 以 做 到 。 


前 提 是 RAID 5 边 初始 化 ， 边 要 写 数 据 。 当 RAID 5 初始 化 到 了 
10%， 而 数据 写 到 了 20%。 假 如 这 时 RAID 5 中 掉 了 一 个 盘 ， 请 问 我 这 
写 的 20% 数 据 能 够 恢复 吗 ? 如 果 不 能 ， 前 10% 的 数据 能 恢复 吗 ? 或 者 
数据 就 是 不 能 恢复 ? 能 举 个 例子 帮 分 析 一 下 吗 ? 谢谢 。 


RAID 5 本 身 是 容许 一 个 磁盘 损坏 或 者 丢失 。 不 管 前 台 或 者 后 台 初 
始 化 ， 凡 是 已 经 初始 化 完成 的 Stripe， 皆 可 以 容许 一 块 磁盘 丢失 ， 而 未 
初始 化 完成 的 Stripe， 保 护 它 们 也 没有 意义 。 这 样 的 话 ， 系 统 必 须 依然 
可 以 从 剩余 的 磁盘 来 校 验 出 丢失 磁盘 对 应 Stripe 上 的 数据 。 不 过 实际 
上 ， 一 个 未 初始 化 完成 的 RAID Group 已 经 坏 盘 ， 那 么 正好 是 破 缸 子 破 
摔 了 。 你 想 想 ， 此 时 系统 就 等 于 初始 化 完成 了 并 且 进 入 等 待 Rebuild 状 


态 ， 插 入 好 盘 之 后 ， 重 新 逐 Stripe 的 Rebuild， 此 时 就 无 所 谓 初始 化 与 


否 了 。 


所 以 ， 不 知道 上 面 这 个 例子 是 假想 的 还 是 实际 的 ， 理 论 上 讲 系 统 
依然 可 以 接受 IO， 只 不 过 一 旦 未 被 初始 化 的 Stripe 上 有 IO， 则 数据 一 致 
性 要 靠 应 用 层 来 判断 了 。 所 以 上 面 这 个 例子 应 该 不 会 发 生 ， 如 果实 际 
中 真 的 发 生 了 RAID Group 因为 未 初始 化 完 而 掉 盘 就 停止 接受 IO， 则 可 
能 系统 为 了 充分 保证 安全 性 吧 ， 此 时 你 可 以 插 上 新 盘 让 它 Rebuild 就 可 
以 了 。 如 果 这 样 都 不 行 ， 那 只 能 证 明 这 个 后 台 初 始 化 系统 设计 的 不 完 
善 。 数 据 是 可 以 手动 恢复 的 ， 找 专门 的 恢复 结构 ， 只 要 他 用 的 RAID 5 
校 验方 式 是 常规 套路 。 


60. 关于 SAN 共 享 


SAN 为 什么 不 能 文件 共享 ? 谢谢 ! 也 就 是 说 ， 为 什么 块 级 存储 ， 
不 能 提供 共享 ? 


SAN 是 一 个 大 家 访问 存储 设备 的 通道 ， 处 于 底层 。 对 于 一 个 目标 
设备 ， 可 以 有 多 个 客户 端 设备 对 其 访问 ， 同 时 读 写 ， 没 有 问题 。 块 级 
的 访问 是 最 低级 别 的 ， 接 受 访问 的 设备 根本 就 不 去 管 有 多 少 客户 端 访 
问 ， 谁 写 了 哪些 局 区 ， 是 否 被 不 正确 地 覆盖 了 。 


底层 就 是 要 实现 高 效率 的 访问 ， 如 果 把 这 些 东 西 都 做 到 硬盘 上 或 
者 SAN 盘 阵 中 ， 那 逻辑 就 相当 复杂 了 。 当 然 ，NAS 设 备 就 是 这 样 一 个 
提供 文件 共享 的 设备 ， 因 为 NAS 协 议 的 一 个 作用 就 是 解决 多 客户 端 共 
享 文件 ， 保 证 文件 的 一 致 性 。 然 而 这 也 取决 于 客户 端的 决定 ， 如 果 客 
户 端 在 使 用 NAS 的 时 候 ， 不 进行 Lock 操 作 ， 那 同样 也 会 出 现 后 来 写 入 


的 覆盖 之 前 写 入 的 情况 ， 就 是 这 样 设计 的 。 这 些 逻 辑 全 处 于 应 用 层 
二 


NAS 协 议 的 Lock 一 样 去 保证 一 致 性 ， 其 功能 也 不 是 为 了 共享 ， 最 大 一 
个 作用 是 为 了 解决 Brain Split。 还 是 那 句 话 ，Block 级 别 是 低级 智能 
的 。 要 实现 文件 共享 ， 必 须 在 Block 卷 这 一 层 解 决 ， 也 就 是 使 用 集群 文 
件 系统 ， 或 者 使 用 一 个 诸如 Sanergy 的 卷 共 享 软件 ， 上 层 依 然 使 用 诸如 
NTFS 这 种 常规 的 FS ， 卷 共享 软件 可 以 保证 访问 同一 LUN 的 多 个 客户 
端 上 的 FS 时 刻 从 这 个 LUN 读 取 的 数据 都 是 最 新 的 数据 ， 当 某 个 客户 端 
写 入 数据 的 时 候 ， 卷 共享 软件 会 将 其 他 客户 端 FS 缓存 中 对 应 被 写 入 块 
的 数据 进行 过 期 作废 处 理 ， 重 新 读 入 最 新 数据 。 


各 个 客户 端 上 的 fs 缓存 ， 此 时 在 卷 共 享 软件 的 全 盘 管 理 下 ， 实 现 
了 全 局 共 控 。 如 果 不 这 么 做 ， 举 个 例子 ， 假 如 T1 时 刻 设备 1 将 10000 这 
个 数值 写 入 了 扇 区 0， 而 设备 2 不 知道 ， 没 有 人 通知 它 ， 设 备 2 的 FS 组 
存 中 对 应 这 个 扇 区 的 数据 依然 是 0。 随 后， 设备 2 上 的 程序 做 了 一 次 运 
算 ， 比 如 : 余额 十 5000， 其 实 此 时 ,余额 应 该 =10000， 但 是 由 于 没 人 
通知 设备 2 局 区 0 的 内 容 已 经 更 改 ， 所 以 设备 2 仍然 用 0 来 当 余 额 ， 这 样 
算出 的 结果 是 5000， 然 后 写 入 磁盘 ， 之 后 ， 余 额 变 成 了 5k， 你 赔 了 
10000 元 啊 ! 


上 面 的 例子 是 一 个 概要 ， 现 实 中 ， 多 设备 同时 读 写 同一 LUN， 会 
产生 各 种 各 样 的 后 果 。 有 时 候 设 备 1 下 次 读 出 的 时 候 会 完全 混乱 ， 就 像 
刚才 的 例子 ， 应 该 是 1 50000， 结 果 错 误 保 存 成 了 5000。 这 种 结果 算是 
杀人 于 无 形 之 间 。 有 时 候 如 果 遇 到 FS 的 MetaData 扇 区 不 一 致 ， 则 FS 轻 
则 fsck， 重 则 骨 溃 。 骨 溃 了 比 上 一 种 情况 好 ， 如 果 不 骨 溃 就 这 么 以 论 
传 论 将 牛头 不 对 马 嘴 的 数据 返回 给 上 层 ， 那 后 果 可 是 不 堪 想 象 了 。 然 


而 ， 用 了 上 面 的 方法 ， 只 能 保证 数据 在 文件 系统 和 卷 之 下 逻辑 的 一 致 
性 ， 却 不 能 保证 上 层 业 务 方面 的 一 致 性 。 业 务 层 的 逻辑 不 可 能 也 没有 
必要 放 到 FS 之 下 去 实现 。 所 以 还 需要 实现 业务 层 的 一 致 性 ， 举 个 例 
子 : 比如 设备 1 在 这 个 LUN 的 0 扇 区 写 入 了 数据 ， 而 设备 2 在 卷 共 享 软 
件 或 者 集群 FS 的 控制 下 ， 它 的 FS 缓存 对 应 的 这 个 扇 区 的 数据 过 期 ， 重 
新 读 入 最 新 的 由 设备 1 写 入 的 数据 ， 读 入 之 后 ， 设 备 2 对 其 做 了 更 改 ， 
与 入 覆盖 局 区 0。 


这 个 过 程 是 一 个 正常 的 过 程 ， 不 会 产生 数据 不 一 致 性 。 然 而 ， 如 
果 设 备 1 和 设备 2 之 间 没 有 足够 的 配合 ， 比 如 ， 我 用 同一 个 账户 在 设备 1 
和 设备 2 同时 登录 进行 数据 更 改 ， 假 设 还 是 刚才 那个 银行 账户 吧 ， 原 来 
余额 是 0，T1 时 刻 我 在 设备 1 上 存 入 10000， 设 备 1 将 数据 写 到 扇 区 1 保 
存 ， 然 后 关闭 终端 应 用 程序 。 


此 刻 设 备 2 缓 存 过 期 重新 读 入 新 扇 区 0 数据 。 然 后 我 来 到 设备 2 查看 
我 的 余额 ， 仍 是 0， 为 什么 呢 ? 为 何 FS 缓 存 都 更 新 了 但 是 终端 显示 仍 
然 是 呢 ? 这 是 应 用 程序 编写 的 时 候 没 有 考虑 数据 业务 层 的 一 致 性 ， 如 
果 程 序 随 时 参考 FS 缓存 内 的 最 新 数据 而 不 是 自身 缓存 内 的 数据 ， 那 么 
最 新 的 数据 就 会 生效 ， 不 管 是 使 用 Push 还 是 Pull 的 方式 获得 最 新 数 
据 。T2 时 刻 ， 在 设备 2 上 直接 退出 应 用 程序 ， 此 时 设备 2 上 的 应 用 程序 
由 于 这 个 错误 ， 将 一 直 缓 存在 程序 Buffer 中 的 数值 0 写 入 扇 区 0， 这 
样 ，10000 变 成 了 0。 你 损失 了 10000。 所 以 ， 业 务 层 面 ， 也 就 是 应 用 程 
序 层面 ， 一 定 要 考虑 周到 ， 利 用 各 种 方式 来 相互 通信 ， 或 者 从 底层 时 
刻 获得 最 新 的 数据 ， 是 很 重要 的 。 


61. Cache 和 Buffer 的 区 别 


请 问 ，Cache 和 Buffer 的 主要 区 别 是 什么 ? 都 是 缓存 ， 区 别 在 哪 ? 


其 实 Cache 和 Buffer， 物 理 上 讲 都 是 RAM。 人 逻辑 上 讲 ， 你 把 Cache 
叫 成 Buffer， 或 者 把 Buffer 叫 成 Cache， 都 没有 错 。 不 过 Buffer 多 用 于 编 
程 方面 ，Cache 多 用 于 非 编 程 方面 的 叫 法 。 比 如 为 某 程序 分 配 一 段 
Buffer， 而 一 般 没有 说 为 某 程序 分 配 一 段 Cache 的 ， 但 是 你 可 以 说 这 个 
程序 有 Cache， 或 者 说 Cache 是 泛 指 ，Buffer 是 特 指 。 见 仁 见 智 。 而 对 
于 人 磁盘 阵列 来 讲 ，Buffer 二 Cache。 


另外 ， 从 本 质 上 讲 ，Buffer 是 “缓冲 ”， 而 Cache 是 “缓存 >”， 即 Buffer 
中 的 数据 是 一 定 要 在 短 时 间 内 被 处 理 的 ， 而 Cache 则 可 以 作为 一 个 数据 
的 长 期 的 容器 而 其 中 的 数据 不 一 定 非 要 被 立刻 处 理 。 


62. 关于 存储 系统 中 的 CPU 的 作用 


高 端 存储 中 CPU 起 的 作用 到 底 有 多 大 ? 


高 端 存 储 的 CPU 对 性 能 影响 很 大 。 因 为 高 端 产 品 其 出 发 点 不 单单 
是 把 磁盘 数据 拿 出 来 扔 出 去 ， 或 者 等 着 别人 写 进 来 ， 然 后 写 到 磁盘 这 
么 简单 了 。 高 端 存储 中 CPU 主要 决定 下 列 4 个 大 方面 的 作用 : 


(1) 基本 的 数据 吞吐 服务 。 


(2) 物理 上 ， 大 量 的 IO 卡 和 接口 ， 需 要 消除 底层 的 瓶颈 。 总 控 
各 种 附加 硬 asic， 比 如 xor 的 心 片 ， 或 者 数据 压缩 硬 忆 片 等 功能 心 片 ， 
使 CPU 周边 的 所 有 枪杆 子 和 部 队 有 条 不 率 地 执行 任务 。 


(3) 逻辑 上 ， 大 量 客户 端 并 发 、 随 机 IO 操作 的 优化 ， 需 要 消除 
逻辑 上 IO 的 瓶颈 。 


(4) 功能 的 多 样 化 ， 各 种 高 附加 值 的 功能 比如 snapshot、 
mirror、dr、dedup 等 。 


CPU 的 高 性 能 对 整个 存储 的 性 能 起 到 多 大 的 作用 ? 


有 了 上 面 的 4 个 方面 ， 下 面 就 来 一 一 描述 一 下 CPU 如 何 影响 其 性 
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(1) 基本 的 数据 吞吐 服务 。 


这 是 一 个 盘 阵 最 基本 的 功能 。prefetch、 queue、 read wirte、 
flush， 这 些 过 程 都 是 最 基本 的 要 求 。 这 些 过 程 ， 看 算法 复杂 度 和 IO 类 
型 而 定 ， 基 本 上 连续 大 块 IO 对 CPU 耗费 不 大 ， 主 要 在 于 磁盘 和 Cache 的 
瓶颈 ， 因 为 连续 大 块 IO 不 要 求 CPU 做 出 多 少 运算 。 而 对 于 连续 小 块 
IO， 此 时 虽然 IO 是 连续 的 ， 但 是 Size 变 小 ， 系 统 整体 吞吐 量 相 对 于 大 
块 IO 来 说 降低 不 多 ， 当 然 ， 前 提 是 除了 磁盘 之 外 的 其 他 节点 没有 瓶 
颈 ， 而 CPU 利用 率 却 显著 上 升 ， 此 时 对 CPU 的 要 求 就 逐渐 显现 出 来 。 


当前 端的 IO 逐渐 增加 ，CPU 一 Cache 一 diskchannel 这 条 线 上 随处 可 
以 产生 瓶颈 ， 比 较 好 的 表现 应 该 是 disk 首 先 瓶 有 颈 ， 如 果 是 Cache 或 者 
CPU 首先 瓶颈 ， 那 么 这 个 系统 就 不 是 最 优 的 。 对 于 随机 IO 来 讲 ， 此 时 
程序 会 进入 优化 随机 IO 的 算法 模块 中 ， 视 算法 复杂 度 而 定 ， 此 时 要 求 
CPU 足够 强劲 来 抵消 一 部 分 磁盘 固有 的 面 对 随 机 IO 的 瓶颈 。 此 时 ， 算 
法 越 精良 ，CPU 越 强 ， 性 能 就 越 提 升 ， 当 然 如 果 算 法 本 身 已 经 达到 尊 
颈 ， 此 时 提升 CPU 也 没有 用 。 所 以 ， 这 些 东 西 都 要 经 过 详细 的 测试 、 
考察 。 


(2) 物理 上 ， 大 量 的 IO 卡 和 接口 ， 需 要 消除 底层 的 瓶颈 。 总 控 
各 种 附加 硬 asic， 比 如 xor 的 心 片 ， 或 者 数据 压缩 硬 忆 片 等 功能 心 片 ， 


使 CPU 周边 的 所 有 枪杆 子 和 部 队 有 条 不 率 地 执行 任务 。 高 端 存储 有 大 
量 的 IO 卡 设备 ， 从 底层 角度 来 讲 ， 如 此 多 的 IO 设备 和 接口 ， 就 要 求 多 
CPU 和 够 多 的 总 线 与 其 对 应 来 响应 源源 不 断 的 中 断 和 数据 收发 操作 
了 。 其 次 ， 高 端 存 储 的 架构 大 多 硬件 模块 化 ， 各 个 模块 细 分 功能 ， 比 
如 xor 模 块 专门 计算 xor 值 ， 其 他 模块 fc 通道 控制 、Cache 控 制 、 数 据 压 
缩 等 ， 这 些 硬件 心 片 在 一 个 高 端 存 储 中 有 多 个 ， 这 些 功 能 的 相互 配合 
和 运作 要 求 CPU 数 量 足 够 与 之 匹配 ， 而 频率 则 没有 过 多 要 求 。 


(3) 逻辑 上 ， 大 量 客户 端 并 发 、 随 机 IO 操作 的 优化 ， 需 要 消除 
逻辑 上 IO 的 瓶颈 。 


高 端 存储 的 一 个 必须 考虑 的 东西 就 是 同时 满足 大 量 客户 端的 并 发 
操作 。 大 量 的 不 同 种 类 的 IO 类 型 同时 进入 ， 此 时 要 求 算法 能 够 临危 不 
惧 不 乱 ， 井 井 有 条 地 对 这 些 IO 进 行 queue、requeue 分 类 等 操作 。 首 先 
算法 本 身 应 该 效率 足够 高 ， 其 次 CPU 应 当 足 够 强 或 者 核心 足够 多 从 而 
使 得 算法 更 快 地 执行 而 不 产生 等 待 ， 这 样 才能 满足 大 量 数据 源源 不 断 
地 进出 而 不 是 堵塞 在 Cache 中 ， 高 端 存 储 Cache 动 辑 几 百 GB ， 这 就 要 求 
操作 手 需 要 更 快 地 充满 或 者 清空 这 些 空间 以 便 接受 更 多 IO。 


(4) 功能 的 多 样 化 ， 各 种 高 附加 值 的 功能 比如 Snapshot、 
Mirror、DR、Dedup、Cache 分 区 等 。 这 些 东 西 可 以 说 是 纯 软 件 操 作 
了 ， 对 磁盘 速度 没有 过 高 要 求 。 而 对 算法 要 求 很 高 ， 比 如 Snapshot、 
Dedup 等 ， 你 看 Datadomain 为 什么 两 家 来 抢 他 ， 就 是 因为 它 的 算法 能 
让 Dedup 在 在 线 数 据 上 运行 而 效率 足够 高 。 越 是 好 的 算法 ， 越 是 能 在 
耗费 CPU 相对 较 小 的 情况 下 完成 相对 较 好 的 任务 ， 如 果 算 法 不 好 ， 
CPU 利用 率 又 高 ， 那 只 能 提升 CPU 来 补偿 了 。 还 有 诸如 Snapshot、 
Mirror、Sync 等 操作 ， 其 底层 是 很 复杂 的 东西 ， 其 底层 要 保存 很 多 结 
构 比 如 bitmap 之 类 ， 都 要 求 算 法 和 CPU 的 。 


个 人 认为 高 端 存储 主要 在 于 磁盘 数据 与 缓存 的 交换 ， 那 么 主要 性 
能 就 体现 在 这 里 ， 那 CPU 的 性 能 体现 在 哪里 ? 


刚才 已 经 列举 了 高 端 存储 除了 基本 的 数据 吞吐 服务 之 外 的 功能 以 
及 CPU 对 其 影响 ， 这 里 就 不 多 说 了 。 


仅仅 是 对 数据 预 读 或 控制 读 写 队列 ? 那么 现 有 的 CPU 是 不 是 足以 
满足 需要 ? 


如 果 仅 仅 是 prefetch、qdueue optimization，RAID 卡 上 的 CPU 也 做 的 
不 错 ， 但 是 高 端 存 储 需 要 更 多 的 prefetch， 更 多 更 复杂 的 queue， 更 多 
更 复杂 的 算法 ， 考 虑 的 更 多 ， 所 以 需要 CPU 足够 强劲 。 现 有 的 CPU 都 
是 根据 整个 系统 可 以 提供 的 动力 来 选用 的 ， 或 者 存在 商业 价值 的 因 
素 ， 不 满足 要 求 就 花 钱 买 更 强 的 CPU。 


HDS、EMC 的 高 端 中 采用 的 类 似 分 布 式 的 结构 ， 采 用 大 量 相对 低 
频率 的 CPU; 而 IBM 则 是 对 称 多 处 理 器 结构 ， 抛 开 可 靠 性 等 因素 单纯 
考虑 控制 器 性 能 ，IBM 的 DS8000 的 结构 通过 提升 小 机 性 能 来 提升 存储 
性 能 ， 究 竟 能 提升 到 什么 程度 ? 


CPU 性 能 提升 有 两 种 方式 : 整体 核心 数 和 整体 频率 和 。 这 两 种 提 
升 方式 的 选择 ， 与 系统 软件 底层 结构 有 很 大 关系 。 如 果 系 统 底 层 的 各 
个 模块 之 间 是 互 不 牵制 ， 独 立 并 发 运行 的 多 个 进程 或 者 线程 ， 并 且 明 
显存 在 线程 并 发 数 已 经 受到 整体 CPU 核 数 的 限制 成 为 瓶颈 了 ， 那 么 这 
种 系统 采用 提升 CPU 核心 数量 的 方法 ， 性 能 提升 最 为 有 效 。 


而 如 果 某 系统 软件 底层 采用 的 多 是 各 个 模块 之 前 有 牵制 不 能 并 发 
运行 ， 或 者 直接 单线 程 ， 这 种 结构 很 容易 受到 CPU 频率 的 限制 ， 而 提 
升 核心 数 对 这 种 结构 没有 很 大 的 提升 ， 反 而 提升 单个 CPU 的 频率 ， 性 


能 提升 很 大 。 然 而 ， 不 管 什 么 样 的 软件 架构 ， 随 着 产生 湛 颈 的 触发 因 
素 不 同 ， 比 如 IO 的 行为 、 并 发 量 或 者 其 他 功能 性 模块 比如 snapshot 等 
设计 的 不 同 ， 对 这 两 种 架构 产生 的 影响 也 不 同 ， 有 时 候 前 者 反而 可 能 
受 频率 影响 ， 而 后 者 可 能 受 核心 数 的 影响 ， 这 时 候 就 需要 综合 判断 取 
平衡 了 。DS8000 软 件 层 面 采 用 什么 方式 ， 我 不 清楚 。 但 是 无 外 乎 上 面 
的 两 种 架构 。 


IBM 把 P6 装 到 DS8000 里 能 起 多 大 作用 ? 


这 不 是 起 多 大 作用 的 问题 ， 而 是 这 个 产品 就 是 这 么 设计 的 ， 用 小 
机 充当 控制 妖 。 


63. 数据 库 系统 与 文件 系统 的 关系 


数据 库 系统 与 文件 系统 的 区 别 是 什么 ? 最 近 买 了 《大 话 存 储 》， 
正在 读 ， 感 觉 不 错 。 


数据 库 是 应 用 程序 ， 一 般 都 是 运行 在 操作 系统 之 上 的 。 而 文件 系 
统 是 操作 系统 内 核 的 一 个 模块 ， 运 行 于 操作 系统 内 核 。 然 而 ， 数 据 库 
也 有 文件 系统 的 功能 ， 即 ， 可 以 自己 管理 和 分 配 磁盘 上 的 Block， 读 写 
数据 ， 当 然 也 可 以 利用 OS 内 核 的 文件 系统 来 读 瑟 文件 数据 。 


64. Iometer 中 Worker 的 问题 


您 好 ， 我 想 请 教 您 一 下 在 使 用 IOmeter 进 行 测试 的 时 候 ， 多 个 
worker 连 一 个 盘 和 一 个 worker 连 一 个 盘 测试 有 什么 区 别 呢 ? 谢谢 ! 还 
有 当 经 过 samba 和 NAS 导 出 的 盘 显 示 成 黄色 红 杠 的 时 候 ， 怎 么 开始 测 


试 。IOmeter 写 入 iobw.tst 文 件 的 时 候 ， 怎 么 写 入 ， 写 入 多 大 啊 ? 非常 
感谢 您 ! 


如 果 你 这 多 个 盘 是 同一 台 盘 阵 ， 如 果 想 测试 整体 性 能 ， 得 需要 知 
道 这 个 盘 阵 内 部 是 如 何 对 IO 进 行 处 理 的 ， 如 果 只 测试 一 个 盘 ， 可 能 
不 能 反映 这 人 台 设 备 的 真实 能 力 ， 因 为 设备 有 可 能 基于 LUN 来 分 配 资 
源 ， 如 果 只 对 一 个 LUN 进 行 IO 测 试 ， 则 这 样 的 话 很 有 可 能 盘 阵列 就 有 
所 保留 ， 所 以 最 好 是 每 个 盘 都 多 个 worker 测 试 。Iometer 好 像 不 能 对 
NAS 盘 符 的 ， 可 以 对 iSCSI。 那 个 文件 是 要 充满 整个 盘 的 ， 如 果 直 接 测 
试 raw 设 备 ， 则 不 会 写 文件 。 测 试 格式 化 后 的 磁盘 ， 会 一 直 写 满 。 这 个 
不 用 我 说 你 目 己 试 试 也 能 试 出 来 。 


65。 测 试用 Block 大 小 的 问题 


网 络 存储 测试 中 测试 存储 系统 性 能 的 IOPS 时 ， 为 什么 块 大 小 选择 
512B~64KB 啊 ? 512B 肯 定 是 因为 磁盘 的 扇 区 原因 ， 可 64KB 是 怎么 回 
事 ? 


要 获取 IOPS，IO Size 当 然 要 最 小 ， 也 就 是 512B 了 ，IO Size 过 大 的 
话 ， 会 在 IOPS 较 低 的 情况 下 就 已 经 达到 饱和 链 路 带宽 了 。 此 时 不 足以 
反映 设备 的 真实 饱和 IOPS。 达 到 最 大 IOPS 的 条 件 是 完全 利用 所 有 前 端 
接口 发 送 请 求 ，512B 的 连续 IO， 并 且 链 路 带宽 没有 饱和 ， 此 时 所 得 到 
的 IOPS 数 据 便 是 系统 饱和 IOPS。 


当然 这 种 情况 下 的 IOPS 吞 吐 能 力 是 没 多 少 意义 的 。 在 小 块 随机 IO 
情况 下 的 IOPS 更 具有 意义 。 更 有 甚 者 要 求 不 使 用 内 部 Cache， 甚 至 连 
物理 磁盘 的 读 Cache 都 不 使 用 ， 在 这 种 情况 下 所 得 到 的 IOPS 数 据 则 可 
以 反映 设备 对 后 端 磁盘 IO 的 优化 程度 。 至 于 64KB ， 这 个 就 因 人 而 异 


， 总 之 ， 要 根据 环境 来 进行 测试 。 比 如 你 的 环境 中 主机 的 IO Size， 
最 好 能 做 成 一 个 图 ， 取 几 个 点 ， 然 后 针对 存储 IOPS 吞 吐 ， 结 果 再 做 一 
个 图 ， 这 样 比较 直观 地 反映 存储 在 各 种 Size 和 随机 率 IOPS 情 况 ， 并 判 
断 这 个 设备 是 否 比 较 均衡 而 不 是 大 起 大 落 。 


但 是 我 想 测试 网 络 存储 系统 的 性 能 ， 也 就 是 通过 网 络 连接 后 的 存 
储 系统 ， 希 望 能 尽 可 能 地 模拟 真实 的 环境 ， 就 需要 不 同 的 IO Size 了 。 
但 是 IO Size 的 选择 有 个 范围 ， 测 试 时 想 采 用 IO Size 线 性 递增 的 方式 进 
行 ， 即 512B, 1KB, 2KB, 4KB, ...... 64KB, ...... ， 但 是 最 大 多 大 
合理 ， 是 否 是 一 直 递 增 ， 直 到 系统 的 响应 时 间 使 用 户 不 能 接受 为 止 。 
我 在 某 个 资料 上 看 到 TCP 的 窗口 大 小 是 64KB， 不 知道 是 不 是 跟 这 些 因 
素 有 关 ? 


根据 你 环境 中 主机 的 行为 而 定 ， 如 果 主 机 平均 在 64KB， 你 去 用 
512B 测 试 出 来 看 性 能 ， 那 就 不 对 口 了 。IO Size 最 大 值 是 有 的 ， 两 个 地 
方 限制 : 协议 本 身 ， 设 备 本 身 。 前 者 是 协议 固有 限制 ， 后 者 则 根据 存 
储 端 的 考虑 ， 有 些 存储 设备 并 不 严格 遵循 协议 ， 这 也 是 兼容 性 参差 不 
齐 的 原因 。 最 后 你 又 说 TCP 了 ， 那 么 我 更 不 明白 了 ， 你 这 是 测试 的 
iSCSI 还 是 NAS 呢 ? IO Size 和 TCP 一 层 的 没有 直接 关系 。TCP 的 Buffer 
大 或 者 小 ， 并 不 制约 上 层 的 东西 ， 倒 是 MSS 和 MTU 有 点 制约 关系 。 


66. 存储 性 能 的 衡量 指标 


存储 系统 的 性 能 衡量 指标 有 哪些 ? 目前 ， 我 用 三 个 海量 存储 系统 
测试 的 性 能 指标 (元 数据 吞吐 率 ， 并 发 访问 量 和 聚合 带宽 IOPS/ 响 应 
时 间 ) 来 判断 网 络 存储 系统 性 能 是 否 正确 ? 由 于 网 络 存 储 系统 测试 时 
是 通过 文件 系统 接口 来 测量 的 ， 因 此 不 知 能 否 测 出 网 络 存 IOPS/ 响 应 


时 间 指 标 。 在 衡量 磁盘 阵列 时 ， 这 个 指标 是 必需 的 ， 但 是 哪个 测试 是 
基于 文件 系统 之 下 得 出 来 的 ? 疑问 中 .…… 


元 数据 吞吐 量 ， 其 实 没有 多 少 实 量 ， 看 元 数据 IOPS。 而 对 于 NAS 
来 说 ， 这 些 IO 大 部 分 会 Cache hit， 因 为 NAS 内 部 可 以 感知 自己 的 FS 逻 
辑 ，FS 预 读 元 数据 。 并 发 访问 ， 聚 合 带宽 ， 这 两 点 IOPS 响 应 时 间 曲 线 
可 以 反映 出 一 台 设 备 大 概 的 素质 了 。 当然 可 以 不 通过 文件 系统 接口 ， 
使 用 RAW 直接 读 写 测试 。 


可 是 在 小 文件 模式 下 ， 元 数据 的 量 就 上 来 了 。 


我 的 意思 是 说 实 量 和 虚 量 的 概念 。 实 量 直接 导致 吞吐 量 上 升 ， 而 
虚 量 直接 导致 IOPS 的 上 升 ， 小 文件 多 的 情况 下 ， 虚 量 相 对 比较 多 ， 
IOPS 相 对 较 大 。 


请 教 冬瓜 兄 ， 如 果 别 人 只 给 我 们 提供 文件 系统 接口 ， 我 们 只 能 把 
别人 给 的 网 络 存 储 系统 当成 黑 盒子 ， 那 我 怎么 得 到 系统 的 IOPSs 与 其 对 
应 的 响应 时 间 ? 我 知道 在 磁盘 阵列 里 是 阵列 管理 器 决定 了 IOPS 的 大 
小 ， 但 是 在 存储 系统 中 ， 由 于 磁盘 阵列 之 上 可 能 要 做 虚拟 化 和 并 行文 
件 系统 等 ， 用 IOPS 与 其 对 应 的 响应 时 间 来 衡量 这 样 的 存储 系统 可 信 
么 ? 还 有 几 个 问题 : 看 元 数据 更 应 该 看 IOPS? 元 数据 操作 速率 和 
IOPS 的 关系 怎样 ? 


看 来 你 的 存储 空间 就 是 一 个 基于 NAS 的 Volume。 如 果 你 使 用 
linux/unix 系 统 ， 那 么 可 以 将 NAS 客 户 端 也 就 是 主机 端 上 的 NAS 缓 存 关 
闭 ，mount 选 项 中 有 好 几 项 可 以 控制 这 个 行为 ， 这 样 得 出 来 的 IO 是 可 
以 排除 本 地 缓存 加 速 的 裸 IO 结 果 。 不 管 怎么 虚拟 化 ， 怎 么 并 行 ， 最 终 
我 们 要 的 是 应 用 程序 能 够 得 到 快速 的 IO 处 理 服务 ， 而 IO 测试 软件 就 是 


可 以 从 一 定 角度 反映 应 用 程序 获得 这 种 服务 的 具体 情况 的 。IOPS 和 响 
应 时 间 ， 以 及 吞吐 量 ， 这 是 最 终 我 们 需要 看 的 ， 当 然 可 信 。 所 谓 元 数 
据 操 作 ， 在 NAS 中 ， 比 如 NEFS 中 的 getattr0 、 fsinfo()、 fsstat()、 
lookup()、create() 等 。 这 些 操作 根本 没有 实 量 ， 也 就 是 IO 中 没有 传输 
实际 文件 数据 ， 而 都 是 元 数据 ， 这 个 你 去 抓 包 看 看 就 理解 了 。 这 些 没 
有 实 量 的 IO， 块 小 ， 频 繁 ， 容 易 导 致 IOPS 上 升 而 吞吐 量 很 低 。 


67. 单 块 硬盘 的 IOPS 问 题 


一 块 硬盘 的 IOPS 约 为 多 少 ? 通常 看 储存 的 性 能 IOPSIOPS 和 
Throughput 这 两 个 参数 ， 那 一 块 300GB SAS 硬 盘 的 IOPSIOPS 大 约 多 
少 ? 有 谁 知 道 ， 单 块 硬盘 ， 不 配置 RAID ， 不 使 用 RAID 卡 的 IOPS? 


这 个 不 能 顺 嘴 就 说 。 你 可 以 自我 测试 一 下 。 硬 盘 有 Cache 的 ， 读 
IOPS 在 一 定 条 件 下 甚至 可 以 达到 上 千 。 小 块 随机 IOPS， 就 很 低 了 ， 几 
十 都 有 可 能 。 通 常情 况 下 ， 综 合 来 说 ，15000 RPM 的 FC 和 SAS 能 有 300 
差不多 ，SATA ， 差 不 多 160 吧 ， 这 是 8 一 2 比例 混合 读 写 时 的 大 概 结 
果 。 如 果 是 100% 随 机 读 ， 那 么 大 概 400 左 右 ; 100% 比 例 随机 写 ， 不 到 
400。 


68. 何谓 “ 端 到 端 *? 


端 到 端 到 底 是 什么 意思 ? 总 看 有 些 资 料 说 “ 端 到 端 * 的 什么 什么 ， 
这 个 词 到 底 什 么 意思 啊 ? 跟 什么 相对 呀 ? 端 到 端 到 底 有 什么 好 处 ? 是 
支持 的 传输 距离 更 远 么 ? 


端 到 端 不 是 好 处 和 坏处 的 问题 ， 只 是 一 个 事实 而 已 。 端 到 端 就 像 
是 字面 上 理解 的 一 样 ， 一 端 到 另 一 端 ，through， 穿 透 性 的 。 具 体 还 要 


根据 上 下 文 来 解释 。 比 如 TCP 是 端 到 端 有 状态 协议 ， 意 味 着 TCP 是 在 
通信 双方 的 两 端 各 保存 状态 机 ， 不 管 两 端 之 间 经 过 什么 链 路 ， 用 什么 
设备 相连 ， 数 据 包 走 的 哪 条 路 ，TCP 不 管 ，TCP 管 的 就 是 收 到 对 应 的 
数据 从 而 去 触发 状态 机 改变 ， 依 次 循环 下 去 。 再 比如 描述 存储 设备 ， 
诸如 “ 端 到 端 4Gb 带 宽 >， 这 里 的 端 到 端 ， 就 是 说 从 存储 前 端 到 后 端 ， 
接口 带宽 都 是 4Gb， 而 不 是 前 端 4Gb ， 后 端 降低 到 2Gb， 这 样 后 端 就 可 
能 产生 瓶颈 。 也 许 这 就 是 所 谓 的 “好 处 ? 吧 ， 还 是 那 句 话 ， 端 到 端 和 好 
处 坏处 没有 关系 ， 与 传输 距离 更 是 没有 一 点 关系 。 是 一 个 事实 而 已 。 


69. MSCS 对 iSCSI 阵列 的 要 求 


MSCS 双 机 ， 使 用 iSCSI 阵列 ， 目 前 担心 有 些 iSCSI 阵列 实现 不 是 
很 完整 ， 咨 询 一 下 MSCS 对 iSCSI 阵列 有 什么 特殊 要 求 么 ? 


只 要 注意 iSCSI 阵列 支持 SCSI2 Reservation 即 可 ， 最 好 支持 SCSI3 
Reservation。 SCSI3 的 Reservation 是 SCSI2 Reservation 的 进化 版 ， 专 为 
并 行 多 客户 端 访 问 LUN 而 生 ，MSCS 是 一 种 HA， 而 不 是 并 行 访 问 。 
MSCS 用 的 是 SCSI2 Reservation ， 也 就 是 传统 的 Reserve 和 Release 的 
command。 Break reservation 是 要 由 客户 端 也 就 是 主机 端 来 实现 ， 主 机 
不 Release，Reserve 永 远 存 在 ，SCSI2 时 候 只 要 存储 端的 SCSI Stack 重 新 
reset 或 者 设备 断 电 重启 后 ， 妈 Release。 SCSI3 中 简单 的 reset 或 者 reboot 


并 不 能 release。 
70. IOPS 与 带宽 的 关系 


IOPS 与 带宽 有 什么 区 别 ? 存储 阵列 以 哪个 参数 为 性 能 指标 ? 


(1) IOPS 与 带宽 有 什么 区 别 ? 每 次 IO 就 是 一 次 操作 ， 比 如 读 从 
哪 开 始 的 多 少 扇 区 的 数据 ， 这 就 是 一 次 IO。 每 次 IO 请 求 的 数据 量 乘 以 
IOPS， 就 等 于 带宽 。 


(2) 存储 阵列 以 哪个 参数 为 性 能 指标 看 客户 端 对 存储 的 需求 了 ， 
有 些 要 求 高 带宽 比如 视频 编辑 ， 有 些 则 要 求 高 IOPS 吞 吐 能 力 比 如 一 些 
小 块 离散 的 IO。 前 者 虽然 达到 高 带宽 但 IOPS 可 能 较 低 ， 因 为 每 个 IO 请 
求 的 数据 量 很 大 ， 后 者 IOPS 高 但 是 可 能 带宽 较 低 ， 因 为 每 次 IO 请 求 的 
数据 量 小 。 


71. 随机 与 连续 的 比较 


(1) 随机 读 是 不 是 比 顺 序 读 速 度 快 ? 


你 搞 反 了 吧 。 随 机 读 是 不 可 能 比 连续 读 快 的 。 这 里 “顺序 ”应 为 连 
续 ， 顺 序 和 并 发 是 一 对 ， 连 续 和 随机 是 一 对 。 如 果 没 有 Cache 的 作用 ， 
随机 读 更 是 慢 上 加 慢 。 有 了 Cache， 有 了 prefetch 预 读 的 效果 ， 能 轻微 
增加 随机 读 的 效果 ， 但 是 效果 的 提升 不 像 连续 读 那 么 显著 。 另 外 ， 如 
果 你 用 SSD， 那 么 又 另 当 别论 了 。SSD 下 随机 IO 和 连续 IO 的 差别 没有 
机 械 硬 盘 那 么 大 。 


(2) 随机 写 是 不 是 比 顺序 写 慢 ? 


随机 写 同 样 比 顺序 写 慢 ， 如 果 没 有 Cache， 那 后 果 是 很 严重 的 。 有 
了 Cache， 能 大 大 提升 随机 写 的 速度 ， 但 是 仍然 比 连 续 写 要 慢 一 些 。 即 
便 有 了 Cache， 还 要 看 Cache 策 略 ， 是 write back 模 式 还 是 write through 
模式 ，write through 模 式 的 话 ， 随 机 写 里 然 比 没有 Cache 情 况 下 要 快 一 
些 ， 但 是 依然 很 慢 。write back 模 式 下 ， 只 要 Cache 足 够 大 ， 控 制 器 将 


Data 收 进来 并 作 受 善 安置 后 便 会 对 主机 返回 ack，IO 完 成 ， 然 后 控制 器 
会 对 这 些 随 机 的 IO 进行 重新 优化 写 盘 。 


(3) 存储 阵列 的 随机 读 写 是 不 是 比 顺序 读 写 性 能 差 ? 


只 要 是 随机 ， 总 比 连续 慢 。 不 管 单 盘 还 是 阵列 ， 有 无 Cache。 但 是 
读 和 瑟 之 间 谁 快 谁 慢 ， 就 得 看 Cache 了 。 


72. 关于 ZONE 和 争 抢 资源 的 问题 


“在 设计 Zone 时 ， 有 一 个 最 基本 的 原则 一 每 个 Zone 中 只 有 一 台 
主机 。 遵 循 这 样 规则 设计 出 的 Zone ， 结 构 非 常 清晰 ， 不 会 有 错误 产 
生 。 另 外 可 以 防止 不 同 的 主机 争夺 对 磁盘 控制 权 的 情况 。” 争 夺 磁 盘 控 
制 权 ， 如 何 理 解 ? 


那 句 话 估 计 是 作者 估 摸 着 乱 说 的 ， 说 的 时 候 又 没 说 底层 机 制 ， 可 
以 不 必 在 意 。 并 不 存在 所 谓 争 抢 问题 ， 争 抢 是 应 该 的 ， 如 果 强 者 胜 
出 ， 那 央 不 是 只 有 一 个 Initiator 可 以 访问 target 了 么 ? 这 个 所 谓 “ 争 抢 ” 是 
正常 现象 。 所 以 说 这 个 作者 在 估 摸 着 乱 说 ， 只 是 为 了 体现 Zone 的 重要 
性 而 已 。SCSI3 PR 用 于 并 行 访 问 ， 集 群 脑 裂 后 的 vote， 与 这 个 “* 争 抢 ” 
就 没有 关系 了 ，vote 就 是 在 争 抢 ， 有 什么 反常 么 ? 


73.LAN Free 的 问题 


IP SAN 能 做 到 LAN Free 吗 ? 如 果 是 iSCSI 必然 用 到 Lan， 那 么 还 
能 Lan Free 么 ? 


我 们 用 的 是 SL 500 磁 带 库 ， 不 知道 如 何 实现 IP SAN 环 境 下 的 
LAN Free? 


呵呵 ，Lan Free 这 个 概念 早 该 被 干掉 了 。 取 而 代 之 的 是 Front-End 
Free。 所 谓 Lan 不 一 定 就 非得 指 代 前 端 客 户 端 与 服务 器 通信 的 网 络 ， 你 
单独 弄 个 交换 机 用 于 存储 和 主机 ， 不 一 样 是 Lan Free 么 ? 但 是 这 个 单 
独 交 换 机 ， 是 不 是 也 是 “Lan” 啊 ?” 所 以 ， 这 个 词 该 被 干掉 了 。 用 
frontend 和 backend。 后 文 对 这 些 概念 还 有 更 加 详细 的 论述 。 


74. 如 何 选 择 磁盘 以 及 磁盘 阵列 的 问题 


冬瓜 头 ， 你 好 ! 很 早 就 一 直 看 你 的 文章 ， 最 近 又 重新 拜读 了 你 的 
《大 话 存 储 》。 在 存储 应 用 中 ， 我 一 直 在 思考 几 个 问题 : 


(1) 在 数据 库 等 关键 应 用 环境 下 ， 一 般 建 议 配置 146GB 的 
15krpm 光 纤 磁盘 ， 而 不 选择 用 大 容量 光纤 磁盘 。 我 的 理解 是 : 146GB 
的 磁盘 重 构 时 间 短 ， 能 够 有 效 减少 对 应 用 的 影响 。 但 是 在 性 能 方面 似 
平 没有 提升 。 


(2) 如 何 根据 一 个 应 用 来 选择 相应 的 磁盘 阵列 〈 例 如 : 磁盘 阵列 
的 前 端 端口 数 、 后 端 磁盘 通道 数 、Cache 大 小 ) ? 我 的 理解 是 : 前 端 
端口 数 二 对 应 的 IOPS/ 单 块 磁盘 平均 IOPS/ 主 机 端口 平均 并 发 磁盘 数 。 
但 是 Cache 没 有 办 法 来 计算 了 。 主 机 平均 并 发 磁盘 数 是 否 根 据 不 同 厂 
商 不 同 ， 是 否 有 经 验 值 呢 ? 


不 知道 ， 我 的 理解 是 否 有 偏差 。 还 请 帮助 指正 ， 谢 谢 ! 
感谢 支持 ! 就 我 的 理解 回 丛 一 下 。 


(1) 你 讲 的 有 一 定 道理 ， 即 从 Rebuild 时 间 角 度 考 虑 。 但 是 选择 
多 大 容量 的 硬盘 ， 得 根据 盘 位 、 价 格 、 今 后 扩展 、 当 前 需求 量 等 因素 
综合 考虑 。 我 想 你 说 的 “而 不 选择 大 容量 FC 磁盘 ”只 是 某 种 条 件 下 做 出 


的 决定 ， 没 有 普遍 性 。 理 论 上 讲 ， 磁 盘 越 多 ， 性 能 越 高 ， 不 管 是 从 市 
宽 吞 吐 量 还 是 IOPS 吞 吐 量 的 角度 。 如 果 对 性 能 要 求 不 高 但 是 又 要 求 大 
容量 ， 那 么 没有 理由 不 选择 容量 大 的 盘 了 。 多 一 块 盘 ， 多 耗 电 ， 多 化 
成 本 。 


(2) 不 同 的 应 用 的 确 会 产生 不 同类 型 的 IO ， 但 是 这 不 是 用 来 选 
择 盘 阵 的 最 重要 的 标准 。 如 果 你 的 盘 阵 只 给 一 台 主 机 、 一 个 应 用 来 
用 ， 那 可 以 根据 这 个 往 下 调查 。 但 是 多 主机 并 行 访问 情况 下 ， 并 行 的 
IO 在 一 起 会 将 原本 单 路 IO 的 属性 混沌 化 ， 使 得 IO 属性 对 盘 阵 的 影响 降 
为 次 要 矛盾 。 此 时 主要 看 盘 阵 的 硬件 规格 参数 ， 还 有 其 SPC 评 测 理论 
值 ，Cache IOPS， 非 Cache 的 IOPS， 即 Write Through 模 式 下 的 IOPS。 
首先 需要 和 弄 清 楚 主 机 端 到 底 可 以 以 多 大 的 速率 、IO 来 又 炸 存 储 ， 然 后 
再 根据 存储 的 理论 规格 来 定 ， 最 直接 的 办 法 就 是 进行 模拟 测试 ， 以 实 
际 数 据 为 准 。 我 不 清楚 “主机 并 发 磁盘 数 ” 具 体 你 指 的 是 什么 意思 。 


75. 所 谓 “ 坏 扇 区 转移 ”功能 


“ 另 一 个 额外 的 容错 功能 是 坏 扇 区 转移 (Bad Sector 
Reassignment) 。 坏 扇 区 转移 是 当 磁 盘 阵列 系统 发 现 磁盘 有 坏 扇 区 
时 ， 以 另 一 空白 且 无 故障 的 扇 区 取代 该 扇 区 ， 以 延长 磁盘 的 使 用 寿 
命 ， 减 少 坏 磁盘 的 发 生 率 以 及 系统 的 维护 成 本 。 所 以 坏 扇 区 转移 功能 
使 磁盘 阵列 具有 更 好 的 容错 性 ， 同 时 使 整个 系统 有 最 好 的 成 本 效益 
比 。” 上 面 这 段 话 中 ， 这 个 坏 扇 区 转移 是 所 有 的 商家 都 有 这 个 技术 ， 还 
是 个 别 厂 家 的 ? 


被 忽悠 了 。 这 个 技术 是 SCSI3 中 详细 定义 的 协议 ， 他 只 是 实现 罢 
了 ， 没 什么 神秘 的 。 去 找 份 SCSI 文 档 看 看 就 知道 了 。 


76. 关于 不 同 设 备 不 同 IOPS 的 问题 


向 冬瓜 头 请 教 一 个 问题 : NETAPP 不 同 设备 的 IOPS 数 据 的 改变 是 
依靠 什么 ? 软件 结构 还 是 硬件 型 号 ， 例 如 CPU、 主 板 、 网 卡 还 是 什 
么 ? 


CPU 总 线 ， 外 部 接口 ， 磁 盘 数 量 。ONTAP 系 统 内 核 效 率 不 同 平台 
几乎 相同 的 ， 发 挥 到 多 少 就 看 硬件 指标 了 。 


77. 3 块 盘 做 RAID 6， 坏 2 块 怎么 恢复 ? 


3 个 盘 做 的 RAID 6 是 如 何 实现 掉 2 盘 容错 的 ? 3 盘 做 RAID 6 的 ， 
LSI8708 可 以 做 ， 那 么 怎么 使 用 1 块 盘 恢 复 其 他 2 块 盘 呢 ? 


不 过 ， 你 就 3 块 盘 ， 有 必要 这 样 折 腾 ? 如 果 你 明白 RAID 6 基本 的 
算法 ， 你 就 明白 了 。3 块 盘 的 RAID 6， 我 做 个 比喻 吧 ， 数 据 盘 上 的 内 
容 是 中 文 ， 校 验 盘 1 上 的 数据 是 英文 ， 校 验 盘 2? 上 的 数据 是 德 文 。 数 据 
盘 和 校 验 盘 1 被 拿 掉 ， 一 样 可 以 从 德 文 盘 经 过 翻译 ， 回 到 中 文 。 


本 质 上 ，RAID 6 就 是 将 数据 盘 用 两 种 不 同 的 校 验 算法 校 验 出 两 套 
独立 的 校 验 数据 来 保存 。 对 于 三 块 盘 的 RAID 6， 几 乎 所 有 算法 算出 来 
的 其 实 等 同 于 3 盘 RAID 1。 


78. IOMETER 测 试问 题 


问题 一 是 : 我 要 用 Iometer 测 试 磁 盘 阵列 的 最 大 IOPS，lrt (10% 
负载 下 的 响应 时 间 ) 设置 的 参数 里 面 有 一 项 是 并 发 IO 请求 数 (在 
Iometer 里 面 只 能 设置 进程 数 ， 这 个 我 知道 ) ， 现 在 要 确定 这 个 参数 的 


典型 值 (比如 10000 为 基数 ， 以 5000 为 步 长 递增 ) ， 但 是 我 不 知道 如 何 
确定 这 个 值 ， 我 只 知道 IOPS 的 峰值 >2800000， 我 需要 根据 其 他 什么 参 
数 ， 如 何 来 确定 呢 ? 我 在 网 上 看 了 很 多 测试 的 结果 报告 ， 发 现 大 家 并 
发 数 大 多 定 为 64， 还 有 说 是 128 或 256 的 ， 这 是 为 什么 呢 ， 如 何 确定 的 
呢 ? 用 的 2 的 几 次 方 ， 这 是 什么 原因 ? 为 什么 不 用 整数 比如 我 写 的 
10000 这 样 的 呢 ? 


这 个 并 发 IO 请 求 数 需要 根据 不 同 层次 的 限制 来 判断 : user level 和 
kernal level 之 间 的 限制 ，device driver 处 的 限制 ， 适 配 卡 硬件 firmware 
处 的 限制 ， 存 储 设 备 处 适 配 卡 和 device driver、application 处 的 限制 。 
取 它 们 之 间 的 最 小 值 来 作为 这 个 并 发 IO 数 ， 再 大 的 话 ， 就 已 经 任意 一 
处 被 限制 ， 没 有 意义 了 。 至 于 每 一 处 的 数值 ， 需 要 你 去 调查 。 这 个 数 
值 也 就 是 queue depth， 看 到 这 个 字眼 就 差不多 是 了 。 针 对 你 的 问题 ， 
10000 是 不 可 能 的 ， 也 没 必 要 ， 一 般 来 讲 ，device driver 和 适 配 卡 
firmware 处 不 会 超过 256 的 ，64 是 折 中 数值 。 


问题 二 是 : 我 看 冬瓜 头 版 主 在 别 的 帖子 里 回复 说 ， 一 个 系统 测试 
IOPS、 响 应 时 间 、 吞 吐 量 ， 这 三 个 指标 是 基本 的 。 我 想 请 问 ， 在 随机 
IO 应 用 环境 下 ， 需 要 测 吞 叶 量 吗 ? 这 个 吞吐 量 是 指 什么 ? 单位 是 MB/s 
吗 ? 如 果 是 的 话 ， 那 在 Iometer 测 试 结果 里 面 ， 不 是 有 这 个 值 么 ， 还 需 
要 单独 测试 么 ? 我 的 意思 是 在 测试 ht 和 IOPS 的 时 候 就 可 以 得 出 这 个 
值 。 如 果 测 量 吞 吐 量 的 峰值 ， 我 知道 应 该 是 在 顺序 IO 应 用 环境 下 测试 
对 吧 ， 问 题 是 我 现在 在 随机 IO 环境 下 ， 测 吞吐 量 有 意义 吗 ? 并 且 是 可 
以 直接 通过 IOPSX 块 大 小 得 出 的 啊 。 


这 属于 明知 故 问 了 。 随 机 IO 下 主要 看 IOPS 和 响应 时 间 ， 吞 吐 量 意 
义 不 大 。 当 然 如 果 某 个 设备 在 相当 随机 和 小 块 IO 下 依然 能 够 饱和 链 路 
带宽 ， 那 是 相当 好 的 情况 了 。 


79. 计算 IOPS 


假定 : 

(1) 硬盘 没有 Cache，512B 下 随机 IOPS 为 150 

(2) RAID 卡 和 存储 都 没有 Cache 

(3) 主机 端 IO Size 512B 的 随机 IO ， 读 写 比例 是 2:3 
(4) RAID 5 

问题 ， 计 算 要 10000 的 IOPS 需 要 多 少 块 盘 ? 
10000x0.4 十 10000x0.6x4 二 28000 

28000:150 王 186.7 即 需要 187 块 盘 才 可 以 达到 需求 ， 
则 最 大 的 吞吐 量 为 10000x512B 一 5.12MB/As 

请 问 ， 这 样 的 计算 是 否 正确 ? 


你 还 少 了 一 个 假定 ， 就 是 RAID 控 制 器 不 能 并 发 IO ， 也 就 是 这 个 
RAID 5 时 刻 处 于 单个 IO 的 读 改 写 的 状态 。 有 了 这 些 假设 ， 就 可 以 大 致 
算出 了 。RAID 5 写 惩罚 ， 在 单个 随机 IO 读 改写 模式 下 ， 共 额外 产生 1 
个 写 和 两 个 读 。 所 以 10000x0.4x2 十 10000x0.6x2 王 20000，20000:150 
三 134。 不 过 这 个 数字 基本 没 多 大 意义 。 实 际 情况 下 ，RAID 5 视 磁盘 
数量 多 少 ， 可 以 并 发 不 少 IO 的 ， 最 好 的 情况 下 是 可 以 整 条 写 ， 写 惩罚 
没有 读 IO， 而 RAID 5 任何 情况 下 写 惩 罚 中 的 写 IO 只 有 一 个 ， 就 是 与 
Parity。 而 随 着 并 发 几率 增加 ， 读 改写 或 者 重 构 写 时 的 写 惩 罚 更 为 严 


重 ， 增 加 了 大 量 的 读 操作 。 最 后 ， 还 要 看 后 端的 总 绪 或 者 Loop 的 限 
制 ， 一 个 Loop 所 能 提供 的 带宽 和 IO 都 有 限 。 


80. 存储 系统 后 端 多 链 路 的 问题 


存储 设备 后 端 接口 数量 有 2、4、8、16 等 ， 如 EMC CX120 是 2 个 ， 
CX240 是 4 个 ，480 是 8 个 等 。 可 控制 器 都 是 双 控 的 ， 后 端 有 较 多 的 链 路 
除了 起 到 元 余 的 作用 ， 是 否 还 有 其 他 功能 ? 本 人 理解 一 个 控制 器 单位 
时 间 内 只 能 使 用 一 条 链 路 ， 是 否 正解 ? 


风 余 是 次 要 的 ， 后 端 更 多 链 路 主要 是 为 了 接 入 更 多 磁盘 啊 ! 谁 说 
控制 器 单位 时 间 只 能 使 用 一 条 链 路 的 ? 看 后 端的 芯片 ， 一 般 位 于 同一 
共享 总 线 上 的 多 个 链 路 是 单位 时 间 一 条 ， 但 是 高 端 货 后 端 都 是 无 阻塞 
的 。 


81. RAID 类 型 与 1OPS 


情况 是 这 样 的， 目前 本 人 正在 弄 一 家 六 百 台 的 网 吧 ， 原 先 打 算 买 
两 台 游 戏 服务 器 (就 是 虚拟 盘 ， 把 游戏 放 在 服务 器 上 面 让 客户 机 来 读 
取 ， 相 当 于 网 络 存 储 了 ) ， 原 先是 打算 用 四 块 300G SAS 做 RAID 0 阵 
列 。 配 上 32GB 内 存 做 缓存 (因为 虚拟 盘 软 件 都 有 缓存 功能 ， 读 过 一 次 
的 东西 会 在 缓存 里 ， 第 二 次 读 的 时 候 直接 读 内 存 ) 。 但 这 两 天 听 了 一 
个 说 法 ， 讲 的 是 RAID 0 不 能 提高 随机 读 写 性 能 ， 所 以 没有 必要 做 
RAID 0， 因 为 网 吧 读 游戏 都 是 随机 的 多 。 看 了 冬瓜 头 前 辈 的 博客 上 有 
一 篇 文章 , “深入 理解 各 种 RAID 相 对 单 盘 速度 的 变化 ”>， 他 的 结论 是 
RAID 0 随机 读 写 仅 在 并 发 IO 十 分 割 块 很 大 的 时 候 ，IOPS 显 著 增 加 。 
但 对 这 和 句 话 不 大 理解 ， 不 知道 在 网 吧 这 个 案例 中 ， 到 底 有 没有 必要 弄 
RAID 0。 


不 知道 你 网 吧 里 什么 架构 ，RAID 0 不 安全 ， 坏 一 块 盘 数 据 全 丢 ， 
除非 找 数据 恢复 公司 ， 季 运 的 话 能 恢复 一 些 。RAID 0 是 最 好 的 提速 方 
式 ， 那 个 文章 中 我 只 是 说 相对 于 单 盘 在 随机 IO 情况 下 的 IOPS 提 升 相对 
幅度 。 另 外 ， 需 要 完全 深刻 地 了 解 IO 类 型 ， 甚 至 存储 系统 ， 首 先 推荐 
你 阅读 《大 话 存 储 》 一 书 。 针 对 你 的 具体 问题 ， 说 RAID 0 不 能 提高 
机 读 写 性 能 ， 是 错误 的 ， 当 然 可 以 提高 ， 但 是 得 看 情况 ， 有 些 条 件 显 
著 提 高 ， 有 些 则 不 显著 。 


RAID 0 随机 读 写 ， 在 并 发 IO 十 分 割 块 大 的 情况 下 显著 提升 IOPS， 
你 不 理解 这 句 话 可 能 是 因为 分 割 块 的 问题 ， 这 里 所 谓 分 割 块 当时 我 没 
有 用 Segment 这 个 词 替代 ， 如 果 替 代 了 ， 你 就 明白 了 ， 如 果 还 不 明白 ， 
那么 我 再 说 下 去 就 要 大 费 口舌 了 ， 就 不 如 你 去 看 看 书 来 得 快 和 益处 
多 。 到 底 用 不 用 RAID 0， 刚 才 也 说 了 ，RAID 0 最 好 ， 但 是 你 要 忍受 数 
据 丢 失 的 风险 ， 综 合 评判 ， 折 中 方案 是 使 用 RAID 5， 既 然 客户 端 都 是 
读 而 不 写 ，RAID 5 读 的 时 候 与 RAID 0 几乎 相同 效率 。 


82. IO 冲突 导致 的 性 能 下 降 


看 到 本 版 讨论 的 都 是 非常 大 型 的 存储 ， 我 都 有 点 怕 自 己 的 小 小 系 
统 问 题 拿 不 出 手 ， 不 过 还 是 鼓 足 点 勇气 请 教 大 家 了 。 不 过 我 这 个 系统 
主要 是 我 个 人 用 的 ， 对 个 人 而 言 属 于 较为 奢侈 的 存储 设备 了 吧 ? 由 于 
本 人 的 工作 室内 部 资源 分 享 需要 ， 我 需要 组 建 一 个 六 个 客户 端 并 发 ， 
每 个 客户 端 50MB/s 的 文件 服务 器 ， 复 制 的 都 是 较 大 的 文件 ， 一 般 超过 
1GB。 (注意 50MB/s 是 M 字 节 每 秒 ， 不 是 比特 每 秒 ) 。 这 意味 着 该 服 
务 器 起 码 需要 300MB/s 的 并 发 速度 。 为 此 ， 我 的 硬件 配置 为 : 


Dell 690 工 作 站 (Intel 5110 cCPU / 4g ram / Intel 5000x 芯 片 / 
Intel 632x 南 桥 芯片 组 ) ，Intel 9402pt pci-e 4x 双 口 网 卡 ， 共 两 块 。 


Highpoint 4320 pci-e 8x RAID 卡 。Netgear 724at 支持 802.3 ad 动态 聚 
合 的 交换 机 。 4 块 Seagate es.2 500g 企 业 级 SATA 硬 盘 (备注 ， 我 本 来 打 
算 要 购买 8 块 WD RE3 的 硬盘 的 ， 后 来 打算 先 随 便 测试 看 看 能 够 跑 多 
少 ， 于 是 找 了 四 块 希捷 硬盘 来 测 ) 。 我 已 经 完成 的 部 分 测试 : Dell 690 
安装 win2008 SP2 正 版 系统 ， 开 启 共享 ， 关 闭 防 火 墙 ， 四 个 硬盘 通过 
Highpoint 做 RAID 0 测试 。 每 个 客户 端 都 是 Win2008 系 统 ， 都 是 千 兆 
pci-e 网 卡 。 


测试 : 


Intel 9402pt 两 块 ， 每 块 两 端口 ， 任 何 一 个 端口 跟 我 的 一 台 客 户 端 
机 (也 是 win2008 SP2) 连接 ， 可 以 达到 90MB/s 的 速度 ， 这 个 时 候 只 
让 这 一 个 网 口 工 作 ， 不 接 交 换 机 ， 不 做 网 卡 聚合 。 实 际 上 就 是 单 测 一 
台 客 户 端 连接 到 Dell 690 工 作 站 上 的 速度 。 


测试 : 


将 Intel 9402pt 两 块 总 共 四 个 端口 做 聚合 linkagg0，Netgear 交 换 机 
也 做 对 应 聚合 。 然 后 发 动 四 个 客户 端 通过 Netgear 交 换 机 同时 连接 到 
Dell 690 已 经 做 好 RAID 0 的 硬盘 阵列 复制 东西 ， 大 约 50GB 数 据 ， 一 个 
客户 端 20MB/s， 一 个 客户 端 多 于 10 MB/s， 另 外 一 个 30MB/s， 另 外 一 
个 也 是 15MB/s。 


测试 : 


因为 对 上 述 结 果 迷 惑 不 解 ， 于 是 将 网 卡 linkaggr 去 除 ， 分 散 成 独 
立 的 4 个 网 卡 端口 ， 每 个 网 卡 端口 直接 接客 户 端 机 器 〈 不 经 过 交换 
机 ) ， 这 个 时 候 的 性 能 更 加 可 怜 ， 有 的 40MB/s， 有 的 5MB/s， 四 个 网 
口 加 起 来 总 共 速 度 才 75MB/s。 


测试 : 


Highpoint 4320 卡 为 新 购 入 ， 购 入 后 我 已 经 用 它 倒 入 1000GB 的 数 
据 做 稳定 测试 ， 没 有 任何 问题 。 另 外 ， 四 个 Seagate es.2 500g 硬 盘 组 成 
的 RAID 0 阵列 用 HDtune 测 试 速度 在 250MB/s 左 右 。 我 反复 做 了 很 多 次 
测试 ， 但 是 就 没有 看 到 过 四 个 网 卡 总 共 并 发 超过 90MB/s 的 情况 ， 无 论 
是 网 卡 聚合 还 是 网 卡 不 聚合 ， 无 论 是 接 交换 机 还 是 不 接 交 换 机 。 到 
此 ， 我 已 经 迷惑 不 解 了 ， 我 虽然 没有 买 专业 化 的 存储 ， 但 是 我 购买 的 
这 些 东 西 都 是 性 能 很 好 的 东西 ， 例 如 Intel 9402 pt 网 卡 ， 我 放 着 好 几 
块 8492mt 网 卡 没 有 用 ， 花 了 将 近 3000 元 买 了 两 块 回来 。 例 如 RAID 
卡 ， 我 没有 用 Dell 690 的 RAID ， 而 是 花 了 将 近 4000 元 购买 了 Highpoint 
4320 卡 。 另 外 交换 机 ， 都 是 正宗 支持 802.3 ad 聚合 的 Netgear 724at 交 换 
机 ， 一 个 交换 机 就 是 5000 元 。 至 于 网 线 ， 我 全 部 是 采用 六 类 品牌 线 。 
所 有 这 些 部 件 单 测 都 没有 问题 的 。 


我 自己 整理 的 怀疑 思路 : 可 以 排除 CPU、 内 存 、 交 换 机 、 网 卡 本 
身 的 问题 ， 因 为 CPU 源 自 始 至 终 测 试 都 是 在 30% 以 下 ， 内 存 也 足 足 有 
余 。 排 除 交换 机 是 因为 不 接 交换 机 ， 四 个 网 卡 口 独自 工作 总 带宽 也 上 
不 去 ， 网 卡 每 个 口 我 都 做 过 几 个 小 时 大 数据 测试 的 。 


剩 下 的 怀疑 : 


(1) Dell 690 主板 南 桥 有 问题 ? 只 是 猜测 ， 南 桥 那 么 大 的 带宽 ， 
随便 给 点 就 超过 100MB/s 了 。 


(2) Win2008 SMB 共 享 协议 限制 速度 ? 或 者 这 个 协议 并 发 能 力 
上 薄弱 ? 


(3) Seagate 的 SATA 硬 盘 阵 列 并 发 响应 能 力 薄 弱 ? 虽然 SATA 的 
并 发 能 力 由 于 不 支持 TCQ， 而 只 是 支持 NCQ， 但 是 并 发 响应 能 力 不 至 
于 如 此 薄弱 吧 ? 


瓶颈 究竟 出 在 什么 地 方 ? 请 有 经 验 的 高 手 帮 帮 我 吧 


这 问题 我 遇 到 过 ， 而 且 是 在 一 台 专 业 设 备 上 ， 专 业 设 备 尚且 如 
此 ， 更 不 用 说 Win2008 搭 建 起 来 的 DIY 了 。 总 体 来 说 还 是 软件 效能 问 
题 ，CPU 内 存 和 IO 总 线 没 有 瓶颈 ， 而 且 后 端 磁盘 少 说 也 得 接近 
200MB/s 才 算 可 以 〈 你 读 的 大 文件 ) 。 所 以 还 是 软件 处 的 瓶颈 。 另 
外 ， 交 换 机 上 的 那 种 aggr 最 好 别 用 ， 根 据 以 前 的 实验 ， 几 乎 无 效 。 很 
大 程度 上 与 底层 驱动 层面 有 关系 ， 你 如 果 换 成 FC 的 方式 ， 则 能 够 利用 
全 部 带宽 ， 而 不 管 你 用 CIFS 还 是 ISCSI， 得 到 的 总 是 一 块 卡 的 效果 ， 
甚至 还 不 到 。 可 以 换 成 WwWSS 系 统 试 一 试 ， 或 者 用 FreeNAS ， 
Openfiler，Opene 等 来 DIY。 


了 解 之 前 情况 可 以 参看 我 前 面 的 帖子 。 另 外 ， 我 下 周一 还 预约 了 
测试 更 多 的 sas 硬 盘 做 成 阵列 ， 不 过 我 几乎 不 抱 希 望 了 。 


在 之 后 又 完成 了 如 下 测试 。 


一 : 服务 器 商 那 边 测试 。 前 日 Chinaunix 发 完 帖 以 后 睡觉 ， 睡 到 昨 
日 下 午 。 因 为 已 经 约 好 到 一 家 专门 做 服务 器 的 地 方 去 看 。 这 家 服务 器 
商 既 有 品牌 的 味道 ， 也 有 DIY 的 味道 。 见 面 寒 辽 过 后 ， 直 接 开 测 ， 平 
台 为 超 微 的 5500 平 台 ，RAID 卡 为 RocketRAID 3560， 这 个 卡 支持 的 硬 
盘 比 我 的 多 ， 多 达 24 个 ， 但 是 我 的 性 能 比 它 的 强 ， 我 的 IOP 是 1.2GHz 
的 。 用 了 四 个 ST es.2 1TB 企 业 级 SATA 硬 盘 。 结 果 性 能 跟 我 之 前 的 测 


试 差不多 ， 三 台 机 器 并 发 测试 就 是 75MB/s 差 不 多 。 看 来 可 以 排除 主板 
南 桥 的 问题 了 。 


二 : 回 到 家 中 换 成 FreeNAS 把 系统 换 成 FreeNAS 测 试 ， 居 然 并 发 
性 能 比 Win2008 的 差 ， 看 来 Win2008 的 SMB 性 能 比 Win2003 好 不 少 ， 
文件 传输 并 发 性 能 是 不 是 比 Freebsd 好 呢 ? 有 趣 的 是 : 我 在 三 台 客户 端 
机 器 上 同时 从 服务 器 上 复制 一 个 文件 的 时 候 ， 奇 迹 发 生 了 ， 网 卡 居然 
可 以 跑 到 900Mb/s (我 这 时 没有 做 交换 机 聚合 ， 也 没有 做 网 卡 聚 
合 ) ， 也 就 是 110MB/s， 这 个 速度 显然 是 非常 令 人 惊讶 的 ， 千 兆 网 卡 
的 极限 啊 。 我 当时 就 开心 的 几乎 跳 起 来 了 ， 然 而 我 马上 冷 下 来 了 ， 如 
果 是 不 同 的 文件 呢 ， 于 是 立即 开始 测试 ， 当 三 台 机 器 每 个 机 器 从 服务 
器 上 复制 不 同 的 文件 的 时 候 ， 整 个 速度 立即 下 降 ， 估 计 总 共 就 是 
45MB/s， 这 个 速度 还 不 如 Win2008 下 的 呢 。 而 且 这 个 时 候 SATA RAID 
0 阵列 速度 忽 高 忽 低 ， 一 会 儿 是 波峰 500MB/s ， 一 会 波 谷 60MB/s， 总 
体 来 说 跳 得 非常 厉害 。 于 是 得 出 结论 ， 硬 盘 的 并 发 能 力 是 真正 的 瓶 
颈 。 另 外 ， 就 是 Freebsd 的 网 络 性 能 的 确 很 强悍 ， 我 还 从 来 没有 见 到 过 
千 兆 网 卡 居 然 可 以 持续 跑 到 940MB/s 的 。 还 有 就 是 UFS 文 件 系统 性 能 
是 不 是 比较 弱 呢 ? 怎么 比 win2008 的 并 发 传输 能 力 差 啊 。 另 外 就 是 
Freebsd 的 网 络 负 载 平衡 能 力 强 啊 ， 几 个 客户 端的 速度 非常 平均 ， 但 是 
在 win2008 下 ， 高 的 45MB/s， 低 的 10MB/s。 


三 ; 15k6 SAS 硬 盘 上 场 。 突 然 记 起 我 还 有 一 个 15k6 146G 15000 转 
SAS 硬 盘 ， 这 是 个 好 东西 ， 于 是 立即 接 上 。 环 境 还 是 FreeNAS。 三 个 
客户 端 持续 并 发 复制 不 同文 件 ， 速 度 总 共 是 18MB/s 左 右 ， 这 个 SAS 传 
输 东 西 的 时 候 速 度 波动 很 少 ， 基 本 上 在 18MB/s 左 右 波动 。 这 个 跟 宣传 
的 持续 读 能 力 110MB/s 差 得 太 远 了 。 但 是 一 个 客户 端 连接 复制 东西 

(其 他 客户 端 不 动 ) ， 速 度 可 以 很 轻松 跑 到 50MB/s。 


到 目前 为 止 的 结论 是 : 


(1) 硬盘 的 并 发 性 能 是 真正 的 瓶颈 。 我 这 几 天 看 了 些 文章 ， 没 有 
确证 但 是 我 非常 相信 ， 人 家 15 个 15k6 SAS 硬 盘 ， 持 续 大 数据 并 发 读 写 
不 过 就 是 100MB/s 多 一 点 。 看 来 一 并 发 ， 硬 盘 阵列 性 能 就 下 滑 的 非常 
厉害 。 


(2) 网 上 的 那些 测试 其 实 是 针对 单个 客户 端 而 言 的 ， 说 白 了 就 是 
机 器 的 阵列 就 是 机 器 自己 用 ， 如 果 组 成 阵列 速度 的 确 会 很 快 。 


(3) 并 发 环境 下 的 持续 读 写 速度 要 达到 200MB/s 以 上 ， 估 计 得 等 
到 ssD 硬 盘 了 。 靠 目前 的 机 械 硬 盘 ， 即 使 是 SAS， 如 果 不 像 大 公司 那 
样 ， 估 计 根 本 超 不 过 150MB/s 了 。 


(4) 我 觉得 现 阶段 要 达到 较 高 并 发 的 办 法 (不 一 定 对 ) 就 是 在 一 
台 机 器 里 多 组 几 个 阵列 ， 放 不 同 的 内 容 ， 让 客户 根据 内 容 分 流 了 。 例 
如 5 个 15k6 SAS 硬 盘 RAID ， 并 发 持续 读 能 力也 就 是 120MB/s， 但 是 我 
如 果 分 成 5 个 盘 ， 最 好 的 情况 下 ， 五 个 客户 分 别 读 五 个 盘 ， 那 样 的 并 发 
总 性 能 就 超过 250MB/s 了 。 但 是 这 样 一 是 无 法 像 管 理 RAID 那 样 一 个 整 
盘 管 理 ， 另 外 一 个 方面 对 客户 的 需求 无 法 良好 统计 从 而 优化 分 配 。 


(5) RAID 阵 列 卡 的 作用 。RAID 阵列 卡 我 觉得 本 身 没 有 什么 大 
的 加 速 作用 (这 个 跟 厂 商 吹 咕 的 是 两 码 事情 ， 从 这 点 可 以 看 出 ， 厂 商 
是 多 么 一 致 的 忽悠 我 们 最 终 客 户 ) ， 就 是 一 点 Cache， 这 个 起 不 了 什 
么 大 作用 。 但 是 我 认为 RAID 阵 列 卡 在 保证 数据 安全 方面 还 是 比较 有 
用 的 。 另 外 ，RAID 阵 列 卡 把 多 个 硬盘 的 性 能 一 定 程度 上 串联 起 来 
了 ， 这 样 针 对 应 用 而 言 ， 磁 盘 性 能 得 到 了 很 大 提高 。 


今天 凌晨 完成 的 测试 ， 就 是 在 各 位 的 提醒 下 做 出 的 。 测 试 目的 : 
瓶颈 究竟 在 哪里 ? 测试 服务 器 : Dell 690， 测 试 硬 盘 : 4 块 Seagate es.2 
500g，1 块 15k6 15000 转 SAS 硬 盘 ， 不 做 任何 RAID ， 两 块 Intel 9402pt 
网 卡 四 个 口 聚 合 ， 交 换 机 做 四 个 口 聚 合 。win2008 SP2 系 统 测 试 客户 
端 : 4 台 笔 记 本 电脑 ，1 台 PC ， 均 是 千 兆 网 卡 。 测 试 方法 : 每 台电 脑 分 
别 对 应 服务 器 上 的 一 个 硬盘 ， 这 样 避 免 硬盘 的 并 发 。 测 试 结果 : 五 台 
客户 端 并 发 的 时 候 ，Win2008 SP2 任 务 管理 器 以 及 每 个 客户 端 分 别 监 
测 ， 从 服务 器 出 来 的 流量 稳定 在 2400Mbps， 也 就 是 300MB/s 每 秒 。 


测试 结论 : 


(1) 网 卡 聚 合 和 交换 机 聚合 是 成 功 的 ， 网 络 上 许多 朋友 说 无 法 聚 
合 ， 那 是 因为 自己 的 交换 机 太 差 ,不 支持 802.3 ad ， 例 如 H3C 1216 / 
h3c 1224。 就 我 所 知道 的 ，5000 元 以 下 几乎 没有 支持 802.3 ad 的 交换 机 
的 ，CISCO 有 支持 的 但 是 端口 是 100Mb/s 的 。 


(2) 真正 的 瓶颈 显然 清楚 了 ， 那 就 是 硬盘 阵列 。 之 前 做 的 RAID 
0 阵列 死活 上 不 了 75MB/s， 就 是 因为 并 发 性 能 很 差 ， 现 在 我 把 硬盘 打 
散 不 做 聚合 ， 各 自 复制 各 自 的 东西 ， 结 果 性 能 就 上 来 了 。 


(3) 未 来 的 希望 要 靠 SSD 了 ， 同 时 我 要 高 度 鄙 视 一 下 硬盘 厂商 ， 
鄙视 RAID 卡 厂商 ， 在 很 大 程度 上 他 们 隐 恶 扬 善 ， 强 调 单一 任务 的 性 
能 ， 对 并 发 性 能 只 字 不 提 。 


另外 ， 我 个 人 花费 了 大 量 的 时 间 和 精力 来 测试 ， 同 时 由 于 自己 之 
前 的 一 些 无 知 ， 导 致 购买 了 不 少 价值 比较 高 的 设备 ， 现 在 器 啊 ， 大 家 
安慰 我 一 下 吧 。 真 希望 SSD 硬 盘 1TB 降 价 到 3000 元 以 内 ， 如 果真 的 降 
价 到 这 个 程度 ， 明 天 我 就 过 去 打 几 块 回来 。 下 周一 ， 我 将 做 多 个 SAS 


15k6 硬 盘 的 RAID 测 试 ， 到 时 候 再 发 上 来 。 最 后 再 次 谢谢 冬瓜 头等 诸 
位 兄弟 们 。 姐 姐妹 妹 ， 估 计 这 儿 没有 吧 ， 如 果 有 ， 一 并 感谢 。 


嗯 ， 并 发 的 大 块 连续 读 写 效率 确实 低下 的 。 读 同一 个 文件 那 是 
Cache 的 速率 了 ， 所 以 能 撑 满 带宽 。 并 发 情况 下 ， 而 且 数 据 是 按照 横向 
条 带 分 布 的 话 ， 由 于 磁盘 寻 道 产生 的 致命 影响 ， 多 盘 获 得 的 IOPS 和 吞 
吐 量 提 升 基本 上 相对 单 盘 幅度 很 小 。 这 是 所 有 产品 都 不 能 避免 的 。 
RAID 0 对 单个 客户 端的 大 块 连续 读 写 提升 还 是 很 大 的 ， 这 不 能 怪 
RAID 卡 ， 而 是 理论 上 已 经 不 可 能 达到 了 ， 除 非 分 多 个 RAID 组 ， 或 者 
算法 上 提供 用 户 自己 决定 数据 分 布 的 选项 ， 但 是 低 端 产 品 别 指望 有 这 
些 ， 甚 至 高 端 产品 灵活 度 也 没有 这 么 高 的 。 楼 主 可 以 继续 做 如 下 实 


验 。 


实验 1: Size 适 中 的 并 发 的 随机 IO。RAID 0 对 这 个 很 拿手 ， 与 单 盘 
对 比 效 率 定 大 增 。 


实验 2: 做 两 组 RAID 0， 两 个 盘 一 个 ， 使 其 互 不 影响 ， 调 查 数据 
并 作对 比 。IO Size 相 比 Stripe Size 较 大 的 时 候 ， 也 就 是 楼 主 的 环境 ， 读 
写 大 文件 ，RAID 0 就 不 支持 并 发 IO 的 。 其 他 RAID 类 型 和 IO 类 型 ， 可 
以 套用 本 书 第 4 章 中 的 几 个 列表 。 


不 错 不 错 ， 通 过 自己 的 试验 有 条 有 理 地 解决 了 疑问 。 不 过 ， 你 说 
RAID 对 并 发 不 行 ， 也 是 偏激 了 。RAID 0 如 果 增 加 条 带 深 度 ， 是 可 以 
并 发 成 功 的 ， 你 看 那些 分 布 式 集群 存储 ， 比 如 XIV， 等 效 条 带 深 度 为 
1MB， 比 如 3PAR， 等 效 条 带 深 度 为 256MB， 局 部 连续 地 址 范围 很 大 ， 
所 以 这 样 的 话 系统 整体 依然 可 以 并 发 多 个 上 层 IO， 否 则 也 不 可 能 达到 
几 万 几 十 万 的 IOPS。 至 于 一 些小 打 小 阅 的 RAID 卡 ， 其 条 竺 深度 几 百 k 


而 已 ， 局 部 连续 地 址 范围 太 小 ， 导 致 一 个 上 层 IO 同 时 占用 了 多 个 
Segment， 此 时 完全 不 能 并 发 IO 了， 多 个 IO 得 排队 ， 寻 道 ， 传 输 。 


说 实话 ， 纯 种 RAID 3 估计 现在 没有 设备 可 以 真正 实现 了 ， 首 先 它 
要 求 的 磁盘 磁头 位 置 同步 以 及 转速 的 严格 同步 ， 这 技术 现代 的 存储 系 
统 都 不 考虑 了 ， 现 在 RAID 3 都 是 假 RAID 3， 即 条 融 很 小 的 RAID 4， 
RAID 3 一 4 一 5 的 演变 过 程 鄙人 几 年 前 有 贴 讨 论 过 ，《 大 话 存储 》 中 也 
有 收录 。RAID 3 更 不 可 能 并 发 IO 的， 所 以 并 发 环境 下 ， 还 是 多 组 
RAID， 或 者 条 带 深度 达到 几 百 兆 级 别 的 高 端 虚拟 化 级 别 的 设备 ， 方 能 
满足 要 求 ， 此 时 由 于 算法 的 革新 ，SATA 盘 也 就 可 以 达到 很 好 的 整体 性 


能 。 
83. MPIO 和 MCS 的 关系 


您 好 ， 请 教 个 问题 MPIO 和 MCS 负 载 均衡 ， 具 体 性 能 上 会 有 差 
异 吗 ? MCS 是 每 个 session 多 connection， 与 MPIO 多 个 session 具 体 区 别 
在 哪里 ? 另外 如 果 我 的 存储 两 种 方式 的 负载 均衡 都 支持 ， 我 可 不 可 以 
先 做 MPIO 的 负载 均衡 ， 再 对 每 个 session 做 MCS 的 负载 均衡 ? 盼 赐 
教 ， 谢 谢 ! 


MPIO 里 没有 session 的 概念 ，MPIO 没 有 连接 状态 ， 它 不 是 一 个 通 
信 协 议 。MPIO 工 作 在 SCSI 层 之 上 ，iSCSI 的 MCS (Multi Connections 
per Session) 《你 问 的 时 候 应 该 注 明 是 iSCSI， 否 则 别人 不 知道 你 指 什 
么 ， 幸 好 我 猜 出 来 了 ) 工作 在 TCP 层 ，MPIO-~SCSI-~iSCSIFCP 
layer4 TCP/FC lower jlayer 一 IP/FC lower layer > MAC/FC lower 
layer physical bit encoder ~ physical cable， 这 是 整体 层次 。iSCSI 如 果 
使 用 MCS， 只 是 底层 连接 链 路 ， 或 者 TCP 连 接 个 数 (使 用 同一 个 物理 
接口 ) 上 增多 了 ，MCS 层 上 发 现 的 还 是 同一 份 LUN 的 一 个 影像 。 而 


MPIO 层 是 在 SCSI 之 上 了 ， 例 如 ， 在 iSCSI Initiator 处 不 使 用 MCS ， 通 
过 两 个 网 卡 认 到 同一 个 LUN 的 两 份 影像 ， 这 时 候 就 得 用 到 MPIO 层 次 
的 东西 了 。 你 问 到 的 先 用 MCS 对 每 个 session 做 均衡 ， 然 后 多 个 session 
再 用 MPIO 来 管理 ， 当 然 可 以 。 


84. 链 路 负载 均衡 的 设计 


我 想 做 一 个 从 服务 器 网 卡 到 存储 设备 的 网 卡 之 间 的 线路 元 余 ( 包 
括 网 卡 和 线路 交换 机 也 宛 余 ) 的 方案 ， 每 台 服 务 器 配 三 个 网 卡 (一 个 
做 HA 的 心跳 线 ， 另 两 个 分 配 同一 网 络 的 同一 网 段 的 IP 地 址 ， 如 A 网 卡 
是 x.x.2.1，B 网 卡 是 x.x.2.2) ， 把 两 个 网 卡 的 网 线 分 别 连 到 两 个 交换 机 
上 (就 当 它 是 个 普通 的 二 层 千 兆 交换 机 ) 。 存 储 设备 是 一 个 普通 的 
iSCSI 设备 ， 有 四 个 网 络 接口 ， 两 个 交换 机 上 分 别 连 到 存储 设备 的 A 接 
口 和 B 接 口 。 这 个 存储 设备 支持 线路 捆绑 ， 可 以 把 A 和 B 网 卡 捆绑 形成 
一 个 IP。 不 知道 这 样 的 方案 能 不 能 达到 我 所 需求 的 效果 ? 服务 器 那 边 
是 否 也 要 对 两 个 网 卡 进行 捆绑 ? 交换 机 是 否 要 求 要 三 层 交 换 机 ? 望 高 
人 指点 ， 谢 谢 ! 


(1) 存储 端 支 持 链 路 聚合 ， 是 什么 协议 ? Etherchannel 还 是 基于 
LACP 的 Etherchannel。 但 是 又 是 用 两 条 线 分 别 连 接 两 个 交换 机 ， 这 样 
的 话 ， 线 路 上 没有 什么 特殊 聚合 协议 ， 交 换 机 端 就 不 会 管 什么 Channel 
了 ， 不 是 端 到 端的 聚合 ， 而 只 是 存储 端 一 端 目 己 的 聚合 ， 而 且 疝 不 知 
道 存储 端 是 否 支持 这 种 一 头目 己 聚合 。 


(2) 存储 端 是 否 支 持 ISCSI 的 Multi Connection per Session ， 即 
MCS 功 能 ， 如 果 支 持 ， 就 多 了 一 种 选择 ， 相 当 于 可 以 负载 均衡 的 多 路 
径 软 件 。 如 果 不 支持 ， 就 只 能 用 ISCSI Initiator 自 带 的 MPIO 功 能 。 不 过 
还 是 推荐 MPIO。 


(3) 存储 端 是 否 具 有 一 种 叫做 IP Fast Path 或 者 类 似 功能 ， 即 外 出 
流量 Bypass 路 由 表 ， 而 根据 进入 的 IP Packet 所 流 经 端口 而 直接 转发 出 
去 ， 类 似 记 录 session。 如 果 不 支 持 ， 就 不 太 好 办 了 ， 必 须 将 两 台 交 换 
机 级 联 起 来 形成 一 个 广播 域 。 


用 不 着 三 层 交 换 机 。 如 果 存 储 端 支持 自己 本 身 的 聚合 ， 则 交换 机 
最 好 连 起 来 ， 因 为 你 弄 不 清 它 如 何 选择 外 出 转发 链 路 的 ， 除 非 你 有 把 
握 。 


(1) 存储 设备 支持 以 太 网 的 链 路 聚合 ， 从 存储 端 用 两 条 线 分 别 连 
接 两 个 交换 机 ， 是 考虑 到 交换 机 的 元 余 。 如 果 把 捆绑 后 的 两 条 线路 都 
接 到 同一 个 交换 机 上 的 话 ， 那 么 这 交换 机 二 了， 线路 自然 断 了 ， 我 也 
不 知道 设备 是 否 支 持 存储 单 端的 链 路 聚合 ， 所 以 不 知道 此 方法 是 否 可 
行 ? 


(2) 存储 设备 应 该 是 不 支持 MCS 功 能 的 ， 您 说 的 在 ISCSI 
Initiator 使 用 MPIO 功 能 ， 此 功能 在 Microsoft ISCSI Initiator 有 了 吗 ? 在 
什么 地 方 ? 


(3) 存储 端 应 该 是 不 支持 Bypass 路 由 表 的 ， 我 的 这 个 拓扑 中 ， 服 
务 器 的 两 个 网 卡 IP、 存 储 设备 的 网 卡 IP 都 是 同一 网 段 的 ， 这 种 情况 下 
好 像 并 不 需要 用 到 三 层 的 路 由 表 吧 ? 


(4) 另外 ， 至 于 您 说 的 “如 果 存 储 端 支持 自己 本 身 的 聚合 ， 则 交 
换 机 最 好 连 起 来 ， 因 为 你 弄 不 清 它 如 何 选择 外 出 转发 链 路 的 ， 除 非 你 
有 把 握 *"， 你 所 指 的 交换 机 连 起 来 是 指 交换 级 连 吗 ? 还 是 交换 机 之 间 互 
连 ， 若 这 样 的 话 就 形成 二 层 环 路 了 。 假 如 服务 器 的 两 网 卡 IP 是 同一 段 
IP 的 话 ， 就 是 不 知道 会 用 哪个 IP 跟 存储 通信 ? 至 于 回流 的 数据 〈 即 从 


存储 到 服务 器 方向 的 数据 流 ) 的 路 径 应 该 是 可 以 确定 的 ， 从 哪 条 路 过 
来 就 从 哪 条 路 回去 。 


呵呵 ， 怎 么 可 能 成 环 .……. 难 道 你 要 把 服务 器 看 做 一 个 转发 以 太 网 
广播 的 网 桥 ? 可以， 两 个 卡 你 给 桥接 起 来 ， 成 环 了 。 你 怎么 能 确定 回 
流 的 它 就 哪 条 进来 哪 条 回去 ? 这 个 功能 是 要 单列 的 ， 普 通路 由 表 模 式 
下 就 是 有 一 个 默认 的 出 口 的 。session 模 式 下 才 会 哪 条 进 哪 条 出 ， 那 是 
一 些 路 由 器 之 类 才 有 的 功能 ， 存 储 端 当然 也 应 该 实现 ， 你 最 好 和 厂家 
去 确认 一 下 。 


85. 关于 D2D2T 


我 们 公司 现在 有 一 个 这 样 的 FTP 应 用 ， 使 用 磁盘 阵列 以 及 磁带 库 
进行 二 级 存储 ， 现 在 想 在 磁盘 阵列 上 开辟 一 个 区 域 用 于 缓存 磁带 库 数 
据 。 这 个 缓存 怎么 做 ， 有 现成 的 算法 或 产品 吗 ? 


你 的 需求 貌似 是 一 个 分 级 存储 的 需求 。 既 然 你 的 盘 阵 可 以 直 连 磁 
带 库 ， 那 么 就 证 明 它 已 经 开发 了 相关 的 模块 ， 你 要 在 它 上 面 放 缓存 ， 
我 理解 缓存 中 的 数据 是 你 近期 可 能 要 调用 的 所 以 不 想 马上 就 放 磁 市 ， 
那么 你 得 和 这 个 盘 阵 的 厂家 联系 看 看 是 否 有 这 个 功能 。 软 件 方面 灵活 
度 就 高 了 ， 一 般 D2D2T 的 备份 软件 都 提供 这 种 功能 ， 只 不 过 不 一 定 叫 
“缓存 ”什么 的 ， 一 般 备份 软件 都 把 这 种 模式 叫做 Disk Stage， 你 可 以 选 
择 什么 时 候 将 Disk 中 的 效 据 转 移 到 磁 市 。 


86. 断 开 ISCSI Session 时 总 是 报错 


为 什么 用 Windows 自 带 的 ISCSI 客 户 端 去 连接 IP SAN， 并 且 写 入 
数据 后 ， 想 在 客户 端 把 Target 退 掉 ， 为 什么 老 是 会 报错 (提示 session 


的 问题 ) ， 老 是 退 不 掉 ， 是 微软 本 身 的 问题 吗 ? 谢谢 ! 


确保 所 有 与 本 磁盘 操作 有 关 的 程序 都 推出 ， 比 如 打开 的 窗口 。 还 
不 行 就 先 古 Target 端 Unmap 这 个 LUN， 然 后 断 开 。 


87. 针对 某 IO 测 试 结果 的 分 析 


前 几 天 测试 了 一 台 EVA4400， 服 务 器 系统 Linux ， 使 用 Orion 测 试 
的 ， 读 写 比 例 90:10。 使 用 sar 和 iostat 监 控 ， 其 中 发 现 了 这 种 情况 ， 请 
各 位 给 解答 下 : EVA4400 满 配 12 块 硬盘 ， 我 划 了 一 个 Disk Group ， 划 
分 了 4 个 vdisk， 容 量 分 别 为 几 十 GB ， 服 务 器 与 盘 阵 间 有 光纤 交换 机 ， 
Linux 上 打上 了 HP 的 多 路 径 软件 ， 系 统 中 fdisk -1; 系统 盘 是 c0d0， 盘 
阵 映 射 到 服务 器 中 的 是 sda/sdb/sdcsdd。 测 试 结 果 如 下 。 


第 一 次 : 


Orion 测 试 值 : 0, 46041, 41442, 3712 3, 3637 4, 3588 5, 3479 6, 3411 
7, 3310 8, 3206 


sar 值 (部 分 ) : 


S55HSA400DEY tps rd sec/s wr_sec/s avgrq-sz avgqu-Sz 
await svctm %util 

13:55:34 dev8-0 959.714 13795.80 1564.84 16.00 14.72 
15.33 1.04 99.66 

13:55:34 dev8-16 1077.02 15539.66 1695.90 16.00 10.82 
10.05 0.92 99.35 

13:55:34 dev8-32 1184.42 17069.33 1868.53 15.99 16.09 
13.59 0.84 99.84 


13:55:34 dev8-48 1313.39 18961.84 2057.14 16.00 22.11 
16.83 0.75 98.87 


iostat 值 (部分) : 


10/26/09 13:55:34 

Device: rrqm/s wrqm/s r/s w/srkB/swkB/s avgrdqd-sz avgqdqu-sz 
await svctm %util 

cciss/cOd00.00 0.500.000.40 0.00 3.6018.00 0.01 半 人 2 

11.00 © .44 

sda 0.00 0.00 862.50 97.70 6904.00 781.6016.0114.74 
15.34 1.04 99.75 

sdb 0.00 0.00 972.20 106.10 7776.00 848.8016.0010.83 
10.05 0.92 99.44 

sdc 0.00 0.00 1068.80 116.90 8544.00 935.2015.9916.11 
13.59 0.84 99.93 

sdd 0.00 0.00 1186.00 128.80 9490.40 1031.2016.0022.13 
16.83 0.715 98.96 


第 二 次 : 


Orion 测 试 值 : 0, 2470 1,874 2,650 3,653 4,634 5,623 6,597 7,597 
8,580 


sar 值 (部 分 ) : 


14:19:04 DEV tps rd sec/s wr_sec/s avgrq-sz avgqu-Sz 
await svctm %util 


14:19:04 dev104-0 1.20 0.00 26.43 22.00 0.03 21.50 7.25 


14:19:04 dev8-0136 .44 OD 2227 SS MDT OSU27 
7.34100.11 


14:19:04 dev8-16148.75 2146.15233.83 16.00 1.29 8， 


4.57 68.03 


14:19:04 dev8-32165.17 2386.39296.30 16.24 46.35250. 


6.06100.11 


14:19:04 dev8-48186.29 2657.06323.52 16.00 1.56 8， 


4.01 74.62 


iostat 值 (部分) : 


10/26/09 14:19:04 


Device: rrqm/s wrqm/s r/s w/srkB/swkB/s avgrd-sz avgdu- 


await svctm %util 


cciss/cOd00.00 2.100.001.20 0.0013.2022.00 0.03 2 


W325 0.87 


sda 0.00 0.00 121.30 15.00 956 .80 113 ,6015.7116 ， 


中 2 局 7.34 100.01 


sdb 0.00 0.00 134.00 14.60 1072.00 116 ,8016 . 


1.298.65 4.57 67.96 


sdc 0.00 0.00 147.00 18.00 1192.00 148.0016.2446. 


250.14 6.06 100.01 


sdd 0.00 0.00 165.90 20.20 1327.20 161.6016. 


1.568.39 4.01 74.55 


问题 : 


ES 


65 


14 


39 


SZ 


50 


83 


00 


30 


00 


(1) 为 什么 4 块 盘 第 一 次 测试 负载 相同 ， 而 第 二 次 负载 不 同 ? 负 
载 相 同时 TPS 值 较 高 ， 而 负载 不 同时 TPS 很 低 ? 脚本 相同 。 


(2) 请 问 如 何 解 决 这 种 问题 ? 在 其 他 客户 那里 也 见 过 这 种 情况 ， 
造成 服务 器 整体 性 能 很 低 。 后 又 建立 两 个 vdisk， 添 加 到 服务 器 中 ， 发 
现 同样 会 出 现 上 述 情况 ，1 个 负载 100%，1 个 百 分 之 六 七 十 。 


4 个 盘 一 起 IO 么 ?” 这 样 的 话 会 造成 所 有 磁盘 全 部 忙于 寻 道 ， 而 且 
根据 控制 器 内 部 的 相关 策略 ，4 个 虚拟 盘 之 间 平 衡 可 能 会 被 打破 ， 所 以 
有 些 高 有 些 低 。 先 单独 测试 每 个 盘 看 看 结果 ， 再 一 起 测试 。 一 条 定 
律 ， 如 果 在 一 组 物理 磁盘 上 生成 了 多 个 虚拟 磁盘 ， 而 你 又 想 同 时 对 这 
多 个 虚拟 磁盘 进行 并 发 的 IO 操 作 并 且 想 达到 较 高 的 JO 和 和 带宽， 那么 重 
要 条 件 就 是 提高 Stripe Depth 或 者 类 似 定义 ， 越 高 越 好 。 


补充 一 下 ， 尽 可 能 多 的 盘 在 一 个 Disk Group 中 ， 适 合 于 上 层 单 
IO、 连 续 大 块 IO 的 情况 ， 非 常 适合 于 提高 单 IO 的 整体 吞吐 量 。 如 果 是 
多 个 虚拟 磁盘 并 发 上 层 IO ， 在 一 个 Disk Group 中 加 再 多 的 盘 ， 效 果 也 
提升 不 了 ， 但 是 有 一 个 例外 ，Stripe Depth 如 果 增 大 到 可 观 的 程度 ， 盘 
越 多 当然 越 好 。 总 之 ，Stripe Depth 关 系 着 上 层 并 发 10 的 并 发 度 ， 在 并 
发 IO 环境 中 起 着 决定 性 作用 。 


88. 关于 CDP 厂 商 
现在 做 CDP 的 有 多 少 家 ? 
连续 数据 保护 ， 记 录 每 一 个 写 IO 并 附 以 时 间 戳 ， 在 一 段 时 间 内 可 


以 恢复 到 任意 指定 的 时 间 点 ， 粒 度 不 同 ， 厂 家 不 同 ， 楼 上 说 的 是 一 分 
钟 的 力度 ， 也 有 秒 级 ， 晓 秒 级 ， 坚 秒 级 一 般 也 就 够 用 了 ， 因 为 你 根本 


不 知道 哪个 时 间 点 的 镜像 是 一 致 的 。CDP 相 对 于 Snapshot 的 一 个 缺点 
就 是 很 难保 证 一 致 性 ， 只 能 通过 牺牲 RPO 来 保证 一 致 性 。 目 前 飞 康 、 
EMC、IBM、Symantec 都 有 人 做， 其 中 飞 康 和 EMC 功 能 较 强 。 


89. Snapshot 与 CDP 在 一 致 性 保证 方面 的 区 别 


请 教 冬瓜 兄 : (1) Snapshot 是 如 何 保证 一 致 性 的 ? (2) CDP 为 
何不 能 保证 一 致 性 ? 原理 是 哈 ? 


Snapshot 在 主机 端 有 各 种 文件 系统 甚至 应 用 程序 级 的 Agent 来 强制 
将 一 致 性 的 缓存 数据 写 入 硬盘 之 后 立即 做 一 次 Snapshot。CDP 是 记录 
很 细 粒 度 的 写 IO ， 你 总 不 能 每 秒 强制 应 用 或 者 文件 系统 将 缓存 刷 到 硬 
盘 吧 ? CDP 只 能 通过 牺牲 RPO 来 达到 一 致 性 ， 随 便 找 个 时 间 点 恢复 除 
非 磁 巧 ， 一 般 是 不 一 致 的 。 所 以 需要 一 些 回 深 手 段 ， 如 EMC 
RecoverPoint 就 是 利用 日 志 来 回 深 到 上 一 个 Commitpoint 处 。 


是 不 是 可 以 说 是 以 镜像 的 方式 进行 数据 保护 的 ? 


因为 CDP 底 层 实现 起 来 比较 复杂 ， 在 Online 存 储 上 直接 实现 对 性 
能 有 影响 ， 所 以 飞 康 等 都 是 使 用 镜像 的 方式 先 将 Online 数 据 镜 像 之 后 
再 在 镜像 上 实现 各 种 功能 。 三 种 镜像 方式 : 主机 端 Agent (比如 LVM 
等 卷 镜 像 软件 ) ，Fabric API 比 如 SANtap Service (FC 交换 机 端口 镜 
像 ) ， 存 储 设备 处 对 卷 镜 像 。 


对 于 CDP 对 数据 保护 的 一 致 性 方面 有 什么 见解 ? 


CDP 的 RPO 在 底层 看 似 是 9， 但 是 对 于 上 层 一 定 是 大 于 等 于 0， 
为 需要 回 滚 ， 靠 CDP 自 己 的 日 志 回 滚 也 好 ， 或 者 干脆 靠 应 用 层 回 滚 也 
好 。 另 外 ， 关 于 Snapshot 一 致 性 是 分 层 的 ， 文 件 系统 及 其 下 层 ， 还 有 


应 用 层 ， 前 者 做 的 Snapshot 至 少 在 文件 系统 层 是 一 致 的 ， 但 是 不 一 定 
应 用 层 一 致 ， 后 者 则 可 以 保证 应 用 层 一 致 。 还 有 ，CDP 得 根据 实现 方 
式 来 判断 是 否 是 “真实 的 数据 复制 ”。 对 于 EMC RP 或 者 Ipstor CDP 这 种 
镜像 数据 之 后 在 镜像 中 做 CDP， 当 然 是 复制 了 。 如 果 其 他 实现 方式 比 
如 直接 在 线 实 现 或 者 使 用 附加 的 Block 仓 库 方 式 ， 那 也 需要 指针 。 


“所 以 基于 磁盘 Block 设 备 的 CDP， 包 括 飞 康 的 、EMC 的 ， 都 是 扯 
淡 ! 3? 


底层 只 能 是 先 保持 在 线 存储 的 同步 镜像 ， 至 于 是 否 一 致 ， 这 个 又 
绕 回来 了 ， 两 个 一 致 性 层次 : 文件 系统 及 其 下 层 ， 应 用 自身 的 Buffer 
一 致 性 和 人 逻辑 一 致 性 ， 只 有 应 用 的 逻辑 一 致 性 才 是 端 到 端的 一 致 性 ， 
也 是 追求 的 最 终 上 目标。 通过 底层 实现 的 CDP 可 以 靠 上 层 回 滚 来 实现 一 
致 性 ， 而 如 果 从 应 用 层 来 实现 CDP， 比 如 Oracle Dataguard， 可 以 看 做 
是 一 种 CDP， 它 也 一 样 需要 应 用 replay。 所 以 底层 CDP 和 上 层 CDP， 本 
贡 是 一 样 的 ， 不 是 扯淡 。 


90. 关于 LAN、WAN、SAN、FC、iSCSI、NAS、LAN-Free、 


Frontend-Free 


请 解释 一 下 : LAN、WAN、SAN、FC、iSCSI、NAS、LAN- 


Free、 Frontend-Free 
LAN: Local Area Network 


这 个 都 知道 ， 局 域 网 。 但 是 好 像 大 家 都 叫 习惯 了 ， 反 而 有 人 不 理 
解 LAN 的 本 质 意 思 了 。 好 好 看 看 这 三 个 字 ,“ 局 域 网 ”， 你 在 你 的 本 地 
站 点 看 得 见 摸 得 着 的 所 有 了 网络 ， 任 何 形式 的 网 络 ， 都 属于 LAN。 比 


如 : 本 地 电话 交换 网 络 ， 本 地 以 太 网 络 ， 本 地 存储 网 络 。 有 人 质疑 ， 
本 地 存储 网 络 也 属于 LAN? 存储 网 络 不 是 SAN 么 ? 这 就 是 一 种 概念 不 
清 并 且 不 统一 。 将 本 地 SAN 归 纳 到 LAN 中 将 会 很 好 地 统一 这 些 概念 ， 
随 着 本 文 的 继续 读者 将 会 体会 到 。 


WAN: WIDE Area Network， 广 域 网 


泛 指 跨越 远 距离 的 链 路 ， 或 者 地 理 上 相隔 很 远 的 两 个 网 络 互联 起 
来 形成 了 广域网 。 广 域 网 这 个 词 在 应 用 的 时 候 大 部 分 时 候 指 代 长 距离 
传输 链 路 ， 即 WAN 常 用 于 指 代 长 距离 链 路 而 不 是 网 络 。 比 如 在 说 “将 
本 地 站 点 通过 WAN 连 接 到 远程 ”>， 这 里 的 WAN 就 是 指 长 距离 传输 链 
路 。 为 何 WAN 一 词 会 被 赋予 这 种 指 代 ， 原 因 是 因为 长 距离 链 路 普遍 都 
是 点 对 点 链 路 而 不 是 多 点 互 访 型 链 路 ， 所 以 一 个 广域网 ， 其 具有 广 域 
网 意义 的 也 就 是 局 域 网 之 间 的 这 条 链 路 了 。 你 说 以 太 网 链 路 是 否 可 以 
作为 广域网 链 路 ， 当 然 可 以 ，FC 链 路 也 同样 可 以 跨 长 距离 ， 所 以 此 时 
也 属于 WAN 链 路 。 


SAN: Storage Area Network， 存 储 区 域 网 络 


即 专 用 于 传输 对 存储 设备 IO 数据 的 网 络 。 可 以 是 任何 形式 的 网 
络 ， 比 如 FC 网 络 、 以 太 网 络 、SAS 网 络 、Infiniband 网 络 ， 或 者 ， 任 何 
形式 的 了 P 网 络 。 使 用 FC 网 进行 IO 传输 的 叫做 FC-SAN， 同 理 ， 使 用 IP 
网 络 的 叫做 IP-SAN。 基 于 SAS 网 络 的 呢 ? 当然 叫 SAS-SAN 了 ， 以 此 类 
推 。 那 么 ， 有 人 推出 来 个 Ethernet-SAN ， 是 不 是 也 可 以 呢 ? 上 文 说 
SAN 也 可 以 基于 以 太 网 络 。 没 错 ， 你 可 以 这 么 说 。 你 可 以 把 FCOE 称 
为 一 种 EthernetrSAN。 那 么 IP-SAN 是 否 也 属于 Ethernet-SAN 呢 ? 部 分 
属于 ， 因 为 IP-SAN 的 底层 链 路 一 般 情 况 下 都 是 使 用 以 太 网 的 ， 但 是 绝 
对 不 能 说 IP 就 是 以 太 网 。 比 如 你 使 用 ADSL 通 过 Internet 一 样 可 以 连接 


到 iSCSI Target， 那 此 时 就 不 能 称 其 为 Ethernet-SAN 了 ， 只 能 叫 IP- 
SAN。 以 上 列举 的 这 些 访问 方式 ， 或 者 说 协议 ， 目 前 都 是 基于 Block 形 
式 的 SCSI 协 议 十 底层 传输 协议 。 还 有 另外 的 BlockO 访 问 方式 协议 集 将 
在 下 文 描述 。 


NAS: CIFS 和 NFS 以 及 其 他 第 三 方 厂商 自行 开发 的 基于 文件 偏 移 
量 IO 的 文件 型 IO 协 议 


业界 将 能 够 提供 文件 型 IO 访问 而 存储 数据 的 存储 设备 称 为 NAS， 

即 Network Attached Storage。 NAS 设 备 在 局 域 网 内 部 目前 都 是 使 用 以 
太 网 来 作为 底层 传输 链 路 的 ， 寻 址 路 由 和 传输 保障 协议 分 别 使 用 IP 和 
TCP 这 两 种 目前 最 为 广泛 的 协议 。 在 这 之 上 便 是 CIFS、NFS 等 上 层 协 
议 了 。NAS 是 一 种 设备 ， 而 不 是 一 个 网 络 。 但 是 可 以 用 NAS 来 指 代 文 
件 型 IO 的 访问 方式 ， 比 如 描述 某 个 设备 的 IO 方式 是 Block 方 式 还 是 NAS 
方式 。 注 意 ， 避 免 用 这 种 描述 Block 备 使 用 SAN 方 式 还 是 NAS 方 式 ， 原 
因 下 文 再 述 。 


SAN 所 包含 的 元 素 


关于 SAN 这 个 词 有 几 个 误区 或 者 不 成 文 的 说 法 ， 比 如 只 把 将 基于 
FC 的 数据 传输 方式 叫做 SAN ， 或 者 反 过 来 ， 当 说 SAN 的 时 候 只 表示 
FC-SAN 而 忽略 了 IP-SAN， 这 样 容易 对 阅读 方 造 成 不 便 、 混 乱 和 误 
解 。 比 如 在 描述 某 款 产品 的 时 候 , “前 端 支持 SAN 方 式 访问 ”， 其 实 这 
个 设备 只 支持 FC-SAN， 但 是 他 没有 明确 指出 是 否 支持 IP-SAN， 这 样 
就 给 阅读 者 带 来 了 不 便 。 


另外 ，SAN 是 一 个 网 络 ， 但 又 不 仅仅 只 表示 由 交换 机 组 成 的 底层 
网 络 ， 而 它 包 含 更 加 丰富 的 元 素 ， 比 如 磁盘 阵列 、 磁 融 库 、 虚 拟 化 设 


备 、 备 份 服务 器 等 。 可 以 说 SAN 这 个 词 与 SA _ (Storage Area) 近乎 同 义 
了 ， 或 者 说 SAI (Storage Area Infrastructure) 。 比 如 可 以 这 样 说 :“ 某 
SAN 中 包含 两 台 xx 磁 盘 阵 列 ， 一 台 备 份 服务 器 ， 一 人 台 磁 带 库 。” 


建议 : 今后 在 描述 具体 技术 参数 时 杜绝 单独 使 用 SAN 一 词 ， 
代 之 以 FC-SAN、IP-SAN、NAS-SAN 等 ,或 者 干脆 直接 只 用 
协议 来 描述 ， 比 如 FC、ISCSI、CIFS、NFS。 比 如“ 前端 支持 
FC、ISCSI 访 问 方式 *"， 这 样 就 没有 任何 歧义 了 。 


各 种 关系 论 


LAN 与 WAN 的 关系 : LAN 与 WAN 就 是 本 地 和 远程 的 对 应 关系 ， 
本 地 的 就 是 LAN， 远 距离 的 就 是 WAN。 


以 太 网 与 LAN 的 关系 : 绝对 不 要 把 LAN 等 同 于 以 太 网 。LAN 是 一 
个 大 涵盖 ， 不 仅仅 包括 本 地 以 太 网 络 。 如 果 某 人 描述 “客户 端 与 服务 器 
通过 LAN 连 接 ， 服务 器 与 磁盘 阵列 通过 SAN 连 接 *"， 这 句 话 不 是 不 对 ， 
但 是 描述 太 含糊 , “通过 LAN 连 接 *， 哪 种 底层 链 路 ? 没 说 。 虽 然 大 部 
分 人 还 是 理解 其 意思 ， 但 是 终究 不 严谨 。 不 如 直接 说 “通过 以 太 网 连 
接 ”。 另 外 ， 本 地 SAN 也 属于 LAN， 所 以 这 句 话 追 究 起 来 ， 就 是 个 病句 
了 。 


SAN 与 LAN 和 WAN 的 关系 : 如 果 一 个 SAN， 或 者 说 SA， 完 全 在 
本 地 ， 则 可 以 把 这 个 SAN 归 属于 LAN。 如 果 某 个 SAN 是 跨 长 距离 链 路 
部 署 的 ， 则 可 以 说 这 个 SAN 跨 越 了 WAN 或 者 WAN 链 路 。 


SAN 与 FC 和 1ISCSI 的 关系 : FC 泛 指 一 种 传输 协议 ， 即 Fibre 
Channel。 用 FC 协 议 来 承载 SCSI 之 后 产生 的 协议 叫做 FCP。ISCSI 指 用 
IP 网 络 来 承载 SCSI 之 后 产生 的 协议 。SAN 与 FCP 和 ISCSI 的 关系 ， 就 是 


网 络 与 协议 的 关系 。 数 据 在 SAN 网 络 内 传输 时 使 用 的 多 种 协议 中 包含 
了 FCP 和 ISCSI 协 议 。 


SAN 与 NAS 的 关系 : NAS 指 一 种 设备 ，SAN 或 者 说 SA 指 的 是 一 种 
网 络 和 这 个 网 络 区 域内 的 各 种 元 素 。NAS 当 然 也 属于 存储 区 域 中 的 元 
素 ， 所 以 NAS 属 于 SAN。 


乱七八糟 的 Free 


LAN-Free: 这 个 词根 本 不 应 该 存在 。 关 于 它 的 由 来 ， 是 起 源 于 备 
份 领域 的 一 种 技术 。 一 般 在 某 个 企业 网 络 系统 内 ， 客 户 端 与 服务 器 是 
使 用 以 太 网 络 进行 数据 通信 和 的， 而 传统 的 备份 系统 中 ， 备 份 服务 器 和 
介质 服务 器 也 需要 使 用 以 太 网 络 与 需要 备份 的 服务 器 进行 通信 ， 将 服 
务 器 上 需要 备份 的 数据 通过 同一 个 以 太 网 络 传输 到 介质 服务 器 上 从 而 
写 入 介质 保存 。 由 于 客户 端 与 服务 器 通信 的 以 太 网 络 的 繁忙 程度 直接 
关系 到 客户 端的 响应 速度 ， 本 来 对 延迟 就 比较 敏感 ， 而 备份 数据 流 也 
通过 同一 个 以 太 网 进行 传输 ， 只 能 是 火 上 浇 油 。 那 位 说 了 ， 以 太 网 交 
换 机 目前 这 么 便宜 ， 再 买 一 个 ， 服 务 器 上 再 加 个 网 卡 ， 专 门 用 于 备份 
数据 流 的 传输 ， 井 水 不 犯 河水 ， 客 户 端 以 太 网 不 就 是 Free 了 么 ， 不 就 
行 了 么 ? 是 啊 ， 所 以 说 “LAN-Free” 这 个 词 真 的 让 人 摸 不 着 头脑 了 。 为 
什么 这 么 说 呢 ? 上 文 说 过 ， 很 多 人 都 直接 用 LAN 来 指 代 客户 端 与 服务 
器 通信 的 前 端 以 太 网 ， 或 者 不 管 前 端 还 是 后 端 ， 就 指 以 太 网 。 这 样 的 
话 ， 刚 才 那 个 例子 ， 再 用 一 个 单独 出 来 的 以 太 网 专用 作 备 份 数据 流 的 
话 ， 这 样 到 底 叫 不 叫 LAN-Free 了 呢 ? 如 果 说 ，LAN-Free 中 的 LAN 仅 指 
代 前 端 以 太 网 而 不 是 备份 专用 以 太 网 的 话 ， 那 么 上 面 的 方法 就 是 LAN- 
free; 但 是 如 果 这 个 LAN 指 的 是 以 太 网 的 话 ， 那 么 上 面 的 方法 依然 用 
到 了 以 太 网 ， 就 不 是 LAN-Free。 到 底 是 不 是 呢 ? 乱 了 。 再 说 了 ，LAN 
本 来 的 意思 是 局 域 网 ， 即 本 地 网 络 ， 不 管 你 再 怎么 折腾 ， 只 要 还 在 本 


地 备份 ， 那 么 都 属于 LAN 之 内 ， 就 不 是 所 谓 LAN-Free。 彻 底 乱 了 。 所 

以 说 ， 这 个 词根 本 不 应 该 存在 。 哪 个 词 更 能 表达 这 种 不 消耗 前 端 客 户 

端 网 络 的 备份 方式 呢 ? 鄙人 发 明 的 一 个 词 叫做 “Frontend-Free”。 
Frontend-Free: 前 端 网 络 Free， 即 不 管 你 怎么 折腾 ， 只 要 不 耗费 前 


端 网 络 资源 ， 管 你 再 用 一 台 以 太 网 交换 机 也 好 ， 或 者 直接 使 用 FC 网 络 
来 存 取 备 份 的 数据 也 好 ， 都 是 Frontend-Free。 这 不 就 解决 了 么 ? 


笔者 在 做 一 些 方案 或 者 写 一 些 文章 的 时 候 ， 都 会 时 刻 注意 这 些 词 
的 应 用 ， 力 求 清晰 严谨 。 


91. RAID Stripe 问 题 


我 的 疑惑 ， 比 如 3 个 盘 组 成 的 RAID ， 条 带 64KB ， 如 果 我 刚好 有 
64KBx3 的 数据 要 写 入 ， 那 正好 一 次 搞 完 ， 是 这 样 吗 ? 


条 带 是 横 跨 3 个 盘 的 ，64KBx3 的 话 ， 是 一 次 写 完 ， 控 制 器 对 每 个 
盘 一 个 IO 就 能 写 完 这 些 数据 。 


如 果 我 的 数据 只 有 64KB 呢 ， 写 还 是 不 写 ? 还 是 按 4 说 的 写 到 其 中 
某 块 盘 的 1 个 条 带 中 ? 


看 来 你 疫 理解 条 之 ， 你 说 了 条 市 二 64KB， 你 要 写 64 KB， 那 么 当 
然 是 一 次 写 入 三 个 盘 了 。 这 里 不 考虑 64 除 不 尽 的 问题 ， 最 好 弄 成 4 块 盘 
来 举例 。 


如 果 再 小 点 ， 只 有 32KB 了 呢 ? 写 还 是 不 写 ? 怎么 写 ? 也 是 写 到 其 中 
某 块 盘 的 1 个 条 带 中 吗 ? 那 该 条 带 剩 下 的 空间 意味 着 浪费 了 是 吗 ? 


“ 某 块 盘 的 一 个 条 带 ”， 这 说 法 不 对 。 条 带 由 Segment 组 成 ， 条 带 在 
每 个 盘 上 占用 一 个 Segment。 32KB 就 会 占用 两 个 盘 (〈 共 4 盘 ) ， 控 制 器 
对 每 个 盘 一 个 IO。 剩 下 怎么 浪费 了 ? 


我 一 直 也 有 这 样 的 疑虑 : 如 果 是 存储 的 话 ， 会 被 先 Cache， 然 后 
凑 足 条 带 的 数据 再 写 入 ? 


Cache 当 i ， 理 想 情 况 下 控制 器 尽量 整 条 写 ， 也 就 是 组 
合 合适 的 IO。 要 是 想 研 究 这 些 底层 东西 的 话 ， 得 从 头 梳 理 一 下 这 些 细 
节 概 念 。 


92. 关于 IO 冲突 问题 


小 第 有 一 个 疑问 ， 一 个 主机 系统 对 应 一 个 Array 还 是 一 个 Array 能 
对 应 多 个 主机 系统 (只 要 控制 好 Storage Partition) ? 有 这 个 疑问 主要 
出 于 IOPS 性 能 的 考虑 ， 若 一 个 DS 4700 有 16 块 盘 ， 若 我 建 两 个 Array 
(除了 hotspare) ， 每 个 Array 对 应 一 个 主机 系统 (不 同 OS) ， 那 么 
每 个 Array 中 的 磁盘 数 就 会 减少 ， 相 应 的 IOPS 就 会 降低 ; 若 我 只 建 一 
个 Array， 将 这 个 Array 对 应 到 两 个 主机 系统 ， 那 么 IOPS 就 能 得 到 提 
升 。 但 我 不 知道 我 的 想法 是 否 可 行 ， 请 DX 们 指点 。 


最 好 是 两 个 RAID 组 ， 每 个 组 根据 需求 提供 相应 的 磁盘 数 。 同 一 个 
RAID 组 提供 多 个 LUN 给 多 个 主机 ， 存 在 争 用 冲突 ， 如 果实 在 必 须 这 
样 ， 建 议 将 Stripe Depth 调 至 到 最 大 以 最 大 程度 避免 10 冲 实 


93. 关于 LUN 分 布 方式 的 问题 


我 这 里 有 个 DS4800， 只 连接 了 一 个 扩展 柜 。 共 16 个 磁盘 。 我 在 这 
个 DS4800 划 了 两 个 RAID 5， 每 个 Array 里 面 建立 一 个 LUN， 名 字 分 别 
为 LUN1、LUN2， 将 这 两 个 LUN mapping 至 同一 台 主 机 ， 磁 盘 分 别 为 
hdisk1、hdisk2。 然 后 Aix 里 面 在 hdisk1、hdisk2 上 建立 一 个 LV， 这 个 
LV 通过 LVM 实 现 条 带 化 。 这 样 就 实现 了 DS4800 的 纵横 向 条 带 化 。 我 
划分 的 LV 是 供给 OLTP 数 据 库 以 裸 设备 形式 使 用 的 。 但 是 具体 这 两 个 
层面 条 带 化 的 大 小 应 该 怎么 设置 才 合 理 呢 ? 是 不 是 这 层面 的 两 个 条 带 
化 大 小 相同 效果 才 最 理想 ， 那 具体 设置 多 大 ? 请 高 手 们 指教 。 谢 谢 ! 


建议 做 成 累加 模式 而 不 是 Stirpe。 不 过 也 要 根据 实际 来 看 ， 如 果 两 
个 hdisk 的 负载 均 会 比较 高 ， 而 且 并 发 性 比较 高 ， 那 不 推荐 再 次 做 
Stripe。 如 果 你 非 要 做 的 话 ， 那 就 将 Stripe Depth 调 到 最 大 以 提供 最 大 的 
并 发 度 。 


94. 测试 的 伪 结 果 


怎么 判断 Total /Os per Second 和 Total MBs per Second 读 数 高 了 
或 低 了 ， 分 别 又 是 由 什么 原因 引起 的 ? 


读数 高 低 主 要 由 两 个 因素 决定 ， 一 个 是 目标 存储 的 性 能 ， 性 能 高 
的 当然 高 ， 低 的 当然 低 。 但 是 还 有 一 个 最 容易 被 忽略 的 因素 ， 就 是 缓 
存 ， 包 括 IOmeter 所 处 的 主机 端 缓存 和 存储 端 缓存 ， 尤 其 是 测试 顺序 读 
的 时 候 更 容易 受到 缓存 的 影响 。 比 如 第 一 次 测试 ， 读 数 可 能 较 低 ， 但 
是 第 二 次 测试 读数 显著 增高 ， 就 是 由 于 缓存 的 影响 。 


选择 1 个 worker 和 选择 多 个 worker 去 测 一 个 RAID 分 区 或 HDD 分 
区 有 什么 不 同 ? 我 用 4 核 CPU 选 一 个 worker，100%read 去 测 一 个 5400 


转 的 HDD 时 ，Total MBs per Second 的 读数 会 有 110 多 ， 比 较 正 常 。 但 
当 我 加 到 3 个 或 4 个 worker 时 ， 读 数 就 只 有 50 左 右 了 。 


不 知道 你 多 个 worker 测 试 的 是 同一 块 物理 硬盘 的 不 同 分 区 《地址 
段 ) ， 还 是 多 个 硬盘 。 对 于 一 个 物理 硬盘 ， 或 者 一 个 物理 RAID 组 ， 主 
机 端的 IO 个 效 最 好 为 1， 如 果 同 时 多 路 主机 端 1O ， 会 造成 物力 资产 争 
用 ， 导 致 磁盘 不 停 寻 道 ， 从 而 显著 降低 IOPS 和 市 宽 吞吐 量 。 当 然 如 果 
多 个 worker 对 同一 段 地 址 进行 读 取 ， 由 于 先 读 出 的 数据 在 缓存 中 ， 后 
来 的 worker 读 取 同 一 段 地 址 时 ， 性 能 就 会 大 大 提升 。 如 果 就 如 我 开始 
说 的 ， 多 个 worker 对 不 同 分 区 或 者 地 址 段 进行 测试 ， 那 么 整体 性 能 不 
升 反 降 。 有 很 多 人 反映 过 类 似 问 题 ， 我 也 都 回答 过 ， 在 一 些 论坛 ， 可 
以 搜索 一 下 。 


如 果 同时 选 4 个 worker 去 测 4 个 不 同 的 分 区 ， 这 种 做 法 有 问题 么 ? 


如 上 个 问题 一 样 ， 不 能 说 是 问题 ， 只 要 是 机 械 硬 盘存 储 ， 都 会 这 
样 。 


传输 数据 块 大 小 的 选择 对 测试 结果 会 有 什么 影响 ? 另外 为 什么 一 
般 都 选 4KB、16KB、64KB、256KB、512KB、1MB 等 ， 而 不 是 
3KB、5KB、20KB、100KB、200KB 等 ? 


这 里 数据 块 大 小 就 是 每 个 IO 的 Size。 从 你 的 问题 我 推断 你 还 没有 
深刻 理解 IO 的 概念 和 属性 。 在 《大 话 存储 》 中 我 用 了 尽 可 能 详尽 甚至 
虽 嗪 的 篇 幅 来 讲述 JO， 如 果 你 还 没有 阅读 这 本 书 ， 请 尽快 阅读 。 这 里 
我 还 是 再 重复 的 简要 描述 一 下 IO。IO 的 三 大 件 : 目标 /地 址 段 / 读 写 的 
长 度 。 关 于 IO Size 和 IOPS 的 关系 ， 请 同样 阅读 《大 话 存储 》。 不 同 IO 
Size 和 IO 属性 (顺序 、 并 发 、 连 续 、 随 机 ) 对 结果 有 不 同 影响 ， 同 


样 ， 阅 读 《 大 话 存 储 》。 为 何 IO Size 都 是 2 的 需 次 ， 因 为 计算 机 领域 普 
遍 习惯 用 2 的 震 次 ， 而 且 每 磁盘 扇 区 一 般 都 是 512B， 为 了 局 区 对 齐 。 
每 个 IO 中 的 “ 读 写 长 度 ” 都 是 局 区 的 2 的 需 次 倍 。 


95. RAID 级 别 问题 


最 近 看 了 一 下 大 话 存 储 RAID 级 别 ， 有 几 个 问题 不 明白 : (1) 就 
RAID 5， 条 带 大 小 为 128KB， 如 果 写 入 的 文件 很 小 如 2KB， 那 存放 的 
方式 和 占有 容量 是 怎么 确定 的 ? 剩余 条 带 怎 么 处 理 ? (2) 磁盘 在 格式 
化 的 时 候 有 个 单元 分 配 大 小 ， 这 个 好 像 就 是 文件 存放 的 最 小 单位 ， 和 
RAID 里 面 的 块 有 什么 区 别 ? 


要 彻底 理解 这 个 问题 ， 我 建议 楼 主 在 文字 的 基础 上 勤 画 图 。 


首先 你 要 写 入 2KB 的 “文件 ”， 既 然 牵 扯 到 文件 ， 就 要 牵扯 到 文件 
系统 的 分 配 单 元 ， 也 就 是 你 第 二 个 问题 。RAID 疝 操作 系统 提供 的 是 
卷 ， 是 连续 的 扇 区 (或 者 叫 LBA) 空间 地 址 ， 而 卷 向 文件 系统 所 展示 
的 是 分 区 ， 相 对 于 卷 ， 分 区 融 是 将 大 片 连续 地 址 再 次 切 开 。 


文件 系统 用 扇 区 组 成 所 谓 “ 族 ”"， 或 者 叫 cluster， 或 者 叫 分 配 单 
元 ，FS 和 存放 数据 只 以 簇 为 单位 ， 而 不 会 出 现 “ 读 入 或 者 写 出 半 个 入 ”这 
种 10 命令 。 而 卷 之 下 的 各 层 都 可 以 以 单个 扇 区 为 单位 了 ， 扇 区 是 存储 
系统 最 小 的 IO 单位 。 


明白 了 底层 这 些 映射 关系 ， 就 可 以 着 手 研 究 IO 行 为 了 。 再 说 回 
来 ， 你 说 要 写 入 2KB 的 “文件 ”"， 当 然 是 要 调用 文件 系统 进行 写 入 了 ， 
如 果 文 件 系统 的 簇 大 小 被 设 定 为 2KB， 则 文件 系统 会 在 分 区 内 分 配 
2KB 的 空间 来 存放 文件 实体 数据 ， 也 就 是 4 个 局 区 的 连续 地 址 。 此 外 ， 


还 需要 更 新 inode (unix) 或 者 MFT 表 (Win) 等 所 谓 “ 元 数 
据 /MetaData”， 也 需要 占用 额外 的 空间 。 


值得 一 提 的 是 ，inode 或 者 MFT 对 应 某 个 文件 的 metaData 本 身 是 可 
以 存放 一 定数 量 的 文件 实体 数据 的 ， 一 般 是 64B， 小 于 这 个 数值 ， 文 
件 直 接 存 放 在 inode 中 ; 大 于 这 个 数据 ，inode 中 会 被 加 入 二 级 和 三 级 扩 
充 映 射 指针 指向 文件 实体 数据 被 存放 的 扇 区 地 址 用 于 寻 址 操作 。 再 来 
看 看 RAID 所 提供 的 角色 ， 刚 说 了 RAID 提 供 一 片 连 续 扇 区 地 址 ， 假 如 
文件 系统 选择 了 局 区 1024 人 1027 号 这 4 个 连续 的 扇 区 作为 这 个 2KB 文 件 
的 存放 空间 ， 则 文件 系统 写 入 这 个 文件 的 时 候 ， 卷 接收 到 这 个 指令 
后 ， 会 将 这 段 扇 区 号 码 传送 给 RAID 驱 动 ，RAID 驱 动 接受 之 后 会 将 号 
码 传送 给 RAID 已 片 进行 地 址 翻译 ( 硬 RAID 卡 ) 或 者 直接 在 驱动 层面 
进行 地 址 翻译 ( 软 RAID 卡 ) 。 地 址 翻译 这 里 的 意思 是 将 这 段 连续 的 地 
址 映射 到 实际 的 物理 硬盘 地 址 ， 因 为 RAID 提 供给 上 层 的 是 虚拟 磁 
盘 /LUN， 一 个 LUN 可 以 分 布 在 多 个 物理 硬盘 上 。 


地 址 翻译 的 过 程 一 定 要 查询 Stripe 也 就 是 条 带 映 射 表 ， 当 初 你 怎么 
分 的 ， 此 时 就 会 影响 翻译 之 后 实际 的 硬盘 局 区 地 址 。 再 回来 说 你 的 
RAID 5 的 128KB 条 带 ，128KB 条 带 二 磁盘 数量 乘 以 每 个 磁盘 上 组 成 这 
个 条 带 的 Segment 大 小 ， 也 就 是 说 一 个 条 带 把 排列 的 多 个 磁盘 横向 切 成 
了 一 条 一 条 的 ， 人 硬盘 本 身 相 当 于 竖 条 ， 而 横 条 和 竖 条 切 开 之 后 形成 的 
小 格子 就 是 Segment， 也 叫 条 带 深 度 ，Stripe Depth。 


比如 8 个 盘 的 RAID 5 系统 ， 其 中 一 块 用 于 存放 parity，128KB 条 带 
除 以 8 等 于 16KB， 也 就 是 说 Segment 二 条 带 深 度 二 16KB = 二 每 个 磁盘 上 
贡献 一 个 条 带 所 使 用 的 空间 。 再 回来 说 2KB 的 文件 写 入 ， 这 个 情况 
下 ， 地 址 翻译 会 将 2KB 的 地 址 翻译 为 “磁盘 m 上 的 n 到 磁盘 1 上 的 n 十 3 号 
扇 区 >， 当然 也 可 能 是 “磁盘 x 上 的 y 到 磁盘 a 上 的 b”， 总 之 地 址 落 在 物理 


硬盘 上 的 哪个 区 域 ， 如 条 带 中 央 / 条 融 边 缘 ， 单 个 物理 硬盘 /多 个 物理 
硬盘 ， 文 件 系统 是 不 知道 的 ， 由 RAID 层 面 决 定 。 这 种 不 知道 称 为 
“ 盲 ”"”， 现 在 大 多 文件 系统 都 盲 ， 但 是 也 有 不 盲 或 者 半 盲 的 。 


我 们 在 RAID 层 面 来 设计 条 带 ， 分 步 等 ， 实 际 上 都 是 讶 操作， 效果 
不 会 很 大 ， 包 括 RAID 5 本 身 的 并 发 10 特 点 ， 也 是 讶 并发。 所谓 并 发 ， 
拿 你 刚才 的 例子 ， 某 个 IO 需要 写 入 2KB 的 数据 ， 如 果 地 址 翻译 结果 为 
这 4 个 局 区 落 在 一 个 Segment 里 ， 则 这 个 IO 只 会 占用 一 个 数据 盘 ， 外 加 
需要 占用 parity 区 域 。 如 果 此 时 还 有 一 个 IO 需要 写 入 2KB 数 据 ， 而 这 次 
的 4 个 局 区 落 在 了 另 一 块 数据 盘 上 ， 而 它 需 要 的 parity 数 据 恰好 与 前 一 
个 IO 及 其 所 需要 的 parity 区 域 不 在 同一 个 盘 上 ， 则 这 两 个 IO 可 以 并 行 操 
作 ，4 块 磁盘 同时 读 写 。 由 于 这 种 并 发 是 基于 “恰好 ”的 ， 所 以 RAID 5 
提供 的 是 盲 并 发 ， 要 实现 不 盲 的 并 发 只 能 靠 上 层 文 件 系 统 。 说 了 这 么 
多 ， 等 于 给 《大 话 存 储 》 做 了 一 个 注释 吧 。 楼 主要 是 想 彻 底 把 这 些 基 
础 知识 扎实 打 牢 靠 ， 请 阅读 《大 话 存储 》。 


96. AIX 中 磁盘 的 Queue Depth 问 题 


对 于 AIX 系 统 ， 磁 盘 的 属性 里 有 一 项 是 Depth， 默 认 值 是 10， 对 于 
裸 设备 应 用 ， 调 大 Depth 性 能 会 有 所 提高 ， 请 问 Depth 是 什么 意思 ? 是 
不 是 调 的 越 大越 好 啊 。 


IO 队列 深度 ， 即 Queue Depth。 与 hdisk 底 层 对 应 的 存储 所 提供 的 
LUN 所 对 应 的 队列 深度 对 应 起 来 即 可 。 


97. RAID 10 磁 盘 数量 与 性 能 的 关系 


想 请 教 一 下 大 家 RAID 10 磁 盘 数 量 跟 性 能 的 关系 。 如 果 从 原理 上 
分 析 ， 是 磁盘 越 多 性 能 越 好 ， 但 实际 是 这 样 么 ? RAID 10 最 多 能 做 多 
少 块 盘 呢 ?经验 值 一 般 都 是 多 少 呢 ? 


只 要 控制 器 允许 ， 盘 越 多 性 能 越 好 ， 但 是 多 LUN 并 发 环境 下 ， 整 
体 性 能 提升 有 限 ， 不 如 单 LUN 环 境 。 据 我 所 知 IBM DS4 新 固件 以 及 
DS5 可 以 达到 30 盘 的 RAID 10。 


98. VMware ESX 是 如 何 使 用 SAN 存 储 资 源 的 ? 


本 人 对 VMware ESX 不 是 很 熟 ， 请 问 它 是 如 何 使 用 SAN 存 储 资源 
的 ? 


(1) 是 在 磁盘 阵列 上 分 配 一 个 大 尺寸 的 LUN 给 esx 服 务 器 ， 然 后 
通过 虚拟 磁盘 的 方式 再 分 给 各 个 虚拟 机 (vm) 吗 ? 


(2) 还 是 在 磁盘 阵列 上 配置 一 个 个 的 LUN ， 再 直接 分 配给 每 一 
个 虚拟 机 (vm) 呢 ? 


你 说 的 两 种 方式 都 支持 ， 前 者 是 VMFS 方 式 ， 后 者 Raw Disk Map 
方式 。 前 者 在 一 个 LUN 上 创建 多 个 vmdk 文 件 给 多 个 虚拟 机 使 用 ， 后 者 
一 个 LUN 只 能 给 一 个 虚拟 机 。 


99. 如 何 快速 备份 大 量 小 文件 ? 


某 个 项 目 中 遇 到 的 问题 : 几 十 个 TB 的 数据 ， 都 是 电子 文件 ， 大 部 
分 大 小 在 几 百 KB 到 几 MB 之 间 ， 一 经 写 入 ,很 少 改动 。 目 前 有 磁带 
机 ， 一 盘 磁 带 大 概 能 写 800GB~1.5 TB。 这 样 的 数据 ， 怎 么 设计 备份 
机 制 比较 合适 ? 请 大 家 指点 。 


可 以 先 直 接 采 用 持续 复制 方式 镜像 到 外 部 存储 D2D 即 可 ， 
Snapshot 等 在 镜像 中 来 做 。 大 量 小 文件 备份 恢复 ， 这 种 d2d 持 续 复制 方 
式 是 最 住 的 。 或 者 直接 备份 整个 LUN 空 间 也 是 可 以 的 。 


100. 如 何 理 解 10 惩 罚 ? 


之 前 看 《大 话 存 储 》， 有 些 疑 问 。 


(1) 我 理解 的 写 惩罚 ， 是 该 模式 下 某 些 情况 写 数据 因为 校 验 盘 等 
因素 导致 IO 次 数 相 比 正常 增加 ， 不 知道 这 么 理解 对 不 对 ? 像 RAID 5 的 
写 惩罚 高 ， 主 要 是 因为 针对 小 数据 的 写 操 作 ? 


(2) 据说 RAID 5 的 读 改写 模式 效率 低 ， 是 因为 它 要 多 出 两 次 
IO ， 一 次 是 读 出 校 验 盘 数据 ， 一 次 是 写 回 校 验 盘 数据 ， 加 上 它 读 出 和 
写 回 需要 改写 的 数据 ， 一 共 是 4 次 。 为 什么 校 验 盘 不 能 和 数据 盘 一 同 读 
出 和 写 入 呢 ? 它们 本 身 在 两 个 磁盘 ， 应 该 可 以 并 发 的 ? 


这 里 当然 是 可 以 并 发 10 的 ， 但 是 为 什么 你 非 要 将 这 两 个 并 发 的 IO 
理解 为 “一 次 1O0” 呢 ? 


我 的 意思 是 既然 可 以 同时 读 出 或 写 入 数据 盘 和 校 验 盘 ， 那 么 读 取 
写 的 overhead 体 现在 那里 ? 


如 果 将 这 个 “同时 ”用 于 处 理 其 他 上 层 IO 请 求 ， 而 不 是 用 来 读 写 
Parity 或 者 其 他 segment 上 的 数据 呢 ? 


101. 如 何 分 布 LUN 的 问题 


讨论 下 ，HDS 的 存储 ， 现 在 给 数据 库 划 8GB 大 小 的 Ilv， 是 单独 在 
一 个 pv 上 划 Ilv， 性 能 好 ， 还 是 在 多 个 pv 上 划 lv 的 性 能 好 ? (前 提 是 
不 做 条 带 化 ) 


这 个 问题 的 大 方向 是 : 不 要 管 lvm， 这 些 都 是 虚 的 ， 也 不 要 管 存 
储 层 什么 这 个 ldev， 那 个 vol， 这 个 LUN 的 。 我 们 最 终 就 看 它 用 了 多 少 
块 物理 磁盘 ， 也 就 是 你 能 看 得 见 的 磁盘 。 划 了 几 个 RAID 组 ， 你 的 应 用 
是 否 是 多 进程 并 发 访问 同一 组 磁盘 ， 而 且 这 多 个 进程 又 不 相关 ， 比 如 
就 是 两 个 完全 独立 的 系统 ， 那 么 知道 了 这 一 点 ， 你 再 对 应 自己 的 需 
求 ， 一 组 磁盘 提供 的 性 能 是 恒定 的 ， 多 人 来 抢 就 不 如 一 个 人 用 的 爽 ， 
就 这 样 。 任 何 问题 ， 不 管 哪个 层面 的 ， 用 这 个 方向 来 判断 ， 屡 试 不 
爽 。 


102. 磁盘 内 部 传输 率 、 外 部 传输 率 、 传 输 带 宽 、 接 口 速度 之 间 的 
关系 


在 本 书 第 3 章 说 道 磁盘 的 内 部 传输 速率 、 外 部 传输 速率 、 传 输 带 
宽 、 接 口 速度 之 间 有 什么 关系 ? 另外 Ultra 320 SCSI 传 输 速 率 可 以 达到 
320MB/s， 这 个 320MB/s 指 的 是 上 述 的 哪个 速度 ? 


内 部 是 最 大 理论 速率 ， 外 部 是 最 大 实际 理论 速率 ， 也 就 是 被 寻 道 
打 断 之 后 的 速率 ， 接 口 速 度 是 出 口 速 度 ， 可 能 会 卡 住 外 部 速率 。 理 论 
传输 带宽 三 接口 速度 。 实 际 传输 带宽 ,瓶颈 在 哪 就 等 于 哪 。U320 指 接 
口 速度 。 


103. RAID 5 对 小 文件 的 性 能 提升 问题 


多 块 SSD 磁 盘 做 RAID 0/5 ， 在 小 文件 方面 ， 对 性 能 提升 的 作用 是 
正面 的 还 是 负面 的 ? 以 我 的 理解 ，RAID 0/5 对 小 文件 的 性 能 提升 是 负 
面 作 用 。 


多 块 SSD 做 RAID ， 与 机 械 硬 盘 RAID 无 二 致 。 提 高 并 发 ， 不 管 什 
么 介质 ， 都 有 益 。 不 知道 为 何 理解 RAID 0/5 小 文件 的 负面 作用 。 


对 于 大 量 小 文件 ， 比 如 10KB 左 右 的 。RAID 条 带 大 小 一 般 4、16、 
32、64、128 和 256KB ， 多 数 情况 下 64KB ， 小 文件 基本 上 不 分 片 ， 
RAID 0 没有 优势 ，RAID 5 还 得 计算 校 验 值 。 因 此 ， 我 觉得 还 不 如 单 
块 SSD 性 能 好 。 不 知道 这 样 理 解 对 不 对 ? 


谁 说 一 定 要 分 片 才 有 优势 的 ? 8 个 盘 RAID 0， 每 个 盘 服务 一 个 文 
件 IO， 并 发 8 个 ， 这 样 很 好 。 有 了 时候 分 片 反而 性 能 差 得 一 塌 糊 涂 。 另 
外 ， 用 SSD 做 RAID 别 老 想 着 分 片 ， 没 一 点 好 处 ， 除 非 是 大 块 连续 IO。 
对 10KB 也 分 成 1KB 的 片 ? 不 怕 影 响 SSD 寿 命 么 ? 分 片 以 后 ， 所 有 SSD 
寿命 都 被 摧残 了 ， 还 不 如 就 着 一 块 弄 。SSD 组 RAID 最 怕 就 是 因为 
Parity 分 布 太 平均 而 造成 多 块 SSD 在 短 时 间 内 全 坏 ， 所 以 针对 SSD 的 
RAID 需 要 一 定 的 Parity 分 布 算法 ， 不 能 太平 均 ， 得 一 个 一 个 坏 ， 一 个 
一 个 的 换 上 ， 换 上 新 盘 之 后 还 要 重新 分 布 Parity。 因 为 如 果 不 重 新 分 布 
Parity， 新 盘 的 损耗 可 能 会 追赶 上 其 他 盘 的 损耗 而 达到 同一 段 时 间 内 损 
坏 。 这 种 SSD 的 RAID 算 法 目前 国内 高 校 有 些 课 题 在 弄 的 。 


RAID 内 部 ， 数 据 分 片 应 该 是 自动 的 ， 超 过 条 带 大 小 就 分 吧 。 还 
是 说 ， 分 不 分 片 是 可 以 通过 设置 来 控制 的 ? 


10KB， 可 以 明确 告诉 你 ， 除 了 RAID 3 之 外 任何 RAID 都 不 会 分 。 
分 不 分 可 以 设置 Stripe Depth， 不 过 Stripe Detph 目 身 也 有 限 ， 分 不 分 得 


看 具体 情况 了 。 
104. 集群 NAS 与 并 行文 件 系统 的 区 别 


集群 NAS 与 并 行文 件 系统 的 区 别 是 什么 ? 都 是 在 集群 方式 下 实现 
的 ， 有 什么 不 同 呢 ? 


现在 集群 NAS 和 并 行文 件 系统 有 融合 的 趋势 。 包 括 Ibrix、 
Stormext、 Panasas 等 ， 它 们 都 是 在 并 行文 件 系统 之 上 提供 NAS 抽 象 层 
的 ， 所 以 你 说 它 是 并 行 FS 也 可 以 ， 说 它 是 集群 NAS， 也 可 以 。 


105. 快照 、 容 灾 如 何 保 证 数据 一 致 性 的 问题 


存储 的 快照 、 复 制 技术 如 何 保障 数据 库 的 一 致 性 ? 据说 实测 时 ， 
Oracle 不 一 定 能 Open。 但 又 有 很 多 容 灾 的 案例 ， 不 知 用 的 什么 机 制 保 
障 数 据 库 的 一 致 性 ? 


快照 如 果 需 要 保证 一 致 性 ， 那 么 第 一 层 可 以 在 FS 层 进 行 Flush 之 后 
做 快照 ， 这 样 可 以 保证 FS 一 致 性 ， 但 是 不 能 保证 应 用 程序 层 的 一 致 
性 ， 要 做 到 后 者 ， 那 么 需要 在 应 用 层 进 行 cleanup ， 然 后 做 快照 。 实 现 
着 两 层 的 一 致 性 需要 在 主机 端 安装 一 个 Agent 来 与 FS 或 者 应 用 通信 协 
调 ， 在 用 户 决 定 执行 快照 时 ， 通 知 FS 或 者 APP 来 执行 Cleanup 。 
Microsoft 提 供 了 VSS 服 务 ， 所 有 不 同 广 商 的 应 用 、 存 储 、Agent 都 可 以 
基于 这 个 服务 平台 来 实现 APP 层 面 的 一 致 性 。 至 于 容 灾 ， 容 灾 时 只 
保证 完全 同步 ， 那 么 就 不 会 有 问题 ， 但 是 代价 也 是 巨大 的 。 在 异步 
时 ， 只 能 够 通过 一 致 性 组 的 方式 来 保证 时 序 一 致 性 ， 但 是 却 不 能 保证 
上 层 人 逻辑 一 致 性 ， 如 果 连 时 序 一 致 性 都 无 法 保证 ， 那 么 Open 成 功 的 几 
率 会 很 低 。 


保证 了 时 序 一 致 性 的 前 提 下 ， 能 不 能 Open ， 也 要 看 造化 ， 
Open， 则 通过 Replay 来 恢复 一 致 性 但 是 却 丢失 了 数据 ， 如 果 还 不 
Open， 那 么 只 能 是 恢复 到 容 灾 端 最 后 一 个 绝对 一 致 的 快照 了 。 


Ab 
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106. 网 络 IO 问 题 


我 今天 再 次 测试 了 我 的 服务 器 ， 发 现 了 一 个 现象 : 我 1.5TB 硬 盘 
里 有 10 个 20GB 的 图 纸 ， 首 先 我 把 这 个 硬盘 连接 在 服务 器 上 ， 通 过 我 本 
地 的 电脑 将 这 10 个 图 纸 中 的 两 个 同时 分 别 用 光驱 进行 刻录 。 当 只 开启 
一 个 的 时 候 ， 速 度 正 常 ， 当 另 一 个 光驱 开始 刻录 的 时 候 ， 两 个 光驱 的 
速度 立刻 下 降 甚 至 到 了 0 速 的 状态 。 于 是 我 把 硬盘 从 服务 器 上 拿 了 下 
来 ， 直 接连 接 到 我 自己 的 电脑 上 ， 再 次 用 同样 的 方法 对 文件 进行 刻 
录 ， 这 个 时 候 效 果 立 刻 不 一 样 了 : 同时 刻录 的 两 个 光驱 都 可 以 按 正常 
速度 进行 工作 ， 没 有 出 现 速度 下 降 问 题 。 特 别 说 明 一 下 ， 我 与 服务 器 
之 间 的 连接 是 通过 千 兆 网 卡 连接 ， 用 FTP 测 试 过 速度 ， 基 本 上 都 在 
80MB/s 左 右 ， 所 以 应 该 网 络 不 是 瓶颈 。 请 大 家 帮忙 分 析 下 问题 所 在 。 
个 人 想法 ， 我 想 会 不 会 和 服务 器 上 的 主 版 或 者 服务 器 的 设置 有 关 呢 ? 
我 用 的 是 win2003 数 据 中 心 版 ， 没 有 进行 多 余 的 设置 ， 基 本 上 就 是 安 
装 好 后 给 目录 做 下 共享 ， 是 不 是 有 什么 需要 设置 或 者 遗漏 的 呢 ? 


刻录 对 数据 流 疲 动 是 很 敏感 的 ，1G 的 速率 不 能 和 本 地 总 线 以 及 硬 
盘 接 口 速率 相 比 。 加 之 cifs 的 开销 很 大 ， 当 另 一 个 进程 也 连接 cifs 目 录 
打开 文件 时 会 产生 大 量 数 据 包 ， 严 重 堵塞 网 络 ， 刻 录 程 序 感知 到 数据 
的 这 个 波动 ， 当 然 就 降 速 了 。 用 SMB 2.0 协 议会 有 所 改善 。Windows 
Server 2008 和 Vista/ 7 已 经 使 用 SMB 2.0 了 。 


107。Lustre 与 pNFS 之 间 的 异同 


哪 位 高 人 能 讲解 一 下 lustre 和 pnfs 之 间 的 异同 ? 


lustre 和 pnfs 都 使 用 OSD 的 概念 。 传 统 nfsv3 和 cifs 做 不 到 并 行 集群 
访问 的 要 求 。 所 以 nfs 4.1 也 就 是 pnfs 意 识 到 了 这 一 点 ， 将 架构 改 成 与 
lustre 等 类 似 以 获得 并 行 访 问 。 这 就 是 osd 与 传统 nas 最 大 的 不 同 之 处 ， 
类 似 的 还 有 PanFS、Ibrix 的 FusionClient 等 。 


Lustre 是 一 个 并 行文 件 系统 的 名 字 ， 而 pNFS 则 是 用 于 并 行 访问 的 
一 种 协议 。 一 个 是 文件 系统 ， 一 个 是 协议 。 


108. 阵列 之 间 的 远程 容 灾 复制 ， 其 底层 到 底 是 怎么 样 的 ? 
通用 做 法 以 及 扣 出 几 个 我 所 知道 的 厂商 的 做 法 ， 供 参考 。 


(1) 远程 复制 可 以 通过 多 种 链 路 进行 ， 如 果 通 过 fc 进行 ， 则 一 定 
都 是 使 用 ILT 模 式 的 ， 也 就 是 initiator-target-LUN。 但 是 有 一 种 除外 ， 
下 面 会 讲 。 


(2) 本 地 阵列 是 否 会 直接 挂 远 程 阵列 的 LUN 上 来 比如 当 
做 /dev/sda 这 类 东西 来 做 ， 不 一 定 ， 一 般 都 不 会 ， 都 是 直接 与 IO 设备 驱 
动 层 交互 直接 对 LUN 进 行 操 作 以 绕 过 块 设备 层 以 及 其 他 各 层 ， 提 高 灾 


(3) 推 和 拉 模 式 。 一 般 选 择 拉 模 式 ， 及 远程 主动 向 本 地 要 数据 ， 
表现 为 读 过 程 。 为 何 这 样 考虑 ， 是 因为 scsi write 过 程 交 互 的 数据 帧 比 
读 要 多 ， 浪 费 链 路 资源 。 


(4) 传输 方式 : 标准 scsi read/write cdb 模 式 。 


(5) 控制 模式 : 将 控制 数据 封装 到 scsi cdb 中 传输 ， 对 端 提取 对 
应 数据 进行 定 界 、 分 析 、 处 理 从 而 控制 数据 传输 。 


(6) 如 果 通 过 IP 进 行 ， 对 于 一 些 大 阵列 来 讲 一 般 做 法 是 将 fc 再 封 
装 到 也， 比如 弄 成 fcip， 加 fcip 交 换 机 之 类 。 另 外 一 种 则 是 使 用 私有 协 
议 接 口 来 完成 镜像 操作 。 


(7) 使 用 私有 协议 完成 镜像 操作 ， 这 个 就 多 了 ， 很 多 基于 IP 复 制 
的 。 


(8) 厂商 举例 : emc、hds、ibm 这 类 使 用 fc 链 路 进行 镜像 的 ， 都 
是 使 用 ITL 模 式 。netapp 使 用 IP 复 制 ， 使 用 私有 接口 ， 先 将 待 传输 的 数 
据 块 进行 描述 、 封 装 ， 传 输 到 对 端 ， 对 端 提 取 分 析 之 后 发 起 拉 取 数据 
的 操作 。 其 协议 并 不 是 scsyiscsi， 私 有 协议 ，netapp 也 可 以 使 用 fc 链 路 
复制 ， 但 是 由 于 采用 私有 协议 ，fc 并 不 提供 私有 协议 的 接口 支持 ， 所 
以 引入 了 FC virtual interface， 及 FCVI 卡 。 这 种 卡 可 以 提供 FC 上 层 的 VI 
接口 ， 从 而 方便 地 将 私有 协议 转换 成 VI 协议 。 其 他 也 有 厂商 使 用 iscsi 
进行 复制 的 ， 与 fc 复制 的 区 别 就 是 链 路 不 同 而 已 ， 就 不 列举 了 。 


(9) 至 于 阵列 可 以 做 initiator 模 式 ， 当 然 可 以 ， 其 中 netapp 的 产品 
可 以 对 所 有 口 的 模式 进行 翻转 ， 翻 转 之 后 重启 即 可 。 这 一 点 做 的 很 方 
便 ， 希 望 国内 厂商 借鉴 和 学 习 其 技术 。 


109. 请 问 两 台 存 储 设备 可 以 像 交 换 机 路 由 器 一 样 做 热 备 么 ? 
我 记得 某 路 由 器 上 面 的 主 控 模 块 ， 是 叫 Supervisor Engine 吧 ， 是 可 


以 插 两 个 来 做 热 备 的 。 存 储 设备 一 般 都 配 有 双 控 制 器 ， 它 们 之 间 是 可 
以 热 备 的 。 但 是 对 于 两 台独 立 的 存储 设备 ， 即 便 是 同一 厂商 型 号 的 设 


备 《每 台 设 备 都 有 两 个 控制 器 互 为 热 备 ) ， 它 们 之 间 也 不 能 做 热 备 ， 
除非 是 集群 存储 系统 ， 多 台独 立 节点 之 间 是 可 以 热 备 的 。 如 果 你 非 要 
让 它 热 备 起 来 ， 唯 一 办 法 是 通过 主机 端的 某 种 镜像 软件 ， 比 如 LVM ， 
软 RAID 1， 或 者 一 些 厂商 提供 的 专门 在 主机 端 对 两 个 卷 进 行 数据 复制 
(远程 或 者 本 地 ) 的 软件 ， 这 样 一 台 阵 列 宕 掉 之 后 ， 相 当 于 主机 端 找 
不 着 其 中 一 个 卷 了 ， 主 机 会 切换 到 另 一 个 镜像 卷 继 续 工 作 ， 做 得 好 的 
话 透 明度 很 高 ， 做 的 不 好 的 话 ， 也 得 等 比较 长 时 间 切 换 。 比 如 有 些 人 
测试 过 LVM 的 镜像 ， 结 果 发 现 一 分 多 钟 没 切换 过 来 的 情况 。 


110. 请 问 iSCSI 与 FCoE 究竟 谁 会 成 为 主流 ? 


这 个 问题 很 好 。 目 前 的 现状 是 ，iSCSI 硬 卡 只 有 Emulex 和 
Broadcom (尚未 发 布 只 是 公开 ) 的 CNA 卡 支持 ， 后 续 可 能 会 有 更 多 的 
广 商 推出 万 兆 iSCSI 硬 卡 。 如 果 用 软 iSCSI initiator 的 话 ， 一 个 10G 口 子 
会 耗 掉 30% 左 右 甚 至 更 高 的 CPU， 就 算 用 最 新 的 Intel CPU 也 是 这 样 ， 
所 以 基本 上 4 个 10G 口 就 会 耗 死 一 台 阵 列 。 但 是 FC 卡 就 不 会 有 这 种 情 
况 ，FCoE 同 样 也 不 会 。 退 一 步 讲 ， 如 果 10G 的 FCoE 与 硬 10G iSCSI 比 
的 话 ， 卡 件 与 协议 本 身 来 讲 都 差不多 ， 成 本 也 差不多 ， 所 以 就 要 看 外 
围 辅助 设备 的 成 本 ， 一 台 FCoE 交 换 机 目前 来 讲 还 是 远 贵 于 10G 以 太 交 
换 机 ， 所 以 要 是 小 规模 部 署 ， 甚 至 不 如 用 8G FC 交 换 机 划算 。 其 次 是 
看 看 场景 ，FCoE 更 适合 想 融合 之 前 已 经 部 署 的 FC 与 新 部 署 的 以 太 网 
的 场景 ， 也 就 是 大 型 久 建 的 数据 中 心 ， 对 于 新 建 数据 中 心 ， 这 个 趋势 
还 不 明朗 ， 笔 者 之 前 和 Emulex 的 一 名 员工 交流 过 ， 他 的 意思 是 新 建 数 
据 中 心 他 们 推荐 使 用 iSCSI 硬 卡 ， 但 是 我 估计 这 种 说 法 是 含有 很 大 水 分 
的 ， 毕 竟 Emulex 是 目前 仪 有 的 一 家 提供 硬 iSCSI 卡 成 品 的 公司 ， 他 们 推 
荐 iSCSI 可 能 有 一 定 市 场 目 的 。 但 是 我 个 人 看 法 ，FCoE 目 前 Qlogic、 
Brocade 和 Emulex 都 有 产品 了 ， 为 何 10G 的 iSCSI 硬 卡 只 有 Emulex 一 家 


产品 ， 证 明 FCoE 今 后 可 能 会 有 一 波 行情 。FCoE 和 iSCSI， 谁 O 不 是 0? 
区 别 就 是 一 个 是 FC， 一 个 是 TCPIP， 抛 开 以 太 网 ， 单 看 FC 和 TCPIP ， 
前 者 高 效 但 是 扩展 性 差 ， 后 者 效率 稍 低 但 是 扩展 性 很 好 ， 其 实 这 已 经 
与 以 太 网 无 关 了 ， 还 是 最 后 到 底 是 认同 FC 还 是 认同 TCPIP 的 问题 。 我 
的 看 法 是 ，FCoE 会 弄 出 一 波 行情 ， 但 是 FC Fabric 这 个 协议 很 那 门 ， 它 
要 求 交 换 机 也 要 参与 Fabric 的 建立 ， 而 且 交 换 机 起 到 至 关 重 要 的 作 
用 ， 这 增加 了 复杂 度 并 且 降 低 了 兼容 性 ; 而 iSCSI 却 不 要 求 交 换 机 有 什 
么 上 层 协 议 智 能 。 最 后 iSCSI 很 有 可 能 会 奉 代 FCoE。FCoE 与 iSCSI， 广 
商 也 尚未 看 清 ， 谁 也 不 敢 冒 然 选 路 。 


111. 所 谓 计算 与 存储 合体 ， 其 产品 形态 是 什么 ? 


冬瓜 头 ， 快 来 .存储 和 计算 结合 之 后 ， 是 什么 样 的 产品 形态 啊 ? 
计算 ， 存 储 ， 都 很 牛 叉 的 机 器 ? JIM GRAY ， 有 一 篇 论文 谈 到 ， 真 正 
成 本 最 高 的 地 方 在 网 络 ... 我 们 也 确实 可 以 感觉 到 ， 在 同步 数据 ， 或 者 
做 灾 备 的 时 候 ， 最 头疼 的 还 是 两 个 节点 之 间 的 通道 有 多 大 。 


这 种 统一 之 后 到 底 是 个 什么 机 器 ? 答案 是 不 是 单独 的 机 器 ， 就 是 
一 群 机 器 ， 通 过 软件 模块 联系 起 来 ， 对 于 计算 机 来 讲 ， 硬 件 属于 物质 
本 源 ， 属 于 阴 ， 属 于 形 ， 软 件 则 属于 精神 本 源 ， 属 于 阳 ， 属 于 神 。 用 
软件 模块 将 计算 和 存储 颗粒 汇总 起 来 发 挥 作 用 ， 并 且 将 原本 的 以 计算 
为 中 心 的 计算 方法 变 为 以 存储 为 中 心 的 计算 方法 ， 把 计算 颗粒 分 配 到 
存储 了 计算 所 需要 的 数据 的 节点 上 ， 在 哪 存储 就 在 哪 计 算 ， 大 幅 提高 
效率 和 速度 ， 避 免 了 频繁 大 量 数据 传输 ， 这 也 回答 了 你 的 另外 一 个 问 
题 “ 成 本 最 高 的 是 在 网 络 上 ”， 其 实 这 句 话 暗 指 ， 数 据 移 动 起 来 成 本 太 
高 了 。 网 络 本 身 成 本 不 高 。 但 是 如 果 要 容 灾 ， 依 然 可 以 使 用 这 个 思 
想 ， 即 在 哪 存储 就 在 哪 计 算 ， 可 以 在 业务 层面 进行 双 份 ， 而 不 是 数据 


层面 ， 比 如 一 笔 交 易 ， 可 以 在 业务 层面 将 其 同步 到 远 端 ， 远 端 针 对 这 
笔 交易 生成 自己 的 数据 然后 下 盘 。 一 个 实际 例子 是 ， 比 如 数据 库 日 志 
同步 方式 的 容 灾 ， 同 步 量 相 比 直接 底层 数据 同步 来 的 少 很 多 。 


你 说 的 那 种 “计算 与 存储 都 很 牛 的 机 器 *"， 也 不 是 没有 ， 但 是 还 不 
到 时 候 ， 到 了 量子 计算 和 分 子 存储 时 代 ， 那 时 候 计 算 机 形态 又 会 轮回 
到 初始 原点 状态 ， 单 台 机 器 ， 确 实 很 牛 ， 大 家 都 拿 高 速 网 络 来 连接 到 
这 人 台 超 级 计算 机 上 获取 资源 。 


112. 大 量 小 文件 的 存储 场景 ， 有 什么 优化 办 法 ? 


其 实 很 简单 ， 可 以 参考 Google 的 GFS 以 及 变种 HDFS、 淘 宝 TFS 以 
及 腾讯 Tencent FS 的 设计 。 这 些 都 是 处 理 大 量 小 文件 的 典范 。 大 家 知道 
传统 的 文件 系统 下 ， 每 个 文件 都 要 被 创建 对 应 的 inode 之 类 元 数据 ， 但 
是 在 海量 文件 场景 下 ， 传 统 FS 已 经 无 法 承载 如 此 多 的 元 数据 IO 量 以 及 
如 此 庞大 的 元 数据 搜索 计算 量 了 ， 唯 一 的 做 法 就 是 降低 元 数据 量 ， 那 
么 势必 就 要 降低 文件 实体 的 数量 ， 所 以 这 些 文件 系统 无 一 例外 的 都 是 
用 了 这 样 一 种 变通 的 方法 ， 即 在 文件 中 再 创建 文件 ， 比 如 一 个 64MB 
的 大 文件 ， 比 如 其 中 可 以 包含 16384 个 4KB 的 小 文件 ， 但 是 这 个 64MB 
的 大 文件 只 占用 了 1 个 inode， 而 如 果 存 放 4KB 的 文件 的 话 ， 就 需要 
16384 个 inode 了 。 那 么 如 何 寻 址 这 个 大 文件 中 的 小 文件 呢 ? 方法 就 是 
利用 一 个 旁 路 数据 库 来 记录 每 个 小 文件 在 这 个 大 文件 中 的 起 始 位 置 和 
长 度 等 信息 ， 也 就 是 说 将 传统 文件 系统 的 大 部 分 元 数据 剥离 了 开 来 ， 
拿 到 了 单独 的 数据 库 中 存放 ， 这 样 通过 查询 外 部 数据 库 先 找到 小 文件 
具体 对 应 在 哪个 大 文件 中 的 从 哪 开 始 的 多 长 ， 然 后 直接 发 起 对 这 个 大 
文件 的 对 应 地 址 段 的 读 写 操作 即 可 。 另 外 还 可 以 创建 索引 以 加 速 文 件 
查找 动作 。 


在 一 个 海量 分 布 式 文件 系统 中 ， 元 数据 束 像 上 面 的 思想 一 样 是 分 
级 的 ， 中 探 节 操 ， 也 就 是 MDS， 和 存储 一 级 元 数据 ， 也 就 是 大 文件 与 底 
层 块 的 对 应 关系 ， 而 数据 节点 则 存放 二 级 元 数据 ， 也 就 是 最 终 的 用 户 
文件 在 这 些 一 级 大 块 中 的 存储 位 置 对 应 关系 ， 经 过 两 级 寻 址 从 而 读 写 
数据 。 其 实 这 些 一 级 大 文件 ， 就 可 以 认为 它们 是 卷 了 ， 也 就 是 在 卷 管 
理 层 之 上 再 存放 文件 ， 这 样 就 降低 了 单一 空间 下 的 文件 总 数量 从 而 提 


高 性 能 。 
113. 能 否 列举 一 下 存储 系统 中 所 使 用 的 心 片 ? 


好 的 ， 知 无 不 言 ， 言 无 不 尽 ! 我 就 从 头 讲 起 吧 。 首 先 硬 盘 上 的 心 
片 就 不 说 了 ， 大 家 都 知道 ，Micro Controller、dsp 等 。 一 个 硬盘 扩展 柜 
中 的 所 有 磁盘 都 被 连接 到 一 个 心 片 中 ， 这 个 心 片 位 于 扩展 柜 的 控制 板 
中 ， 早 期 产品 用 PBC 心 片 ， 最 经 典 的 就 是 Lattice 的 7147。PBC 也 就 是 
Port Bypass Circuit ， 完 全 的 FCAL 环 逻辑 ， 后 来 发 展 为 SBOD ， 
Switched Box of Disks， 其 实 就 是 忆 片 变 了 ， 也 就 是 底层 变 为 点 对 点 直 
达 物 理 布线 ， 而 上 层 协 议 逻 辑 依然 还 是 FCAL， 只 不 过 仲裁 的 时 候 再 
也 不 用 手 拉手 传递 了 ， 直 接 由 控制 器 独裁 ， 指 哪 打 哪 ! 这 类 心 片 包括 
PMC8738、LSI 等 ，PMC 公 司 称 这 种 SBOD 心 片 为 Cut Through Switch 

(CTS) ， 有 些 方案 则 混用 PBC 和 CTS，CTS 接 磁盘 ， 扩 展柜 之 间 则 使 
用 PBC 上 串联 ， 以 上 是 FC 方案 。SAS 方 案 就 痛快 了 ， 全 是 SAS 
Expander，SAS 交 换 心 片 ， 没 喻 好 说 的 ， 必 片 之 间 采 用 4PHY 宽 端口 一 
般 。 另 外 扩展 柜 控 制 板 上 还 有 其 他 ASIC， 比 如 用 来 控制 整个 扩展 柜 的 
中 控 心 片 ， 包 括 SES (Scsi Enclosure Service) 逻辑 处 理 ， 探 测 各 路 
Sensor 并 用 SES 上 报 ， 再 就 是 ROM 和 RAM 心 片 了 ， 一 般 中 控 ASIC 里 就 
集成 了 ROM。RAM 则 一 般 外 置 ， 比 如 128MB 单 片 。 控 制 板 上 还 有 
PHY， 这 个 就 不 说 了 。 再 往 上 就 是 HBA 上 的 心 片 了 ，PHY， 不 说 了 。 


再 就 是 IOP (IO Processor) 或 者 SOC (System On Chip) 等 ， 负 责 处 理 
核心 协议 逻辑 ， 比 如 FCP、SAS 等 ， 带 RAID 功 能 的 卡 ， 这 些 IOC 或 者 
SOC 就 更 复杂 了 。 再 往 上 ， 就 是 控制 器 主板 上 的 特殊 心 片 了 ，CPU 等 
不 说 了 。 人 往往 一 些 厂商 为 了 体现 差异 化 ， 搞 一 块 ASIC 那 是 倍 有 面子 ! 
比如 3PAR 的 号 称 Thin Built-in 的 Gen3 ASIC，HDS 在 AMS2k 上 使 用 的 


ASIC，IBM 的 DS5k 〈《O 的 LSI 的 ) 上 所 用 的 ASIC，HDS 高 端 存储 中 的 
ASIC。 无 非 就 是 加 速 数 据 处 理 。 


114. 可 否 把 数据 库 中 数据 在 磁盘 的 分 布 讲 一 下 ? 
效 据 库 方面 我 不 行 ， 只 能 讲 一 讲 肤浅 理解 。 


(1) 传统 关系 型 数据 库 。 两 种 方式 : 数据 库 自 己 管理 裸 磁盘 从 而 
直接 存放 数据 文件 (比如 Oracle 的 ASM) ，Oracle 甚 至 有 自己 的 OCFS 
集群 文件 系统 (为 何不 叫 它 分 布 式 而 叫 集群 ? 因为 它 底层 是 共享 存储 
的 ) 用 来 支撑 其 RAC 集 群 。 再 有 一 种 就 是 数据 库 利用 操作 系统 提供 的 
文件 系统 ( 关 掉 缓存 ， 也 就 是 调用 时 采用 Direct IO 模式 ，AIX 下 还 提 
供 一 种 CIO， 也 就 是 Concurrent IO 模式 从 而 不 让 文件 系统 底层 对 文件 加 
锁 ，DB 自 己 有 锁 ) 来 存储 数据 文件 。 


(2) Nosql 系 统 。 比 如 Cassandra 的 实体 数据 ， 就 是 sstable、 
commit log 和 bloom filter 以 及 index file。 这 些 文件 底层 一 般 就 是 Linux 下 
的 EXT3 文 件 系 统 。 这 些 文件 都 是 连续 地 址 写 入 的 ， 避 免 随 机 写 入 ， 所 
以 提高 了 性 能 。 谷 歌 的 Bigtable 底 层 使 用 GFS 分 布 式 文件 系统 。 淘 宝 的 
TEFS 在 1.0 版 本 时 使 用 EXT3 结 果 发 现 性 能 不 行 所 以 1.3 版 本 时 使 用 自己 
研发 的 本 地 文件 系统 ， 猜 测 一 定 是 个 轻 量 级 的 ， 因 为 TFS 层 已 经 考虑 
很 多 格式 了 。Windows Azure 后 台数 据 库 则 使 用 普通 的 SQL Server 组 成 


集群 切片 ， 各 个 节点 之 间 使 用 日 志 进 行 同步 ， 保 证 了 分 布 式 事务 一 致 
性 ， 其 底层 就 是 NTFS 文 件 系统 了 。 


说 点 题 外 话 ，Oracle RAC 这 种 方式 类 似 于 CPU 的 SMP; Nosql 分 布 
式 集群 类 似 于 MPP。 对 于 商用 存储 ， 像 各 种 集群 文件 系统 比如 Veritas 
Cluster Filesystem、 Stomext、 中 科 蓝 鲸 BWFS 以 及 基于 类 似 架 构 的 集 
群 FS 所 构建 的 集群 NAS， 就 类 似 于 SMP; 像 EMC 的 V-Max 存储 ， 则 类 
似 cc-NUMA (数据 分 布 但 是 内 存 共享 ) ; IBM 的 XIV、 Inftortrend 
ESVA、Dell P6000 等 多 数 Scale-Out 的 存储 ， 则 类 似 MPP。 从 趋势 来 
看 ，SMP->NUMA->MPP， 存 储 也 是 一 样 的 趋势 。 


至 于 数据 文件 中 的 亚 一 级 的 数据 分 布 ， 我 仅 了 解 Oracle 是 用 extent 
来 分 配 。 几 年 前 弄 过 DB2， 可 惜 都 忘 了 。 所 以 这 方面 还 得 DBA 来 解 
从 


115. 为 何 灾 备 端的 IO 时 序 必 须 保证 ? 


数据 容 灾 的 灾 备 端 为 什么 要 在 多 流 TCP 传 输 时 保证 IO 时 序 ， 你 指 
的 是 同一 个 应 用 的 IO 写 入 通过 TCP 后 变 成 乱 序 了 ? 问题 是 这 是 文件 系 
统 和 块 设备 驱动 保证 的 问题 呀 。 


如 果 把 一 批 数 据 用 一 个 TCP 连 接 发 送 到 对 方 ， 是 不 会 乱 序 的 ， 
TCP 不 会 对 数据 流 进 行 定 界 ， 但 是 绝对 不 会 乱 序 ， 本 来 是 1234， 传 到 
对 面 依然 是 1234， 对 方 只 需要 从 头 将 数据 流 解析 定 界 出 一 个 个 IO 然后 
刷 入 灾 备 端的 存储 介质 就 可 以 了 。 但 是 多 流 TCP 的 话 ， 一 批 数据 ， 并 
行 切 分 由 多 个 TCP 连 接 发 过 去 ， 此 时 多 流 之 间 的 数据 就 乱 挥 了 。 


文件 系统 和 块 设备 驱动 不 会 保证 IO 的 时 序 性 ， 典 型 的 比如 Linux 下 
的 io shceduler， 他 就 是 可 以 乱 序 IO， 为 了 优化 ， 同 样 ， 底 层 磁盘 的 
NCQ、TCQ， 也 是 乱 序 IO 的 。 解 决 乱 序 IO 是 上 层 应 用 需要 考虑 的 ， 比 
如 绝对 不 会 在 发 起 写 请 求 而 没收 到 OS 内 核 返 回信 号 之 前 再 对 同一 个 地 
址 发 起 读 请 求 ， 因 为 会 造成 过 期 读 。 但 是 这 种 由 应 用 保障 的 方法 是 强 
实时 性 有 状态 的 ， 而 对 于 灾 备 端 来 讲 ， 它 的 应 用 程序 就 是 主 站 点 的 存 
储 系 统 ， 而 主 站 点 存储 系统 是 无 法 感知 应 用 逻辑 的 ， 所 以 灾 备 端 只 能 
蒂 蒂 的 按照 顺序 执行 ， 否 则 恢复 的 时 候 会 造成 严重 不 一 致 ， 可 能 导 鱼 
应 用 无 法 启动 ， 甚 至 连 卷 、 文 件 系 统 都 无 法 被 Mount。 


116. 一 个 文件 系统 问题 


NTSEF 文 件 系统 对 数据 的 管理 是 基于 一 个 叫 MFT 的 主 文 件 表 ， 我 
想 问 的 是 ， 这 个 表 在 磁盘 的 什么 位 置 是 在 C 盘 么 ? 如 果 我 分 了 4 个 区 ， 
那么 要 有 4 个 MFS 么 还 是 一 个 MFS 对 应 4 个 卷 ? 我 可 不 可 以 把 文件 系统 
认为 是 一 个 应 用 程序 ， 如 果 有 FAT32，NTFS 等 多 个 文件 系统 ， 那 么 开 
机 后 是 不 是 这 几 个 应 用 程序 一 直 在 运行 ? 对 于 Windows 和 Linux 等 操 
作 系 统 没 有 虚拟 文件 系统 吧 ， 之 前 我 发 过 一 个 帖子 说 过 虚拟 文件 系 
统 ， 但 是 好 像 说 错 了 ， 只 有 分 布 式 文件 系统 才 有 虚拟 文件 系统 之 说 ， 
没有 分 布 式 文件 系统 的 应 用 就 没有 虚拟 文件 系统 之 说 。 


每 个 盘 的 固定 位 置 ， 有 一 个 根 入 口 ， 而 且 会 备份 多 份 ， 这 也 是 一 
些 数 据 恢复 工具 扫描 的 时 读 取 的 ， 如 果 备 份 的 mft 都 损坏 ， 那 么 扫描 工 
具 会 扫描 残缺 的 元 数据 tree 或 者 叫 链 也 行 ， 来 重组 数据 。 每 个 分 区 是 一 
个 独立 的 文件 系统 。 可 以 认为 是 一 个 程序 ， 记 得 以 前 就 回答 过 ，ntfs 和 
fat32 可 以 同时 存在 ， 处 于 os 的 内 核 区 ， 两 套 代 码 共同 运行 ， 你 挂 什么 
他 就 起 什么 代码 。Linux 下 的 目录 表现 方式 ， 一 切 皆 目录 和 文件 ， 就 是 


vfs， 这 也 就 所 谓 的 虚拟 文件 系统 ， 可 以 将 虚拟 文件 系统 理解 为 目录 ， 
而 实际 文件 系统 理解 为 文件 - 块 映射 层 ，vfs 是 再 往 上 封 对 的 一 层 。win 
的 表现 方式 和 Linux 有 些 不 同 ，win 是 以 分 区 为 入 口 ， 而 Linux 是 以 /为 
入 口 ， 下 面 挂 的 可 以 是 任何 地 方 的 任何 文件 系统 ， 但 是 win 下 也 可 以 将 
某 个 实际 文件 系统 挂 到 某 个 目录 下 ， 这 也 属于 vfs。vfs 与 是 否 分 布 式 没 
有 任何 关系 。 


那么 所 有 的 MFT 都 要 放 在 C 盘 里 面 么 ? 另外 对 于 某 个 分 区 格式 化 
后 比如 D 盘 ， 建 立 的 位 图 、 索 引 等 各 种 表 都 在 C 盘 里 或 者 MFT 里 ， 具 
体 D 盘 里 面 其 实 什 么 都 没有 是 么 ? 


每 个 分 区 都 有 一 套 完整 的 元 数据 ，C 和 DD 是 独立 的 。 分 区 表 用 来 区 
分 C 和 D 的 地 址 空间 ， 这 两 个 空间 上 的 FS 是 完全 独立 的 元 数据 ， 但 是 
OS 内 的 文件 系统 代码 是 一 套 ， 挂 起 多 个 分 区 上 的 文件 系统 。 


117. 关于 LUN 与 文件 


NetApp 除 了 做 NAS 以 外 ， 还 有 SAN 存 储 ， 但 是 好 像 其 实现 方式 是 
在 NAS 的 基础 上 模拟 出 来 的 AN。 不 知道 谁 清楚 这 个 ， 能 否 给 简单 讲 
讲 。 另 外 ， 有 些 存储 产品 在 底层 使 用 了 五 花 八 门 的 技术 ， 比 如 一 些 
LUN 的 技术 ， 我 总 有 个 疑问 ， 这 些 LUN 技 术 好 像 是 在 某 种 文件 系统 之 
上 做 的 ， 否 则 不 可 能 有 那么 大 的 伸缩 性 和 灵活 性 ， 明 白人 请 讲 讲 ! 


NetApp 就 是 把 文件 当成 LUN。 而 且 他 的 Volume 也 是 一 个 文件 。 所 
以 了 ， 不 知道 YNXe 底 层 是 怎么 搞 的 ， 据 NetApp 说 底层 也 是 个 文件 ， 
但 是 EMC 不 承认 ， 还 专门 出 了 官方 FAQ。 


对 文件 系统 又 有 点 新 认识 ， 文 件 系统 不 仅 是 组 织 数 据 的 规则 ， 而 
且 是 一 种 权利 。 只 有 文件 系统 才能 有 组 织 的 调动 数据 ， 现 在 想 想 有 的 
LUN 功 能 可 以 智能 的 让 数据 分 层 这 里 确实 有 值得 怀疑 的 地 方 ， 也 就 是 
说 底层 数据 越权 造反 了 ! 


其 实 迄 今 为 止 最 灵活 的 底层 数据 空间 管理 技术 就 是 文件 系统 。 其 
实 文 件 和 块 本 身 的 意义 是 相同 的 ， 两 者 都 是 将 大 空间 再 次 分 割 为 上 层 
容易 理解 的 ， 灵 活 的 小 空间 。 所 以 说 ， 当 LUN 从 树 上 下 来 开始 直立 行 
走 的 时 候 ， 才 发 现 其 实 文 件 系统 早 就 变 成 人 了 。 


118. 磁盘 阵列 中 包含 哪些 协议 控制 器 


请 问 磁盘 阵列 控制 器 里 面 是 否 内 置 了 SCSI ATA 控 制 器 ? 我 想 磁 盘 
阵列 控制 器 里 面 内 置 RAID 控 制 器 、FC 适 配器 、iSCSI 适 配器 、SCSI 
控制 器 、ATA 控 制 器 。 控 制 器 和 Enclosuer 里 面 的 磁盘 之 间 是 通过 FC- 
AL 架构 连接 的 ，FC 只 是 网 络 传输 协议 ，FC 包 的 有 效 载荷 部 分 都 是 
SCSI 指 令 和 数据 请 问 是 这 样 吗 ? 


其 他 都 没 问 题 。 但 是 ATA 控 制 器 的 说 法 不 对 ， 一 般 没有 ATA 控 制 | 
器 ， 也 没有 SATA 控 制 器 。SATA 盘 一 般 是 通过 SAS 转 接 板 或 者 FC- 
SATA 转 接 板 连 到 扩展 柜 的 。SATA 转 SAS 的 话 ，SAS 控 制 器 会 原生 支持 
SATA 协 议 。 而 用 FC-SATA 转 接 板 的 方案 的 话 ， 控 制 器 不 变 ， 扩 展柜 中 
使 用 FC 转 SATA 的 协议 转换 心 片 。 


附录 2 War 
? 


很 久之 前 ， 我 记得 大 概 是 在 2005 年 ， 听 说 过 国外 一 家 初创 公司 做 
了 一 种 以 太 网 口 的 硬盘 ， 当 然 硬盘 本 身 不 是 他 们 做 的 ， 他 们 只 是 在 硬 
盘 上 加 上 一 个 转 接 板 ， 专 业 说 法 叫做 Dongle， 实 现 基于 以 太 网 的 SCSI 
协议 传输 ， 至 于 协议 是 否 使 用 的 就 是 iSCSI 无 从 而 知 ， 对 其 具体 细节 也 
很 不 了 解 。 


当时 存储 技术 在 国内 还 没有 怎么 得 到 重视 ， 所 以 感觉 这 种 东西 非 
党 新鲜， 竟然 可 以 这 么 玩 ! 当然 ， 这 东西 终究 没 成 气候 ， 逐 渐 淡 出 了 
业界 。 那 时 候 ，AIAoE、SCSIoE 这 种 类 似 协 议 也 一 直 有 人 在 做 ， 其 目 
的 就 是 抛弃 TCP/IP 这 种 厚重 的 传输 协议 而 转 为 一 种 轻 量 级 的 适 配 到 以 
太 网 的 协议 。 但 是 目前 来 看 ， 这 类 协议 最 终 也 没 得 到 推广 。 


固态 存储 一 崛起 ! 


9 年 过 去 了 ， 这 9 年 里 发 生 了 很 多 事情 。 首 先 ， 企 业 级 存储 系统 在 
国内 得 到 了 铺天盖地 的 应 用 ， 从 一 开始 曲 高 和 窒 到 现在 的 遍地 开花 ， 
各 厂商 的 企业 级 存储 系统 产品 在 这 期 间 至 少 经 历 了 4 次 升级 换代 ， 高 端 
产品 则 经 历 了 两 次 。 


其 欠 ， 在 业务 层面 ， 主 机 虚拟 化 的 崛起 、 基 于 虚拟 化 之 上 的 云 计 
算 架 构 的 崛起 ， 互 联网 后 端 架 构 的 变迁 ， 海 量 存 储 和 大 数据 分 析 挖掘 
系统 的 广泛 应 用 ， 这 三 大 变革 性 事件 对 很 多 存储 技术 、 产 品 、 厂 商 及 
生态 产生 了 重大 影响 。 


再 次 ， 底 层 技术 不 断 革 新 ， 固 态 存储 技术 崛起 ，2012 年 应 该 算是 
SSD 元 年 。 业 务 和 底层 技术 的 变革 ， 驱 动 着 企业 级 存储 做 出 一 轮 又 一 
轮 的 变化 ， 一 开始 是 内 部 架构 的 变化 ， 比 如 Scale-Up 到 Scale-Out， 然 
后 就 是 访问 协议 的 变化 ， 除 了 块 和 文件 ， 对 象 接口 越 来 越 被 广泛 使 
用 ， 再 就 是 数据 管理 上 的 变化 ， 企 业 级 存储 其 实 对 固态 存储 介质 是 爱 
恨 交 织 ， 明 知道 这 小 东西 一 定 会 颠 履 自 己 苦 心 建立 的 基于 机 械 盘 的 生 
态 系统 ， 但 又 不 能 不 迎合 潮流 ， 出 现 了 各 种 数据 分 层 分 级 方案 和 拉 
术 ， 以 及 所 谓 全 固态 存储 系统 。 


如 果 说 在 这 9 年 里 的 前 4 年 ， 企 业 级 存储 算是 慢 慢 悠悠 地 自我 欣赏 
式 发 展 ， 那 么 后 5 年 基本 是 在 小 步 快 跑 了 。 一 下 子 爆发 的 众多 变化 ， 都 
发 生 在 后 5 年 里 ， 企 业 级 存储 显得 应 接 不 暇 、 不 知 所 措 。 云 计算 、 大 数 
据 、 固 态 存储 、 开 源 、 软 件 定 义 等 各 方 围 闲 ， 使 得 商用 企业 存储 好 像 
找 不 到 出 路 ， 各 个 厂商 绞 尽 脑汁 规划 下 一 代 产 品 到 底 应 该 是 个 什么 样 
子 ， 以 及 整体 战略 需要 怎么 调整 。 


就 在 两 年 前 ， 国 内 某 存 储 厂商 为 应 对 海量 低 成 本 存储 场景 ， 设 计 
了 一 套 与 2005 年 国外 那个 厂商 类 似 的 方案 ， 也 就 是 在 每 块 磁盘 驱动 器 
上 前 置 一 个 Dongle， 基 于 ARM 处 理 器 ， 这 个 Dongle 相 当 于 一 个 Mini 
Storage Controller， 功 能 方面 ， 其 在 硬件 层 后 端 通过 集成 的 SAS/SATA 
控制 器 访问 并 管理 这 块 盘 ， 前 端 则 通过 以 太 网 口 来 传输 封装 之 后 的 访 
问 协 议 〈 比 如 Object 对 象 访问 协议 ) ， 核 心软 件 层 是 一 个 精简 的 Linux 
内 核 ， 包 含 SAS/SATA Host 驱 动 、 以 太 网 设备 驱动 、 块 设备 驱动 、 卷 
管理 层 、 对 象 /文件 管理 层 、 对 象 访 问 协议 、TCP/PP 协 议 层 以 及 管理 监 
控 Agent 等 。 也 就 是 说 ， 将 一 块 传统 的 以 Block 形 式 访问 的 磁盘 通过 加 
一 个 转 接 板 ， 变 为 了 一 块 以 对 象 Object 形 式 访问 的 磁盘 ， 如 果 向 其 软 
件 层 加 入 更 多 协议 ， 那 么 还 可 以 变 为 iSCSI Target、NFS/CIFS Export， 
当然 实际 上 一 切 都 受 限 于 ARM 的 性 能 。 每 块 对 象 盘 连 接 到 以 太 网 上 ， 
再 通过 一 个 或 者 多 个 见 余 /AA 的 总 控 服 务 器 来 管理 这 些 磁 盘 ， 并 通过 
这 个 总 控 服务 器 集群 向 外 提供 空间 和 服务 。 


IP 便 盘 一 — 玩 玩 ? 


也 就 在 最 近 ， 和 希捷 与 这 家 存储 三 商 联 合 推出 了 被 命名 为 Kinetic 的 
硬盘 ， 宣 称 其 直接 提供 对 象 访 问 接口 ， 并 向 应 用 提供 API 以 进行 数据 
访问 和 监控 管理 。 这 个 产品 相当 于 把 之 前 的 转 接 板 去 掉 ， 把 核心 软件 
直接 运行 在 硬盘 背面 的 控制 芯片 里 。 处 理 芯 片 的 一 般 架 构 是 一 个 或 者 
多 个 ARM/MIPS core 与 一 堆 外 围 电路 (比如 XOR、ECC/CRC、 加 密 、 
压缩 、PHY 等 ) 组 成 ， 而 ARM/MIPS Core 平 时 不 参与 数据 的 传输 ， 只 
是 控制 数据 的 传输 ， 否 则 会 由 于 过 多 的 内 存 拷 贝 而 性 能 根本 达 不 到 要 
求 ， 所 以 一 般 来 讲 一 款 处 理 心 片 中 的 通用 CPU 模块 ， 绝 大 多 数 时 间 负 
载 并 不 高 ， 这 也 就 为 在 处 理 心 片 中 集成 更 多 的 软件 功能 提供 了 技术 空 
间 。 


但 是 别 指望 这 种 低 功 耗 CPU 能 胜任 事务 级 在 线 处 理 ， 跑 跑 一 般 的 
数据 收发 、 简 单 的 协议 处 理 还 是 可 以 的 ; 也 别 指望 其 能 胜任 高 IOPS 的 
场景 ， 每 一 个 10 处 理 耗 费 的 CPU 资 源 是 不 容 小 般 的 ， 包 括 中 断 、 协 议 
处 理 、 内 存 拷贝 等 在 内 的 流程 对 CPU 耗费 很 大 。 但 是 低 负载 、 以 带宽 
吞吐 量 大 块 连续 IO 为 主 的 场景 下 ， 这 类 处 理 器 能 够 很 好 地 胜任 ， 尤 其 
是 在 只 带 一 块 磁盘 的 情况 下 ， 那 就 更 是 小 菜 一 碟 了 。 所 以 这 种 产品 的 
基因 决定 了 它 的 应 用 场景 ， 也 就 是 比如 冷 数据 存储 场景 或 者 备份 等 海 
量 低 成 本 存储 场景 。 


综 上 ， 我 们 暂且 简称 这 种 硬盘 为 “了 硬盘 ?或 者 “对 象 硬盘 ”。 其 与 
传统 的 存储 架构 本 质 区 别 在 于 ， 传 统 存储 控制 器 属于 集中 式 控制 器 ， 
用 一 台 或 者 多 人 台 集 中 式 的 高 性 能 控制 器 ， 通 过 SAS/SAIA 适 配器 接 入 数 
量 有 限 的 磁盘 ， 最 小 的 比如 Raid 卡 ， 比 如 Adaptec by PMC 最 新 的 产品 
可 直 连 24 盘 或 者 通过 扩展 柜 连接 256 盘 ， 最 大 的 比如 高 端 商用 企业 存 
储 ， 可 以 管理 多 达 3000 多 块 盘 ， 前 端 终 结 了 SAS 协 议 ， 转 为 使 用 FC 或 
者 iSCSI、NAS 或 者 对 象 等 协议 ， 通 过 集中 的 、 单 一 的 访问 点 来 访问 所 
有 磁盘 经 过 虚拟 之 后 的 空间 。 而 Kinetic 的 架构 则 属于 分 布 式微 型 控制 
器 ， 有 多 少 磁盘 就 有 多 少 个 访问 点 。 


说 到 这 里 我 们 就 要 仔细 地 去 分 析 一 下 ， 这 种 新 架构 带 来 的 优点 和 
挑战 在 哪里 。 姓 庸 置疑 ， 其 优点 是 支持 大 规模 并 行 访问 ， 因 为 访问 点 
是 分 布 式 的 ， 有 多 少 磁盘 就 有 多 少 访问 点 ， 那 么 应 用 或 者 客户 端 程序 
可 以 直接 并 行 地 访问 所 有 连接 到 以 太 网 上 的 磁盘 ， 体 系 效率 较 高 。 当 
然 ， 其 代价 就 是 访问 节点 的 管理 上 ， 需 要 被 软件 定义 。 对 于 集中 式 的 
磁盘 控制 器 ， 对 磁盘 的 管理 ， 比 如 监控 、 容 错 、 性 能 优化 、 空 间 管理 
等 ， 都 由 集中 控制 负责 ， 上 层 不 需要 关心 ， 而 新 架构 下 ， 直 接 暴 露 了 
底层 的 磁盘 ， 那 么 这 些 逻 辑 就 需要 被 挪 到 上 层 软 件 层 中 去 执行 ， 也 就 


是 所 谓 软件 定义 ， 那 就 需要 用 户 具 有 一 定 的 技术 开发 能 力 去 驾驭 这 个 
新 架构 ， 或 者 由 厂商 做 这 一 层 的 开发 ， 但 是 相对 于 在 外 部 设备 里 开发 
这 一 层 来 讲 ， 在 用 户 的 OS 里 做 这 个 管理 层 ， 其 主要 难度 在 于 兼容 性 ， 
用 户 的 OS 和 干 变 万 化、 环境 千变万化 ， 兼 容 性 很 难保 证 。 所 以 这 类 产品 
应 用 到 互联 网 后 端的 可 能 性 较 大 ， 一 般 企 业 会 吃不消 对 其 日 常 维护 的 
开销 。 


那么 再 看 一 下 互联 网 企业 ， 假 设 如 果 依 然 利 用 现 有 架构 ， 比 如 1U 
通用 服务 器 ， 加 一 个 SAS/SATA Raid/HBA 适 配器 ， 接 入 12/16/24 盘 ， 
然后 在 服务 器 上 进行 空间 管理 、 协 议 转换 ， 底 层 Raid 控 制 器 实现 数据 
的 小 范围 元 余 容错 及 性 能 优化 ， 在 所 有 服务 器 上 运行 分 布 式 文件 系统 
来 执行 数据 的 大 范围 容错 和 均衡 ， 这 样 做 的 好 处 是 对 上 层 来 讲 复杂 度 
降低 。 同 样 是 1U 服 务 器 ， 如 果 访 问 Kinetic 架 构 ，SAS/SATA Raid/HBA 
就 不 需要 了 ， 直 接 通 过 以 太 网 ， 那 么 原本 由 SAS Raid 卡 做 的 工作 ， 就 
需要 用 软件 去 做 ， 需 要 用 户 自己 或 者 厂商 开发 一 层 逻 辑 ， 而 且 这 层 罗 
辑 要 么 是 分 布 式 部 署 的 ， 要 么 是 非 对 称 集 中 式 部 署 在 一 个 带 外 控制 管 
理 节点 上 的 ， 这 种 做 法 基本 上 就 是 将 磁盘 进行 非 对 称 的 外 集群 化 ， 供 
上 层 的 服务 器 集群 访问 。 如 果 使 用 1GB 以 太 网 连接 每 块 磁盘 ， 其 带宽 
相对 目前 主流 的 6GB SAS/SATA 来 讲 会 降低 ， 时 延 也 会 增加 。 


结论 ， 不 管 是 对 于 互联 网 企业 还 是 传统 企业 ， 一 个 集中 控制 设备 
或 者 软件 层 都 是 需要 的 。Kinetic 架 构 的 优势 在 于 ， 降 低 了 访问 粒度 ， 
提升 了 大 范围 内 的 访问 并 行 度 ;其 劣势 在 于 ， 性 能 域 扩 大 ， 管 理 域 也 
随 之 扩大 ， 故 障 域 也 随 之 增 大 ， 传 统 1GB 以 太 网 带宽 和 响应 速度 有 
限 ， 对 于 冷 数据 这 类 场景 ， 传 统 架 构 在 性 能 、 成 本 、 管 理 上 是 否 已 经 
真 的 无 法 满足 需求 ? 是 否 有 必要 去 这 样 折腾 ， 还 是 个 需要 考虑 的 问 


题 。 


附录 3 ”新 技术 将 如 何 影响 数据 中 
心 存 储 系统 


目 庚 为 一 个 可 以 见证 中 国 存储 发 展 的 存储 界 老 混 子 ， 不 得 不 承 
认 ， 存储 的 发 展 真 的 是 太 快 了 ， 以 至 于 很 多 技术 还 没 大 展 宏图 ， 就 发 
现 眼 前 的 这 片 森林 已 经 今 非 昔 比 。 我 想 这 也 是 当前 很 多 存储 广 商 、 集 
成 商 所 面临 的 困惑 之 一 。 


有 很 多 人 曾经 和 我 讨论 过 诸如 “我 们 下 一 步 到 底 该 做 什么 ”的 话 
题 。 有 些 广 商 做 法 很 简单 ， 一 线 品牌 厂商 做 什么 ， 就 跟着 做 什么 ， 这 
样 最 保险 ， 但 是 没有 一 定 实力 的 厂商 也 玩 不 起 。 对 于 二 三 线 广 商 ， 事 
态 尤 为 严重 。 换 在 几 年 前 ， 我 想 很 多 三 商 目标 都 比较 明确 。 但 是 ， 近 
几 年 新 技术 和 新 概念 爆发 式 的 产生 ， 而 存储 领域 的 产品 ;集成 开发 周 其 
又 相对 较 长 ， 这 是 导致 目前 众多 厂商 迷 荡 的 原因 之 一 。 等 你 的 产品 出 
来 了 ， 却 发 现 走 错 了 路 ， 或 者 窗口 期 已 经 过 去 。 


本 文 试 图 对 当前 多 个 存储 子 层 里 的 多 项 技术 做 简要 分 析 来 获知 它 
们 对 传统 体系 的 影响 。 


1. 存储 介质 一 一 闪存 和 SMR 人 磁盘 


机 械 磁 盘 作为 在 线 主 存储 介质 的 角色 ， 可 以 说 几 十 年 来 没 变 过 ， 
是 各 种 存储 技术 里 最 稳定 的 一 个 了 。 然 而 闪存 的 出 现 ， 将 要 改变 的 不 
仅 是 存储 介质 ， 更 将 会 改变 整个 存储 生态 链 。 


闪存 作为 新 一 代 存 储 介质 相对 于 机 械 磁 盘 的 优点 不 必 多 说 ， 一 个 
更 加 值得 思考 的 问题 是 ， 由 于 闪存 并 不 像 机 械 盘 一 样 需要 高 精 尖 的 技 
术 ， 其 入 门 门槛 较 低 ， 尤 其 是 闪存 控制 器 的 设计 生产 ， 目 前 可 以 说 是 
遍地 开花 ， 国 内 已 经 有 多 家 自主 产权 的 闪存 控 制 器 及 外 围 产 品 。 


希捷 和 西数 这 两 家 机 械 磁 盘 的 巨头 如 今 也 开始 居安思危 了 ， 一 方 
面积 极 研究 和 融入 闪存 技术 ， 另 一 方面 也 在 积极 朝 着 产业 链 下 游 发 
展 ， 从 希捷 收购 Xyratex 的 动作 就 能 略 感 一 二 。 在 未 发 生 商 覆 性 变革 之 
前 ， 产 业 链 上 游 是 既 安全 又 稳妥 的 地 方 ， 但 是 当即 将 发 生 颠 覆 性 变革 
的 时 候 ， 整 个 产业 链 都 会 受到 影响 ， 此 时 便 会 出 现 群魔乱舞 的 壮观 景 
象 。 比 如 与 云 计算 看 似 无 天 的 希捷 ， 联 合 下 游 广 商 推出 适用 于 云 计算 
大 数据 的 新 型 磁盘 Kinetic， 同 样 ，Intel 也 在 积极 参与 云 计算 大 数据 领 
域 。 包 括 一 向 低调 的 PMC-Sierra 也 在 收购 了 板 卡 厂商 Adaptec 之 后 又 收 
购 了 闪存 和 PCIE 探 制 器 广 商 IDT 并 开始 厚积薄发 。 


闪存 对 传统 的 下 游 存 储 厂 商 的 影响 也 将 会 是 巨大 的 。 


首先 ， 基 于 机 械 磁 盘 介质 所 积累 的 成 熟 的 传统 架构 基础 面临 月 
塌 ， 包 括 硬 件 设 计 (比如 尺寸 、 散 热 、 承 重 和 空间 布局 等 ) ， 也 包括 
软件 设计 (比如 数据 布局 、IO 性 能 优化 和 故障 预测 及 恢复 等 ) 。 这 也 
是 为 何 仅仅 把 传统 存储 系统 中 的 机 械 盘 替换 为 SSD 之 后 却 发 现 根 本 无 


法 发 挥 出 SSD 性 能 的 原因 (当然 制约 SSD 性 能 发 挥 的 本 质 因 素 还 有 一 
个 ， 会 在 下 一 节 讨 论 IDW5]) 。 


其 次 ， 传 统 人 存储 高 大 上 的 形象 也 会 被 内 存 彻 底 挫 毁 ， 原 本 松 耦 合 
的 各 种 大 部 件 搭配 起 来 的 “巨型 机 器 人 ”将 变 得 非常 小 巧 。 最 极端 的 情 
况 甚至 可 以 直接 用 一 块 PCIE Flash 卡 替代 ， 连 影子 都 消失 在 了 服务 器 
机 箱 外 面 。 磁 盘存 储 将 退 居 二 线 ， 成 为 真正 的 备份 用 二 线 存储 ， 使 用 
步 又 或 许 会 是 “开机 一 备份 -关机 ”。 磁 盘存 储 将 会 成 为 下 一 代 人 眼 里 
彻底 的 淘汰 产品 ， 束 像 卡 市 机 一 样 。 


再 次 ,拖累 传 统 磁盘 存储 的 另 一 个 包容 ， 就 是 那些 华而不实 的 软 
件 功 能 ， 包 括 自动 精简 配置 、 重 删 、 快 照 、 分 层 / 缓 存 和 复制 等 。 这 些 
软件 功能 除了 其 中 几 个 较为 常用 之 外 ， 其 他 可 以 说 是 鸡肋 ,但 为 了 两 
务 竞争 又 不 能 没有 ， 陷 入 恶性 循环 。 上 述 软 件 功 能 中 的 每 一 项 ， 之 不 
客气 的 说 ， 都 是 影响 性 能 的 。 分 层 和 缓存 实际 上 是 增加 了 相对 性 能 ， 
而 降低 了 绝对 性 能 。 除 了 快照 、 分 层 和 远程 复制 之 外 ， 其 他 软件 功能 
多 数 时 候 都 不 为 人 所 用 。 


用 户 似乎 越 来 越 追 求 傻 快 的 存储 。 这 一 点 在 面 对 “ 软 件 定 义 ” 概 念 
时 更 有 说 服 力 了 ， 硬 的 更 硬 ， 软 的 更 软 ， 这 更 进一步 拉 低 了 存储 系统 
的 门槛 。 抛 开 了 这 些 包 究 ， 利 用 闪存 ， 越 来 越 多 的 全 闪存 存储 厂商 出 
现 了 ， 而 这 些 全 闪存 存储 为 何 基 本 都 没有 出 自传 统一 线 存 储 厂商 
[DW6]， 原 因 显 而 易 见 了 。 


磁 存 储 领域 的 一 项 新 技术 是 SMR ( 苇 瓦 式 磁 记 录 ) 技术 ， 这 项 技 
术 提 升 了 存储 密度 ， 却 不 能 保证 随机 瑟 的 性 能 ， 这 一 点 从 原理 上 讲 更 
类 似 于 固态 介质 的 Page 与 Block 之 间 的 尴 雁 。 和 希捷 等 磁 存 储 厂 商 也 正在 
研究 是 否 要 在 SMR 人 磁盘 内 实现 类 似 Flash 的 管理 方式 。SMR 磁 盘面 向 一 


写 多 读 场 景 ， 适 用 于 大 数据 、 备 份 等 特定 领域 。 下 一 步 还 有 热 辅 助 磁 
记录 扩 术 ， 但 是 迟 迟 未 能 商用 。 看 来 磁 存 储 在 性 能 瓶颈 之 后 ， 可 商用 
的 容量 瓶颈 也 即将 到 达 。 磁 存储 淡出 舞台 是 大 势 所 趋 。 


2. 底层 框架 一 一 心 片 、 底 软 和 通道 


闪存 的 出 现 ， 会 影响 生态 链 上 的 所 有 事物 ， 这 其 中 也 包括 了 最 底 
层 的 心 片 、 底 层 软 件 和 数据 通道 。 


已 片 


心 片 要 有 足够 强 的 处 理 能 力 来 承载 起 闪存 强悍 的 IOPS 性 能 ， 包 括 
Flash 控 制 蕊 片 、 外 围 协议 控制 蕊 片 《SAS、FC、 以 太 网 ) 以 及 主机 
CPU。 


心 片 的 提速 手段 有 三 种 ， 第 一 是 提高 内 部 数据 带宽 ， 增 加 通道 数 
量 和 带宽 ， 第 二 是 提升 器 件 频率 ， 第 三 是 将 各 个 子 器 件 进行 拆 分 ， 增 
加 并 行 度 ， 在 相同 电路 周期 内 可 并 发 执行 更 多 的 指令 。 然 而 ， 没 有 免 
费 的 午餐 ， 上 述 任何 一 个 动作 ， 要 么 会 增加 心 片 的 功 耗 ， 要 么 会 增加 


只 ， 这 些 都 是 浆 端 。 


目前 一 线 广 商 PMC 的 主流 存储 控制 必 片 实际 功 耗 都 控制 在 15W 上 
下 ， 即 便 是 最 新 的 SAS 12GB 主 控 心 片 ， 由 于 制造 工艺 的 提升 ， 功 耗 反 
而 比 6GB 产 品 有 所 降低 。 到 目前 为 止 ， 主 流 存储 心 片 都 是 基于 MIPS 核 
心 十 外 围 加 速 电 路 ，MIPS 是 被 公认 的 RISC 通 用 处 理 器 领域 最 经 典 的 
代表 ， 然 而 ARM 的 猛攻 也 渗透 到 了 存储 芯片 领域 ， 在 低 端 市 场 占据 了 
席位 ， 包 括 4 端 口 SATA 控 制 器 、 低 端 SoC 等 等 ，ARM 和 MIPS 也 会 在 存 
储 芯 片 领域 持久 对 峙 下 去 。Intel 则 由 于 功 耗 问题 ， 颇 有 比 死 x86 平 台 走 


到 底 的 趋势 ， 移 动 终端 失策 ， 卖 掉 电 视 部 门 ， 靠 Atom 在 大 型 数据 中 心 
领域 与 ARM 抗 衡 ， 不 知道 格局 能 维持 多 久 。 


底层 软件 


底层 软件 方面 也 是 制约 存储 性 能 提升 的 一 大 屏障 。 拿 Linux 为 例 ， 
Block 层 、SCSI 中 间 层 这 两 大 制约 IO 性 能 发 挥 的 重量 级 软件 层 ， 在 机 
械 盘 时 代 发 挥 了 重要 作用 ， 然 而 在 闪存 时 代 ， 其 变 成 了 严重 拖累 性 能 
的 罪魁 祸首 。 繁 宛 的 扫描 机 制 ， 低 效 的 互 斥 队列 和 捉襟见肘 的 队列 数 
量 ， 陈 旧 不 堪 的 SCSI 协 议 ， 这 些 对 闪存 来 讲 都 是 头疼 的 事情 ， 目 前 闪 
存 产品 不 得 不 选择 越过 SCSI 层 而 直接 注册 到 Block 层 ， 然 而 却 丢 失 了 
SCSI 层 提供 的 兼容 性 优势 ， 导 致 各 家 在 Block 下 层 的 协议 实现 不 统一 ， 
增加 了 开发 成 本 和 管理 开销 。 而 业界 关于 这 方面 的 两 大 协议 阵营 一 一 
NVMe 以 及 SCSIe 也 在 飘忽 不 定 ， 导 致 厂商 不 得 不 两 手 准备 ， 痛 苦 不 
堪 。 目 前 似乎 VNMe 更 胜 一 筹 ， 这 也 是 存储 底层 部 件 巨头 PMC-Sierra 
收购 IDT 的 原因 之 一 ，IDT 的 Flash 控 制 器 是 业界 第 一 家 完整 支持 NVMe 
的 成 品 控制 器 ， 目 前 已 经 在 多 家 固态 存储 产品 中 被 应 用 。 


数据 通道 


协议 接口 方面 ， 基 于 SCSI 体 系 衍生 而 来 的 势力 有 三 股 ， 一 个 是 
FC， 另 一 个 是 SAS， 还 有 一 个 是 iSCSI 纯 软件 方案 。 然 而 NVMe 与 SCSI 
从 头 到 脚 都 是 两 套 完 全 不 同 的 协议 ， 虽 然 它 们 的 目的 是 一 样 的 ， 就 是 
把 数据 从 介质 里 传 到 内 存 里 ， 但 是 NVMe 除 了 相对 SCSI 协 议 做 了 很 多 
精简 之 外 ， 还 在 数据 结构 方面 做 了 很 多 优化 ， 充 分 发 挥 底层 介质 的 并 
发 访问 性 能 。Linux 开 源 社区 最 近 也 在 研究 如 何 优化 SCSI 层 的 问题 ， 看 


来 SCSI 是 去 是 留 已 经 是 个 问题 了 。FC 通 道 前 端 目前 正在 逐渐 被 万 兆 以 
太 网 和 码 食 ， 而 后 端 则 在 几 年 前 就 已 经 被 SAS 全 盘 端 掉 。 


SAS 之 所 以 没有 端 掉 FC 前 端 有 两 个 原因 : 其 一 是 因为 FC 前 端 体系 
并 非 只 存在 于 存储 设备 内 部 ， 而 还 涉及 到 交换 机 ， 其 存量 市 场 并 不 是 
仅仅 通过 替代 掉 存 储 设备 的 前 端 通道 卡 就 可 以 占领 的 ; 其 二 ，SAS 在 
光 传 输 方面 略 显 迟 钝 ， 究 其 原因 在 于 SAS 光 协议 对 于 链 路 协商 方面 的 
一 项 技术 实现 争议 了 恨 久 ， 直 到 很 晚 才 确定 。 


FC 也 必 将 淡出 舞台 。 然 而， 其 接替 者 并 非 只 有 以 太 网 或 者 SAS。 
还 有 另外 一 项 更 为 前 瞻 的 通道 技术 ， 那 就 是 PCIE。 目 前 我 们 所 熟知 的 
以 太 网 、FC、SAS、Infiniband 等 通道 协议 ， 在 主机 层面 无 一 不 通过 
PCIE 接 入 系统 IO 总 线 。 之 前 的 “ 远 距离 ”传输 概念 ， 正 在 变 得 模糊 ， 多 
“ 远 ”* 算 是 “ 远 ”"， 如 果 PCIE 能 够 “ 远 * 到 一 定 距 离 ， 还 要 以 太 网 作 甚 ? 这 
个 问题 问 得 好 ， 但 是 PCIE 并 不 是 万 能 的 ，PCIE 目 前 缺失 很 多 交换 网 络 
特性 ， 毕 竟 之 前 一 直 是 在 系统 总 线 领域 ， 出 了 总 线 ， 就 得 长 距离 交换 
和 路 由 ， 这 方面 就 得 靠 以 太 网 和 TCP/IP 了 。 然 而 ， 同 样 的 理论 ， 在 目 
前 和 将 来 的 数据 中 心 领 域 可 不 见得 能 套用 。 目 前 的 数据 中 心 有 苗 头 正 
在 朝 着 紧 耦 合 方向 发 展 ， 也 就 是 之 前 一 个 机 架 内 的 服务 器 之 间 是 松 耦 
合 的 ， 现 在 要 变 得 以 机 架 为 单位 ， 机 架 内 部 紧 耦 合 ， 机 架 外 部 松 耦 
合 ， 此 时 PCIE 就 有 用 武之 地 了 ， 机 架 内 部 完全 基于 PCIE 和 矩阵 。 针 对 这 
个 前 沿 方向 ， 目 前 Intel 以 及 PMC-Sierra 都 有 研究 并 且 有 了 DEMO。 当 
然 ， 对 SAS 和 SATA 的 兼容 一 定 是 要 考虑 的 ，SFF8639 接 口 标准 其 实 是 
一 个 三 模式 (Tri-mode) 的 接口 ， 把 SATA、SAS 和 PCIE 打 包 到 一 起 ， 
后 端 则 根据 前 端 接 入 设备 类 型 路 由 到 SAS Expander/Controller 或 者 PCIE 
Switch 上 去 。 目 前 看 来 这 个 接口 已 成 定局 。 


3. 数据 结构 RAID 2.0、ErasureCode、 分 布 


式 及 开源 


RAID 2.0 


硬件 平台 之 上 的 软件 ， 也 在 风起云涌 地 变化 着 。 传 统 存 储 领域 可 
炒作 的 概念 已 经 没有 了 ， 然 而 创新 又 迟 迟 未 见 。RAID 2.0 被 几 家 厂商 
在 炒作 ， 但 终归 也 是 RaidEE 技 术 的 升级 版 。 另 外 ，RAID 2.0 与 现在 多 
数 技术 一 样 ， 只 是 提升 了 相对 性 能 ， 而 没有 提升 绝对 性 能 ， 也 就 是 当 
磁盘 达到 一 定数 量 的 时 候 ， 这 项 技术 才 会 显示 出 优势 ， 但 是 依然 赶 不 
上 相等 数量 的 磁盘 在 传统 模式 下 的 绝对 性 能 。RAID 2.0 对 数据 的 处 
理 ， 已 经 不 亚 于 一 个 文件 系统 了 ， 过 多 的 数据 碎片 影响 了 绝对 性 能 ， 
但 是 大 量 的 磁盘 堆砌 又 可 以 掩盖 这 一 事实 。 其 所 获得 的 唯一 一 个 绝对 
好 处 是 重 构 时 间 的 大 幅 降 低 ， 然 而 却 牺牲 了 平时 的 绝对 性 能 。 


ErasureCode 


ErasureCode 技 术 也 不 是 什么 新 鲜 事 。RAID 6 以 及 RAID DP 技术 很 
早 就 出 现 了 ， 那 时 候 人 们 已 经 发 明了 可 以 容忍 更 多 磁盘 同时 损坏 的 技 
术 ， 只 不 过 受 限 于 随机 写 性 能 而 没有 将 其 商用 。 但 是 时 过 境 迁 ， 大 数 
据 时 代 读 多 写 少 ， 再 加 上 数据 量 大 ，RAID DP (Double Parity) 、 
RAID TP (Triple Parity) 甚至 允许 更 多 磁盘 同时 损坏 的 算法 ， 就 又 冒 
出 头 来 了 。 


分 布 式 


Scale-Out 是 传统 存储 领域 对 “分 布 式 ” 的 一 个 包装 词 ， 然 而 传统 存 
储 理解 的 分 布 式 和 互联 网 及 开 产 领域 所 认识 的 分 布 式 骨 子 里 还 是 不 同 
的 。 传 统 存 储 厂 商 的 分 布 式 不 是 廉价 的 分 布 式 ， 它 们 的 分 布 式 完全 是 
为 了 解决 Scale-Up 模 式 的 天 人 花 板 ; 而 互联 网 和 开 产 的 分 布 式 骨 子 里 为 
的 就 是 廉价 。 表 现形 态 也 不 同 ， 前 者 虽然 实质 上 也 是 x86 服 务 器 十 分 布 
式 软件 管理 层 ， 但 是 依然 略 显 高 大 上 。 


开源 


开源 的 风潮 体现 在 最 近 的 一 个 新 概念 里 ， 那 就 是 所 谓 “ 软 件 定义 ” 
了 。 软 件 定 义 让 二 三 线 厂 商 出 师 有 名 ， 直 接 挑战 传统 一 线 大 厂 的 权威 
地 位 ， 这 一 点 从 近期 一 些 二 三 线 广 两 直截了当 的 露骨 演讲 即 可 知道 ， 
巴 头 直 指 一 线 垄 断 大 三， 似乎 在 当头 棒 喝 “ 任 什么 你 们 就 是 高 大 上 ”。 


4. 用 户 体 验 一 一 接口 、 访 问 方式 及 展现 


在 对 存储 的 访问 接口 方面 ， 新 的 访问 接口 近 几 年 在 互联 网 的 带动 
下 也 发 生 了 爆发 式 增长 。 传 统领 域 一 直 在 鼓吹 所 谓 “ 统 一 存储 ”， 鼓 吹 
了 近 十 多 年 ， 早 就 炒 烂 了 。 对 象 、key-value、 文 件 、 块 是 目前 来 讲 主 
流 的 4 种 访问 形式 ， 其 中 文件 又 包含 多 种 子 类 型 (比如 NFS、CIFS 以 及 
各 种 分 布 式 文件 系统 访问 协议 ) ， 块 又 分 为 FC、SAS、iSCSI。 不 管 访 
问 形式 如 何 ， 它 们 本 质 都 是 一 样 的 ， 都 是 对 一 串 字 节 的 请 求 和 回复 ， 
只 不 过 这 串 字 节 在 不 同 应 用 场景 下 的 归 类 不 同 罢 了 。 


在 用 户 体验 方面 ， 传 统 存储 做 得 较 差 。 但 是 随 着 互联 网 风潮 来 
袭 ， 重 视 用 户 体验 、 应 用 感知 、QoS 等 更 加 接近 用 户 层面 的 功能 越 来 
越 受 到 重视 。 


提示 : 笔者 之 前 所 设计 的 存储 软件 套件 SmartX Insight 就 是 从 
用 户 体验 方面 来 入 手 ， 增 强 存 储 系统 在 整个 系统 内 的 “存在 
感 "， 改 变 传统 存储 一 副 道 貌 岸 然 的 样子 。 我 想 这 样 更 有 利于 
猪 住 用 户 ， 从 而 扩大 及 延长 存储 系统 的 生存 空间 和 时 间 。 


5. 闪存 与 数据 中 心 SATA/PCIE 及 应 用 场景 


目前 来 看 ， 数 据 中 心 对 Flash 的 渴求 主要 集中 在 几 个 固定 的 应 用 场 
景 ， 前 端 来 讲 ， 比 如 CDN，ISP 的 带宽 是 非常 贵 的 ， 必 须 充 分 利用 ， 
所 以 硬盘 必须 不 是 瓶颈 。 后 端 则 是 各 级 缓存 场景 ， 包 括 各 类 分 布 式 数 
据 库 系统 、 分 布 式 文件 系统 的 前 端 基本 上 都 是 放 了 一 级 或 者 两 级 甚至 
更 多 级 的 缓存 ，RAM 毕 竟 还 是 很 贵 的 ， 而 且 容 量 有 限 ， 主 要 用 于 第 一 
级 缓存 直接 应 对 前 端的 压力 ，Flash 则 可 趁机 占领 一 部 分 后 置 缓存 空 
间 。 


数据 中 心 对 SATA 接 口 SSD 的 应 用 占据 了 总 体形 态 的 大 概 90% ， 剩 
下 的 10% 主 要 是 PCIE 接 口 的 Flash， 前 者 基本 被 Intel 独 占 ， 后 者 则 是 花 
开 几 条 ， 其 中 也 不 乏 国 内 厂商 。 


PCIE Flash 是 大 势 所 趋 ， 尤 其 是 支持 NVMe 标 准 的 设备 。 但 是 目前 
的 形态 却 不 被 看 好 ， 别 看 当下 多 人 在 此 领域 角逐 。 当 前 形态 存在 的 问 
题 是 维护 困难 、 版 型 太 大 ， 这 些 均 不 符合 数据 中 心 对 硬件 资源 的 要 求 
(一 个 是 维护 方便 ， 另 一 个 是 资源 性 能 和 容量 粒度 要 尽 可 能 低 ， 以 便 
于 灵活 拼 搭 ) 。 而 基于 SFF8639 接 口 标准 的 设备 相信 马上 就 会 遍地 开 
花 。 


综 上 所 述 ， 各 种 新 技术 对 存储 系统 的 方方面面 产生 了 很 大 影响 ， 
如 今 IT 界 概念 频 出 ， 五 彩 缤纷 ， 众 多 的 存储 厂商 唯 有 分 析 历 史 ， 分 析 
当前 ， 才 能 看 清 未 来 。 


后 记 


石灰 吟 


千 锤 万 沿 出 深山 ， 
烈火 焚烧 若 等 闲 。 
粉 身 碎 骨 浑 不 怕 ， 
要 留 清白 在 人 间 ! 


一 一 于 谦 


各 位 朋友 ， 非 常 感谢 您 能 看 完 此 书 。 如 果 您 对 这 本 书 有 何 建议 和 
意见 。 可 以 发 送 邮件 到 122567712@Dqq.com， 我 当 万 分 感谢 ! 


另外 ， 还 可 以 到 本 人 博客 留言 或 者 邮件 讨论 本 书 相关 的 内 容 。 


最 后 ， 实 在 想不到 拿 什 么 送 给 各 位 以 表 谢 意 ， 就 送 各 位 一 首 诗 ， 
也 适 给 我 目 己 。 


书 湖 掌中 


闭关 数 载 修 此 书 ， 

练 得 秘籍 献 江湖 。 

七 星 降 龙 独孤 掌 ， 

多 少 豪杰 醉 其 中 ! 
书 中 角色 最 后 归宿 : 


七 星 大 侠 : 开 天 曙 祖 ， 交 堪 永 照 。 


张 真人 : 百年 求 道 ， 一 生 和 孜孜 不 倦 、 德 高 望 重 、 悬 壶 济世 、 鞠 身 


尽 阅 、 死 而 后 已 。 


微软 老道 : 承蒙 张 真人 赏识 ,不负众望 ， 成 为 武林 盟主 。 
无 忌 : 革命 之 后 ， 到 处 求 仙 访 道 ， 不 知 其 踪 。 

老 T: 把 持 武 林 交 通 系统 ， 依 然 向 最 后 一 块 阵 地 不 断 进攻 。 
FC 大 侠 : 把 持 着 那 最 后 一 片 领土 ， 与 老 T 对 峙 到 底 。 


